CN113761126A - 文本内容的识别方法、装置、设备及可读存储介质 - Google Patents

文本内容的识别方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN113761126A
CN113761126A CN202110578706.6A CN202110578706A CN113761126A CN 113761126 A CN113761126 A CN 113761126A CN 202110578706 A CN202110578706 A CN 202110578706A CN 113761126 A CN113761126 A CN 113761126A
Authority
CN
China
Prior art keywords
word
character
text content
quantitative
relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110578706.6A
Other languages
English (en)
Inventor
向玥佳
傅勇昊
张云燕
陈曦
曹佳润
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110578706.6A priority Critical patent/CN113761126A/zh
Publication of CN113761126A publication Critical patent/CN113761126A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种文本内容的识别方法、装置、设备及可读存储介质,涉及计算机领域。该方法包括:获取目标文本内容,目标文本内容中包括数量词;从目标文本内容中提取数量词;基于数量词在目标文本内容中的上下文内容,从目标文本内容中确定与数量词存在关联关系的关系词,关系词用于表达数量词在目标文本内容中的含义;输出数量词与关系词之间的匹配关系。利用该方法可以有效的提高信息交互率,能够使用户结合关系词对数量词有进一步深入的理解,提高理解数量词所表达的实际含义的效率。

Description

文本内容的识别方法、装置、设备及可读存储介质
技术领域
本申请实施例涉及计算机领域,特别涉及一种文本内容的识别方法、装置、设备及可读存储介质。
背景技术
在各个领域所涉及的无结构文本中,都包括一些具有实际度量价值的数量词,这些数量词能够提供给我们一些客观且重要的信息,例如180cm、90kg等等。
相关技术中,通常采用基于规则匹配的方法直接抽取无结构文本中的数量词,而基于规则匹配的方法需要人工撰写关于数量词抽取的规则或者正则表达式。
然而在实际应用过程中,仅知道数量词,对于数量词的理解是远远不够的,也即,单独得到一个数量词是无法对该数量词有进一步的了解,信息交互率较低,且对提取到的数量词是否有实际意义是无法确定的。
发明内容
本申请实施例提供了一种文本内容的识别方法、装置、设备及可读存储介质,一定程度上提高了信息交互率。所述技术方案如下:
一方面,提供了一种文本内容的识别方法,所述方法包括:
获取目标文本内容,所述目标文本内容中包括数量词;
从所述目标文本内容中提取所述数量词;
基于所述数量词在所述目标文本内容中的上下文内容,从所述目标文本内容中确定与所述数量词存在关联关系的关系词,所述关系词用于表达所述数量词在所述目标文本内容中的含义;
输出所述数量词与所述关系词之间的匹配关系。
另一方面,提供了一种文本内容的识别装置,所述装置包括:
获取模块,用于获取目标文本内容,所述目标文本内容中包括数量词;
提取模块,用于从所述目标文本内容中提取所述数量词;
确定模块,用于基于所述数量词在所述目标文本内容中的上下文内容,从所述目标文本内容中确定与所述数量词存在关联关系的关系词,所述关系词用于表达所述数量词在所述目标文本内容中的含义;
输出模块,用于输出所述数量词与所述关系词之间的匹配关系。
在一个可选的实施例中,所述确定模块,还用于对所述数量词和所述目标文本内容进行编码,得到所述目标文本内容中n个字符对应的第一特征向量,n为正整数;对第i个字符的第一特征向量进行关系概率预测,得到所述第i个字符属于所述关系词的概率值,1≤i≤n;基于所述概率值,从所述目标文本内容中确定所述关系词。
在一个可选的实施例中,所述概率值包括第一概率值和第二概率值,所述第一概率值用于表示所述第i个字符作为所述关系词的开始字符的概率,所述第二概率值用于表示所述第i个字符作为所述关系词的结束字符的概率;
所述确定模块,还用于基于n个字符对应的所述第一概率值,从所述n个字符中确定所述关系词的第一起始字符;基于所述n个字符对应的所述第二概率值,从所述n个字符中确定所述关系词的第一结束字符;获取所述第一起始字符开始至所述第一结束字符为止的字符作为所述关系词。
在一个可选的实施例中,所述关系词包括属性关系词、实体关系词和限定关系词中的至少一种;
响应于所述关系词中包括属性关系词,所述第一起始字符包括属性起始字符,所述第一结束字符包括属性结束字符;
响应于所述关系词中包括实体关系词,所述第一起始字符包括实体起始字符,所述第一结束字符包括实体结束字符;
响应于所述关系词中包括限定关系词,所述第一起始字符包括限定起始字符,所述第一结束字符包括限定结束字符。
在一个可选的实施例中,所述提取模块,还用于对所述目标文本内容进行编码,得到所述目标文本内容中n个字符对应的第二特征向量;对第i个字符对应的所述第二特征向量进行数量词概率预测,得到第i个字符属于所述数量词的概率值;基于n个字符属于所述数量词的概率值从所述目标文本内容中提取所述数量词。
在一个可选的实施例中,所述第i个字符属于所述数量词的概率值包括第三概率值和第四概率值,所述第三概率值表示所述第i个字符作为所述数量词的开始字符的概率,所述第四概率值用于表示所述第i个字符作为所述数量词的结束字符的概率;
所述提取模块,还用于基于n个字符对应的所述第三概率值,从n个字符中确定所述数量词的第二起始字符;基于n个字符对应的所述第四概率值,从n个字符中确定所述数量词的第二结束字符;获取所述第二起始字符开始至所述第二结束字符为止的字符作为所述关系词。
在一个可选的实施例中,所述装置,还包括:
分类模块,用于对所述数量词进行分类预测,得到所述数量词对应的分类结果,所述分类结果用于表示所述数量词的度量价值,所述分类结果包括定量值、范围值和近似值中的任意一种。
在一个可选的实施例中,所述输出模块还用于响应于所述数量词的末尾字符出现在预设单位集合中,输出所述预设单位集合中与所述末尾字符对应的最长单位,将所述最长单位确定为所述数量词对应的单位;或者,
所述输出模块,还用于响应于所述末尾字符未出现在所述预设单位集合中,对所述数量词进行向前遍历操作,输出遍历过程中的第一个非字母之后的字符,并将输出的字符作为所述数量词的单位。
另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中任一所述的文本内容的识别方法。
另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述本申请实施例中任一所述的文本内容的识别方法。
另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中任一所述的文本内容的识别方法。
本申请实施例提供的技术方案带来的有益效果至少包括:
通过确定目标文本内容中的数量词,结合该数量词的上下文内容,从目标文本内容中确定出用于描述或者限定数量词的关系词,并对抽取出的关系词与数量词对应的关系进行匹配,很大程度上提高了信息交互率,能够使用户结合关系词对数量词有进一步深入的理解,提高理解数量词所表达的实际含义的效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个示例性实施例提供的实施环境示意图;
图2是本申请一个示例性实施例提供的文本内容的识别方法的流程图;
图3是本申请另一个示例性实施例提供的提取数量词方法的流程图;
图4是本申请另一个示例性实施例提供的分类数量词的流程图;
图5是本申请另一个示例性实施例提供的识别数量词单位的流程图;
图6是本申请另一个示例性实施例提供的数量词及其关系抽取方法的示意图;
图7是本申请一个示例性实施例提供的文本内容的识别装置的结构框图;
图8是本申请另一个示例性实施例提供的文本内容的识别装置的结构框图;
图9是本申请一个示例性的实施例提供的服务器的结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
首先,对本申请所提供的实施例的应用场景进行简单介绍:
第一,本申请可以应用于医疗场景,具体为对病历文档/检测报告实现自动化分析,从病历文档/检测报告中自动抽取出关于患者的各项检测指标对应的数量词及其对应的单位,同时提供提取数量词所描述的实体关系词、属性关系词以及限定关系词等理解该数量词对应的关键信息。本申请实施例还可以将输入的无结构文本(病历文档/检测报告)转换为结构化的表格信息,为下游的病历分析工作提供对应的支持。示意性的,某医院检测住院患者的脉搏,并对检测结果进行统计,可以利用本申请提供的方法,对每个患者的检测报告中的脉搏指标对应的数量词以及关系词进行提取,得到如下表1中所示的汇总信息。
表1:某医院住院患者的脉搏汇总
姓名 检测项目 检测结果
张三 脉搏 66次/min
李四 脉搏 76次/min
王五 脉搏 80次/min
吴海 脉搏 70次/min
第二,可以应用于论文分析场景,从大量的论文、文献等资料中抽取关键性的指标数据,对关键性的指标进行自动分析,能够快速的确定数据差异,并基于该差异确定后续的研究/实验方向。
第三,可以应用于报告数据分析的场景,抽取出报告中实验数据与制定的标准数据、排除标准进行对比分析,实现自动化完成报告中对重要数据是否符合标准的自动判断。
以上场景仅为示例性举例,还可以应用于其他的分析文本内容的场景,本申请对此不加以限定。
其次,对本申请实施例中涉及的名词进行简单介绍:
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
语音技术(Speech Technology)的关键技术有自动语音识别技术(AutomaticSpeech Recognition,简称ASR)和语音合成技术(Text-To-Speech,简称TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
无结构文本是最简单的文件组织形式。无结构文本将数据按顺序组织成记录并积累保存,它是有序信息向的集合,以字节(Byte)为单位。由于无结构文本没有具体结构,因而对记录的访问只能通过穷举搜索的方式。本申请实施例中,主要识别无结构文本中的数量词,以及数量词对应描述的关系词,无结构文本可以是病历文档、实验数据、科研文章等等,本申请对此不加以限定。
数量词(quantity)是指医疗、科学文章等无结构文本中出现的具有实际含义的数量词,例如180cm,90kg。本申请实施例中,该数量词一般是带有单位描述的字符。
关系词用于表达数量词在无结构文本中结合上下文信息所表达的实际含义,其中包括实体关系词、属性关系词以及限定关系词。其中,实体关系词是指数量词所描述的实体,可以是人、物等等;属性关系词是指数量词所描述的属性,可以是身高、体重、容量等等;限定关系词是在数量词和被描述实体出现的上下文中有助于数量词理解的表达,例如,平均身高180cm,其中,数量词为180cm,其限定关系词为“平均”。可以看出,限定关系词是对数量词的一种限定表达方式,限定关系词对数量词的理解是一个重要的上下文信息。
本申请实施例中主要识别无结构文本中包含的数量词以及数量词对应的关系词;本申请还可以用于判定数量词和关系词之间的关系,实际实现为关系抽取模型,该关系抽取模型中包括实体抽取模型、属性抽取模型以及限定表达抽取模型。
实体抽取模型用于表示数量词与被描述实体/被描述属性(实体关系词/属性关系词)的关系,可以实现为三元组进行输出,例如(实体关系词a,实体抽取,数量词a)用于表示的具体含义为该实体a被数量词a所描述。
属性抽取模型用于表示被描述实体拥有某种属性,可以实现为三元组进行输出,例如(实体关系词b,属性抽取,属性关系词b)所表示的具体含义为实体b拥有属性b。
限定表达抽取模型用于表示数量词和限定关系词之间的限定关系,可以实现为三元组进行输出,例如(限定关系词c,限定表达抽取,数量词c)所表示的具体含义为限定关系词c对数量词c进行了限定。
最后,结合上述应用场景和名词介绍对本申请实施例提供的实施环境进行说明。
图1是本申请一个示例性实施例提供的实施环境示意图,如图1所示,该实施环境中包括终端110和服务器120,终端110和服务器120之间通过通信网络130连接;
终端110内安装有提供用于识别文本内容的应用程序或者识别文本对应的网页。可选的,用户在终端110中确定目标文本内容后,将目标文本内容选定为待识别数量词的内容,该目标文本内容可以是在线文本、本地文本、音频内容等等。在一些实施例中,由终端110通过通信网络130将目标文本内容上传至服务器120,或者,目标文本内容为在线文本时,服务器120从该在线文本所在的服务器直接获取该目标文本内容,或者,目标文本内容为音频内容时,终端110将该音频内容利用ASR技术将其转换为文本内容,并将转换后的文本内容上传至服务器120中。
服务器120获取目标文本内容,并从目标文本内容中确定对应的数量词,并基于该数量词从目标文本内容确定出与数量词匹配的关系词。当服务器120对目标文本内容中的数量词和关系词提取后,将提取关系词通过通信网络130反馈至终端110中,或者,将提取的数量词和关系词之间的匹配的关系通过通信网络130反馈至终端110中。在一些实施例中,服务器120可以以表格、元组等方式将数量词与关系词之间的匹配关系反馈至终端110中,本申请实施例对反馈的形式不加以限定。
值得注意的是,上述终端110可以实现为手机、平板电脑、可穿戴设备、便携式膝上笔记本电脑等移动终端,也可以实现为台式电脑等终端,本申请实施例对此不加以限定。
上述服务器120可以实现为一台服务器,也可以实现为多台服务器组成的服务器集群,上述服务器120可以实现为物理服务器,也可以实现为云服务器,本申请实施例对此不加以限定。
结合上述实施环境,对本申请实施例中涉及的文本内容的识别方法进行说明,图2是本申请一个示例性实施例提供的文本内容的识别方法的流程图,以该方法应用于服务器中进行说明,如图2所示,该方法包括:
步骤201,获取目标文本内容。
在一些实施例中,目标文本内容包括但不限于病历文档、临床试验数据、检测报告、维护日志、客服记录等等;若初始的原始数据是语音数据或者视频数据,可选的,服务器利用语音识别技术对原始数据进行识别获得目标文本内容。
在一些实施例中,目标文本内容中包括数量词,该数量词用于表示具有一定度量价值的字符,例如目标文本内容A为“小明的心率为90次/min”,其中数量词为“90次/min”,目标文本内容B为“小红身高180cm”,其中数量词为“180cm”,在实际应用过程中,需要对这些数量词进行进一步研究,确定数量词对应的描述客体,该描述客体中包括但不限定被描述实体、被描述属性以及限定表达等等,确定该数量词对应的实际含义。
可选的,上述目标文本内容的获取方式包括如下方式中的至少一种:
第一,服务器接收终端上传的目标文本内容。
在一些实施例中,终端向服务器上传待识别的目标文本内容,服务器接收该目标文本内容,并确定目标文本内容中的数量词和对应的关系词。可选的,在终端向服务器上传目标文本内容的同时,还可以向服务器发送识别目标文本内容的识别要求,该识别要求包括识别数量词、识别关系词、识别数量词与关系词之间的匹配关系中的至少一种:
第二,服务器接收终端发送的文本内容链接,并基于该文本内容链接从其他服务器中获取目标文本内容。
在一些实施例中,服务器在接收到终端发送的文本内容链接时,基于该文本内容链接从链接网址对应的服务器中获取目标文本内容。可选的,终端在向服务器发送文本内容链接时,还可以向服务器指示对目标文本内容进行识别的识别要求。
第三,服务器接收终端上传的多媒体文件,多媒体文件包括图片、音频内容、视频内容中的至少一种。
可选的,服务器接收终端上传的图片,该图片中包含文字信息,服务器利用光学字符识别技术(Optical Character Recognition,简称OCR)将图片中的文字内容转换为识别后的文本内容,并将识别后的文本内容确定为目标文件内容,服务器对该目标文件内容进行对应的识别操作,确定该目标文件内容中的数量词以及数量词对应的关系词。
可选的,服务器接收终端上传的音频内容/视频内容,该音频内容/视频内容可以为通话记录、视频记录等中的至少一种,服务器利用语音识别技术将音频内容/视频内容转换为文本内容,可选的,终端在上传音频内容/视频内容的同时,可以将音频内容/视频内容对应的字幕文件上传至服务器中,服务器直接将字幕文件作为目标文本内容进行数量词以及数量词对应的关系词的识别。
第四,当执行主体实现为终端时,终端可以从本地数据库中获取目标文本内容;或者,终端从服务器中下载目标文本内容。
值得注意的是,上述获取目标文本内容的方式仅为示意性的举例,本申请实施例对此不加以限定。
步骤202,从目标文本内容中提取数量词。
数量词是指无结构的目标文本内容中出现的具有实际含义的数量词,例如180cm,90kg。本申请实施例中,该数量词是带有单位描述的字符,该无结构文本可以是医疗、科学文章、客服记录等中的至少一种。
步骤203,基于数量词在目标文本内容中的上下文内容,从目标文本内容中确定与数量词存在关联关系的关系词,关系词用于表达数量词在目标文本内容中的含义。
关系词用于表达数量词在目标文本内容(无结构文本)中结合上下文信息所表达的实际含义,其中包括实体关系词、属性关系词以及限定关系词。其中,实体关系词是指数量词所描述的实体,可以是人、物等等;属性关系词是指数量词所描述的属性,可以是身高、体重、容量等等;限定关系词是在数量词和被描述实体出现的上下文中有助于数量词理解的表达;示例性的,以目标文本内容为“班级A中的同学平均身高为160cm”为例进行说明,其中,数量词为“160cm”,实体关系词为“同学”/“班级A中的同学”,属性关系词为“身高”,限定关系词为“平均”。可以看出,如果仅知道数量词“160cm”,是无法全面的理解该数量词所描述的实际含义的,而关系词是对数量词的一种限定性的表达,也就是说,关系词对数量词的理解是一个重要的上下文信息。
服务器提取目标文本内容中的数量词,并将数量词和目标文本内容进行编码,得到目标文本内容中n个字符对应的第一特征向量,n为正整数,对第i个字符的第一特征向量进行关系概率预测,得到第i个字符属于关系词的概率值,1≤i≤n。
在一些实施例中,概率值包括第一概率值和第二概率值,第一概率值用于表示第i个字符作为关系词的开始字符的概率,第二概率值用于表示第i个字符作为关系词的结束字符的概率。
在一些实施例中,基于n个字符对应的第一概率值,从n个字符中确定关系词的第一起始字符;基于n个字符对应的第二概率值,从n个字符中确定关系词的第一结束字符。可选的,将n个字符中第一概率值最大的字符作为关系词的第一起始字符,将n个字符中第二概率值最大的字符作为关系词的第一结束字符;或者,将n个字符中第一概率值大于某一预设阈值的字符作为关系词的第一起始字符,将n个字符中第二概率大于某一预设阈值的字符作为关系词的第一结束字符,预设阈值可以由程序员设定,也可以基于关系词概率预测过程进行数值的自动调节。上述关系词概率预测公式请参见公式1以及公式2。
公式1:
Figure BDA0003085402370000111
公式2:
Figure BDA0003085402370000112
公式1与公式2中,
Figure BDA0003085402370000113
用于表示第i个字符作为关系词的第一起始字符的概率值,
Figure BDA0003085402370000114
用于表示第i个字符作为关系词的第一结束字符的概率值,
Figure BDA0003085402370000115
用于表示输入的数量词,hi用于表示第i个字符对应的向量表示,σ用于表示sigmoid函数,
Figure BDA0003085402370000116
Figure BDA0003085402370000117
用于表示第r种关系词对应的权重参数,
Figure BDA0003085402370000118
Figure BDA0003085402370000119
用于表示第r种关系词对应的偏差参数,1≤i≤n。
在本申请实施例中,r的取值为3,当r取值为1时,
Figure BDA00030854023700001110
用于表示第i个字符作为实体关系词的第一起始字符对应的权重值,
Figure BDA00030854023700001111
用于表示第i个字符作为实体关系词的第一结束字符对应的权重值,
Figure BDA00030854023700001112
用于表示第i个字符作为实体关系词的第一起始字符对应的偏差值,
Figure BDA00030854023700001113
用于表示第i个字符作为实体关系词的第一结束字符对应的偏差值。
当r取值为2时,
Figure BDA00030854023700001114
用于表示第i个字符作为属性关系词的第一起始字符对应的权重值,
Figure BDA00030854023700001115
用于表示第i个字符作为属性关系词的第一结束字符对应的权重值,
Figure BDA00030854023700001116
用于表示第i个字符作为属性关系词的第一起始字符对应的偏差值,
Figure BDA00030854023700001117
用于表示第i个字符作为属性关系词的第一结束字符对应的偏差值。
当r取值为3时,
Figure BDA00030854023700001118
用于表示第i个字符作为限定关系词的第一起始字符对应的权重值,
Figure BDA00030854023700001119
用于表示第i个字符作为限定关系词的第一结束字符对应的权重值,
Figure BDA00030854023700001120
用于表示第i个字符作为限定关系词的第一起始字符对应的偏差值,
Figure BDA00030854023700001121
用于表示第i个字符作为限定关系词的第一结束字符对应的偏差值。
在一些实施例中,
Figure BDA00030854023700001122
Figure BDA00030854023700001123
可以在关系词概率预测过程中自动调节。
示例性,对权重参数结合具体场景进行说明,以语句A“502教室大概有40个同学”为例,服务器提取该语句A中的数量词“502”以及“40个”,对数量词“502”、“40个”分别进行关系词概率预测,在预测过程中,数量词“502”的权重参数小于数量词“40个”的权重参数,最终对数量词“40个”进行重点研究,为下游数据汇总或者数据预测提供数据支撑。
可选的,获取第一起始字符开始至第一结束字符为止的字符作为数量词对应的关系词;或者,确定数量词对应的关系词的第一起始字符和第一结束字符,并在第一特征向量中对第一起始字符和第一结束字符对应的字符进行标注,服务器对第一起始字符和第一结束字符进行一对一匹配,得到关系词对应的坐标对,并基于该坐标对从目标文本内容定位数量词对应的关系词。
在一些实施例中,关系词包括属性关系词、实体关系词以及限定关系词中的至少一种,下述将对三种关系词的确定方式进行进一步介绍。
响应于所述关系词中包括属性关系词,第一起始字符包括属性起始字符,第一结束字符包括属性结束字符,可选的,将属性起始字符开始至属性结束字符为止的字符作为属性关系词;或者,服务器对目标文本内容进行编码得到的第一特征向量,将第一概率值最大的字符对应的向量标记为属性起始字符,将第二概率值最大的字符对应的向量标记为属性结束字符,服务器将经过属性关系词标记的第一特征向量中的属性起始字符和属性结束字符进行匹配,得到属性关系词坐标对,该属性关系词坐标对用于从目标文本内容中定位数量词对应的属性关系词。
响应于所述关系词中包括实体关系词,第一起始字符包括实体起始字符,第一结束字符包括实体结束字符,可选的,将实体起始字符开始至实体结束字符为止的字符作为实体关系词;或者,服务器对目标文本内容进行编码得到的第一特征向量,将第一概率值最大的字符对应的向量标记为实体起始字符,将第二概率值最大的字符对应的向量标记为实体结束字符,服务器将经过实体关系词标记的第一特征向量中的实体起始字符和实体结束字符进行匹配,得到实体关系词坐标对,该实体关系词坐标对用于从目标文本内容中定位数量词对应的实体关系词。
响应于所述关系词中包括限定关系词,第一起始字符包括限定起始字符,第一结束字符包括限定结束字符,可选的,将限定起始字符开始至限定结束字符为止的字符作为限定关系词;或者,服务器对目标文本内容进行编码得到的第一特征向量,将第一概率值最大的字符对应的向量标记为限定起始字符,将第二概率值最大的字符对应的向量标记为限定结束字符,服务器将经过限定关系词标记的第一特征向量中的限定起始字符和限定结束字符进行匹配,得到限定关系词坐标对,该限定关系词坐标对用于从目标文本内容中定位数量词对应的限定关系词。
示意性的,以目标文本内容“张小红身高160cm”为例进行举例说明,提取目标文本内容中的数量词“160cm”,进而提取该数量词“160cm”相关的数量词,识别该数量词对应的实体关系词时,将字符“张”作为实体起始字符,将“红”作为实体结束字符,并将从字符“张”开始到字符“红”为止的所有字符“张小红”作为数量词“160cm”的实体关系词;识别该数量词对应的属性关系词时,将字符“身”作为属性开始字符,将字符“高”作为属性结束字符,并将从字符“身”开始到字符“高”为止的所有字符“身高”作为数量词“160cm”的属性关系词。
本申请实施例中,可以将提取数量词与数量词对应的关系词的过程实现为关系抽取模型,该关系抽取模型中包括实体关系词标注器、属性关系词标注器以及限定关系标注器等,每一个关系词标注器都包含一个开始标注序列和一个结束标注序列,将开始标注序列和结束标注序列所描述的关系词进行匹配,得到数量词对应的关系词。
步骤204,输出数量词与关系词之间的匹配关系。
服务器从经过编码的第一特征向量中确定出与数量词对应的关系词,该关系词包括但不限于实体关系词、属性关系词以及限定关系词。
服务器将数量词和关系词之间的关系以表格的形式反馈至终端中,或者以元组的形式反馈至终端。
在一些实施例中,服务器将确定的多个关系词内部之间的匹配关系进行分析处理,并将分析结果输出,反馈至终端中。以关系词“体重”,“平均”以及“小红”以及数量词“50kg”为例进行举例说明,服务器以二元元组的形式输出关系词和数量词之间的匹配关系(体重,50kg),(平均,50kg)以及(小红,50kg),服务器还可以判断“体重”,“平均”以及“小红”之间的关系,将判断结果以三元元组的形式输出,(小红,属性抽取,体重),该三元元组用于表示该数量词描述的是小红的体重。
在一些实施例中,服务器将提取出的关系词均相同的数量词进行平均计算,将平均计算结果作为预测值进行应用,例如,以属性关系词“体重”,无限定关系词以及实体关系词“人”的数量词进行频次统计,当频次大于某一预设值后,将统计的描述“人”的“体重”相关的所有数量词进行平均计算,并将该平均值预测值进行应用。
综上所述,本申请实施例提供的文本内容的识别方法,通过确定目标文本内容中的数量词,结合该数量词的上下文内容,从目标文本内容中确定出用于描述或者限定数量词的关系词,并对抽取出的关系词与数量词对应的关系进行匹配,很大程度上提高了信息交互率,能够使用户结合关系词对数量词有进一步深入的理解,提高理解数量词所表达的实际含义的效率。
在一个可选的实施例中,本申请实施例提供的方法,还可以应用于对数量词的提取过程。具体请参见图3,图3是本申请另一个示例性实施例提供的提取数量词方法的流程图,以该方法应用于服务器中为例进行说明如图3所示,该方法包括:
步骤301,对目标文本内容进行编码。
服务器接收目标文本内容,并对目标文本内容进行编码,得到目标文本内容中n个字符对应的第二特征向量,n为正整数,利用指针解码的方式对第二特征向量中的n个字符进行标注。在一些实施例中,还可以利用CRF解码方式或者采用token分类的解码的方式提取目标文本内容内的数量词。
步骤302,对第i个字符对应的第二特征向量进行数量词概率预测,得到第i个字符属于数量词的概率值。
服务器需要对第二特征向量中的每一个字符进行数量词概率预测,将大于某一阈值的字符确定为数量词,或者,将概率值中概率值最大的字符标注数量词。
在一些实施例中,该概率值包括第三概率值和第四概率值,第三概率值用于表示第i个字符作为数量词的开始字符的概率,第四概率值用于表示第i个字符作为数量词的结束字符的概率。
步骤303,基于n个字符属于数量词的概率值从目标文本内容中提取数量词。
在一些实施例中,基于n个字符对应的第三概率值,从n个字符中确定数量词的第二起始字符;基于n个字符对应的第四概率值,从n个字符中确定关系词的第二结束字符。可选的,将n个字符中第三概率值最大的字符作为数量词的第一起始字符,将n个字符中第四概率值最大的字符作为数量词的第二结束字符;或者,将n个字符中第三概率值大于某一预设阈值的字符作为数量词的第二起始字符,将n个字符中第四概率大于某一预设阈值的字符作为数量词的第二结束字符,预设阈值可以由程序员设定,也可以基于关系词概率预测过程进行数值的自动调节。
在一些实施例中,从目标文本内容中提取数量词的方法包括如下方式:
第一,对编码后的目标文本内容进行数量词概率预测。
服务器对目标文本内容的n个字符进行指针编码,n为正整数,得到目标文本内容对应的第二特征向量,对第二特征向量中的第i个字符进行数量词概率预测,1≤i≤n,具体的数量词概率预测过程在后续叙述中进行详述。
第二,使用自然语言处理技术对目标文本内容进行处理。
服务器利用自然语言处理技术对目标文本内容进行断句处理,其中,自然语言处理技术包括但不限于条件随机场(Conditional Random Field,简称CRF)和基于神经网络的断句方法,进而对断句后的语句进行字符识别,将符合字符类别的字符确定为数量词。
本申请实施例中,主要采用对编码后的目标文本内容进行数量词概率预测的方式提取数量词,具体过程请参见下述表达。
在一些实施例中,输入一个目标文本内容S={w1,w2,…,wn},其中,wi表示该目标文本内容中的第i个字符,服务器将该句子进行BERT编码得到第二特征向量R={r1,r2,…,rn},其中,ri用于表示wi经过编码的向量表示;对第二特征向量中的每个字符作为第二开始字符进行概率分布计算,得到Pstart={p1,p2,…,pn},其中,Pi用于表示wi作为第二开始字符的概率值,将概率值最大的字符作为数量词的第二开始字符;对第二特征向量每个字符作为第二结束字符进行概率分布计算,Pend={p1,p2,…,pn},其中,Pi用于表示wi作为第二结束字符的概率值,将概率值最大的字符作为数量词的第二结束字符;将第二开始字符和第二结束字符进行匹配,得到数量词的坐标对(start,end),基于该坐标对从目标文本内容定位数量词,其中,start用于表示第二开始字符在目标文本内容中的位置,end用于表示第二结束字符在目标文本内容中的位置。
在一些实施例中,为了提供识别数量词的准确率召回率,还可以利用多折投票融合和多模型并集融合的方式识别数量词,以下对多折投票融合和多模型并集融合进行具体说明。
多折投票融合是指将训练集拆成k份,每次将k-1份数据作为训练集,剩下的一份作为验证集,完成模型的训练。也即,一共有k份数据,则可以做k次训练,每次用不同的数据训练得到k个模型。每个模型都能在测试集上测试得到一个测试结果,并得到一份测试结果集合,统计该测试集合中每一个数量词在结果集合里面出现的次数,每一个数量词出现的次数n大于某一个阈值的数量词留下,完成多折投票融合。示意性的,以十折投票融合为例进行说明,有100份数据,将前90条数据作为训练集(该训练集中对应有9个数量词识别模型),将最后10条数据作为测试集,得到10个数量词识别模型,在得到的数量词存在差异时,可以通过投票的方式确定最终的数量词。
多模型并集融合方式是利用多个数量词识别模型,识别目标文本内容中的数量词,综合多个数量词识别模型的结果,确定最终的数量词。
综上所述,本申请实施例提供的文本内容的识别方法,利用概率预测的方式确定目标文本内容对应的第二起始字符和第二结束字符,将第二起始字符和第二结束字符之间的字符确定为数量词,为了提高数量词的识别准确率以及召回率,还可以采用不同的解码方式解码得到不同的结果,将结果进行融合确定最终的数量词。
在另一个示例性实施例中,本申请实施例提供的方法,还可以应用于对数量词的分类预测过程。具体请参见图4,图4是本申请另一示例性实施例提供的分类数量词的流程图,以该方法应用于服务器中为例进行说明,如图4所示,该方法包括:
步骤401,从目标文本内容中识别数量词。
服务器接收目标文本内容,并对目标文本内容进行编码,得到目标文本内容中n个字符对应的第二特征向量,n为正整数,利用指针解码的方式对第二特征向量中的n个字符进行标注。
服务器对第二特征向量中的每一个字符进行数量词概率预测,将大于某一阈值的字符确定为数量词,或者,将概率值中概率值最大的字符标注数量词。
该步骤与步骤301至步骤302的流程相同,此处不再赘述。
步骤402,从目标文本内容中确定与数量词对应的限定关系词。
服务器对目标文本内容进行编码得到的第一特征向量,将第一概率值最大的字符对应的向量标记为限定起始字符,将第二概率值最大的字符对应的向量标记为限定结束字符,服务器将经过限定关系词标记的第一特征向量中的限定起始字符和限定结束字符进行匹配,得到限定关系词坐标对,该限定关系词坐标对用于从目标文本内容中定位数量词对应的限定关系词。
该步骤与步骤203的流程相同,此处不再赘述。
步骤403,对数量词进行分类预测,得到分类结果。
在一些实施例中,目标文本内容中包括带有限定表达的数量词,也即,该数量词对应存在限定关系词,服务器需要对带有限定表达的数量词进行分类预测,并得到该数量词对应的分类结果,该分类结果表示所述数量词的度量价值,其中,该分类结果包括定量值、范围值和近似值中的任意一种。示例性的,以文本a“大于40kg”为例,将数量词“40kg”进行分类,得到该数量词属于范围值;以文本b“大约40kg”为例,对数量词“40kg”进行分类,得到该数量词属于近似值,以文本c“40kg”为例,对数量词“40kg”进行分类,得到该数量词属于定量值。
在一个示例性实施例中,对识别出的数量词进行编码,得到该数量词对应的表征向量ci,将表征向量ci作为特征放入多分类器中进行分类,得到该数量词对应的类型yi,具体可参见如下公式3至公式4。
公式3:ci=BERT([xi-n;…;xn;…;xi+n])
公式4:
Figure BDA0003085402370000171
其中,公式3至公式4中,xi用于表示数量词中第i个字符,n用于表示数量词中的字符个数,1≤i≤n。可选的,可以将上述公式3至公式4涉及的数量的分类过程训练为数量词分类模型。
综上所述,本申请实施例提供的文本内容的识别方法,利用概率预测确定目标文本内容中的数量词,并对数量词进行编码,放入预先设置的分类器中进行分类,得到数量词所属的度量范围,为后续研究数量词提供一定的数据支撑,同时有助于理解该数量词所表达的限定含义。
在一个可选的实施例中,本申请实施例提供的方法,还可以应用于对数量词的单位识别过程。具体请参见图5,图5是本申请另一个示例性实施例提供的识别数量词单位的流程图,以该方法应用于服务器中为例进行说明,如图5所示,该方法包括:
步骤501,从目标文本内容中识别数量词。
在一些实施例中,目标文本内容包括但不限于病历文档、临床试验数据、检测报告、维护日志、客服记录等等;若初始的原始数据是语音数据或者视频数据,可选的,服务器利用语音识别技术对原始数据进行识别获得目标文本内容。
在一些实施例中,目标文本内容中包括数量词,该数量词用于表示具有一定度量价值的字符,例如目标文本内容A为“小明的心率为90次/min”,其中数量词为“90次/min”,目标文本内容B为“小红身高180cm”,其中数量词为“180cm”,在实际应用过程中,需要对这些数量词进行进一步研究,确定数量词对应的描述客体,该描述客体中包括但不限定被描述实体、被描述属性以及限定表达等等,确定该数量词对应的实际含义。
该步骤与步骤201至步骤202的流程相同,此处不再赘述。
步骤502,判断数量词末尾字符是否在预设单位集合中。
预设单位集合为训练阶段中数据集中出现过的单位,得到预设单位集合。
本申请实施例中,数量词中包括单位描述,服务器对数量词中的单位进行识别时,主要判断数量词的末尾字符,该末尾字符为向前遍历时第一个不是字母的字符之后的字符串。
若是末尾字符在预设单位集合中,则执行步骤503;若末尾字符不在预设单位集合中,则执行步骤504。
步骤503,输出与末尾字符对应的最长单位。
响应于所述数量词的末尾字符出现在预设单位集合中,输出所述预设单位集合中与所述末尾字符对应的最长单位,将所述最长单位确定为所述数量词对应的单位。
步骤504,遍历数量词,确定数量词对应的单位。
响应于所述末尾字符未出现在所述预设单位集合中,对所述数量词进行向前遍历操作,输出遍历过程中的第一个非字母之后的字符,并将输出的字符作为所述数量词的单位。
本申请实施例中涉及的数量词单位识别过程可以实现为如下代码:
Figure BDA0003085402370000181
Figure BDA0003085402370000191
对上述代码进行算法说明:
1:对现有数据集进行统计分析,记录下已有的全部单位集合V;
2-6:如果输入的quantity的字符串末尾在V中,则选择长度最长的单位作为输出;
7-10:同时记录最后一个空格的位置;
11-14:做向前遍历,寻找可能的单位的开始位置。直到遇到一个非字母或遍历到quantity的开头第一个数字时;
15-17:如果遍历到了非法位置,则搜索失败;
18:返回最终确定的单位。
综上所述,本申请实施例提供的方法,从目标文本内容中提取出数量词后,对该数量词进行单位识别,提取出理解该数量词相关的单位描述,便于在后续数量词分析过程中,确定该数量词的研究价值和重要程度。
结合上述实施例,对本申请另一示例性实施例进行说明,具体请参见下图6,图6是本申请另一个示例性实施例提供的一种基于深度学习模型的数量词及其关系抽取方法的示意图,以该深度学习模型存储于服务器为例进行说明。
本申请实施例中,该深度学习模型包括编码模型601、数量词提取模型602、关系抽取模型603、分类模型604以及单位识别模型605这五个模型,下述对五个模块的实现原理进行详述。
编码模型601用于将输入的目标文本内容进行编码,得到与目标文本内容对应的特征向量,在后续数量词提取以及关系词识别过程中,可以直接利用经过编码器编码后的特征向量,进行数量词概率预测和关系词概率预测过程。
数量词提取模型602用于识别数量词,对经过编码处理的特征向量中的每一个字符进行数量词概率预测,判断哪一个字符是数量词对应的起始字符,哪一个字符是数量词对应的结束字符,判断规则可以是将概率值大于某一阈值的字符作为起始字符/结束字符,也可以是将特征向量中n个字符对应的概率值中最大的字符作为开始字符/结束字符。并在特征向量中将开始字符和结束字符分别对应的字符进行标记,得到数量词坐标对,后续在提取数量词时,直接应用该数量词坐标对就可以从目标文本内容中定位数量词的具体位置。该步骤中提及的数量词概率预测过程可以参考步骤301至步骤303的内容。
本实施例中,主要是利用CRF层和指针网络层(PointerNetlayer)的方式对目标文本内容中的数量词进行提取。
关系抽取模型603中包括关系词标记器,该关系词标记器包括HasQuantity标记器、HasProperty标记器以及Qualifies标记器,HasQuantity标记器用于标记数量词对应的实体关系词,HasProperty标记器用于标记数量词对应的属性关系词,Qualifies标记器用于标记数量词对应的限定关系词,其中,实体关系词、属性关系词以及限定关系词的识别过程可以参见步骤202至步骤204。
可选的,关系抽取模型603得到的最终结果可以是关系词也可以是关系词与数量词对应的匹配关系,示意性的,将目标文本内容“小红身高156cm”和数量词“156cm”输入该关系抽取模型603中,最终得到的结果可以是“小红”、“身高”,或者,最终得到的结果是“(小红,实体抽取,156cm),(小红,属性抽取,身高),(身高,属性抽取,156cm)”,本申请对该关系抽取模型的识别结果的形式不加以限定。
分类模型604用于对数量词进行类别上的判断,在一些实施例中,提取目标文本内容中的数量词,该数量词经过Softmax分类器进行分类,输出该数量词对应的分类结果,该分类结果中包括定量值、范围值或者近似值中的至少一种,还可以对数量词的属性进行分类,本申请对此不加以限定。
单位识别模型605用于识别数量词中的单位,主要的单位识别方法是判断数量词的末尾字符与预设单位集合的归属关系,该归属关系包括末尾字符在预设单位集合或末位字符不在预设单位集合。预设单位集合是在模型训练过程中,将训练集中出现过的单位纳入预设单位集合中,在后续识别数量词的过程中,判断该数量词的末尾字符是否在预设单位集合中,若在,则输出预设单位集合中与末位字符对应的最长单位,例如,数量词“20个”,在预设单位集合中出现过单位“个”,“个/min”,在输出单位时,将“个/min”作为数量词“20个”的单位,避免识别数量词过程中,丢失数量词单位中的字符;若不在,则向前遍历数量词,将遇到的第一个非字母之后的字符作为该数量词的单位。具体的实现过程可以参见步骤501至步骤504。
在该实施例中,可以将编码模型601、数量词提取模型602、关系抽取模型603、分类模型604以及单位识别模型605分开进行应用,也可以任一结合应用,本申请对此不加以限定。
综上所述,本申请实施例提供的一种基于深度学习的数量词及其关系词识别方法,首先对目标文本内容进行编码,对编码后的特征向量进行关系词概率预测确定对应的数量词,基于该数量词从目标文本内容中识别出与数量词对应的实体关系词、属性关系词以及限定关系词,同时判定关系词与数量词之间的关系。识别出数量词与数量词对应的关系后,便于更加深入的了解该数量词对应表达的实际含义,还可以对数量词进行分类以及单位识别,从目标文本内容中抽取出较为重要的数量词信息以及理解数量词所需要的上下文表达,一定程度上提高了信息交互效率,能够使用户结合关系词对数量词有进一步深入的理解,提高理解数量词所表达的实际含义的效率。
图7是本申请一个示例性实施例提供的交换资源的支付装置的结构框图,如图6所示,该装置包括:获取模块710、提取模块720、确定模块730以及输出模块740;
获取模块710,用于获取目标文本内容,所述目标文本内容中包括数量词;
提取模块720,用于从所述目标文本内容中提取所述数量词;
确定模块730,用于基于所述数量词在所述目标文本内容中的上下文内容,从所述目标文本内容中确定与所述数量词存在关联关系的关系词,所述关系词用于表达所述数量词在所述目标文本内容中的含义;
输出模块740,用于输出所述数量词与所述关系词之间的匹配关系。
在一个可选的实施例中,所述确定模块730,还用于对所述数量词和所述目标文本内容进行编码,得到所述目标文本内容中n个字符对应的第一特征向量,n为正整数;对第i个字符的第一特征向量进行关系概率预测,得到所述第i个字符属于所述关系词的概率值,1≤i≤n;基于所述概率值,从所述目标文本内容中确定所述关系词。
在一个可选的实施例中,所述概率值包括第一概率值和第二概率值,所述第一概率值用于表示所述第i个字符作为所述关系词的开始字符的概率,所述第二概率值用于表示所述第i个字符作为所述关系词的结束字符的概率;
所述确定模块730,还用于基于n个字符对应的所述第一概率值,从所述n个字符中确定所述关系词的第一起始字符;基于所述n个字符对应的所述第二概率值,从所述n个字符中确定所述关系词的第一结束字符;获取所述第一起始字符开始至所述第一结束字符为止的字符作为所述关系词。
在一个可选的实施例中,所述关系词包括属性关系词、实体关系词和限定关系词中的至少一种;
响应于所述关系词中包括属性关系词,所述第一起始字符包括属性起始字符,所述第一结束字符包括属性结束字符;
响应于所述关系词中包括实体关系词,所述第一起始字符包括实体起始字符,所述第一结束字符包括实体结束字符;
响应于所述关系词中包括限定关系词,所述第一起始字符包括限定起始字符,所述第一结束字符包括限定结束字符。
在一个可选的实施例中,所述提取模块720,还用于对所述目标文本内容进行编码,得到所述目标文本内容中n个字符对应的第二特征向量;对第i个字符对应的所述第二特征向量进行数量词概率预测,得到第i个字符属于所述数量词的概率值;基于n个字符属于所述数量词的概率值从所述目标文本内容中提取所述数量词。
在一个可选的实施例中,所述第i个字符属于所述数量词的概率值包括第三概率值和第四概率值,所述第三概率值表示所述第i个字符作为所述数量词的开始字符的概率,所述第四概率值用于表示所述第i个字符作为所述数量词的结束字符的概率;
所述提取模块720,还用于基于n个字符对应的所述第三概率值,从n个字符中确定所述数量词的第二起始字符;基于n个字符对应的所述第四概率值,从n个字符中确定所述数量词的第二结束字符;获取所述第二起始字符开始至所述第二结束字符为止的字符作为所述关系词。
在一个可选的实施例中,如图8所示,所述装置,还包括:
分类模块750,用于对所述数量词进行分类预测,得到所述数量词对应的分类结果,所述分类结果用于表示所述数量词的度量价值,所述分类结果包括定量值、范围值和近似值中的任意一种。
在一个可选的实施例中,所述输出装置,还包括:
输出模块740,用于响应于所述数量词的末尾字符出现在预设单位集合中,输出所述预设单位集合中与所述末尾字符对应的最长单位,将所述最长单位确定为所述数量词对应的单位;或者,
所述输出模块740,还用于响应于所述末尾字符未出现在所述预设单位集合中,对所述数量词进行向前遍历操作,输出遍历过程中的第一个非字母之后的字符,并将输出的字符作为所述数量词的单位。
综上所述,本申请实施例提供的文本内容的识别装置,通过确定目标文本内容中的数量词,结合该数量词的上下文内容,从目标文本内容中确定出用于描述或者限定数量词的关系词,并对抽取出的关系词与数量词对应的关系进行匹配,很大程度上提高了信息交互率,能够使用户结合关系词对数量词有进一步深入的理解,提高理解数量词所表达的实际含义的效率。
需要说明的是:上述实施例提供的文本内容的识别装置,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的文本内容的识别装置与文本内容的识别方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图9示出了本申请一个示例性实施例提供的服务器的结构示意图。该服务器可以是图1示出的服务器。具体来讲:
服务器包括中央处理单元(CPU,Central Processing Unit)901、包括随机存取存储器(RAM,Random Access Memory)902和只读存储器(ROM,Read Only Memory)903的系统存储器904,以及连接系统存储器904和中央处理单元1201的系统总线905。服务器120还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统,Input OutputSystem)906,和用于存储操作系统913、应用程序914和其他程序模块915的大容量存储设备907。
基本输入/输出系统906包括有用于显示信息的显示器908和用于用户输入信息的诸如鼠标、键盘之类的输入设备909。其中显示器908和输入设备909都通过连接到系统总线905的输入输出控制器910连接到中央处理单元901。基本输入/输出系统906还可以包括输入输出控制器910以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器910还提供输出到显示屏、打印机或其他类型的输出设备。
大容量存储设备907通过连接到系统总线905的大容量存储控制器(未示出)连接到中央处理单元901。大容量存储设备907及其相关联的计算机可读介质为服务器120提供非易失性存储。也就是说,大容量存储设备907可以包括诸如硬盘或者紧凑型光盘只读存储器(CD-ROM,Compact Disc Read Only Memory)驱动器之类的计算机可读介质(未示出)。
不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(EPROM,Erasable Programmable Read Only Memory)、带电可擦可编程只读存储器(EEPROM,Electrically Erasable Programmable Read OnlyMemory)、闪存或其他固态存储其技术,CD-ROM、数字通用光盘(DVD,Digital VersatileDisc)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器904和大容量存储设备907可以统称为存储器。
根据本申请的各种实施例,服务器还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器可以通过连接在系统总线905上的网络接口单元911连接到网络912,或者说,也可以使用网络接口单元911来连接到其他类型的网络或远程计算机系统(未示出)。
上述存储器还包括一个或者一个以上的程序,一个或者一个以上程序存储于存储器中,被配置由CPU执行。
本申请的实施例还提供了一种计算机设备,该计算手机设备包括处理器和存储器,该存储器中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的文本内容的识别方法。
本申请的实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行,以实现上述各方法实施例提供的文本内容的识别方法。
本申请的实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中任一所述的文本内容的识别方法。
可选地,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、固态硬盘(SSD,Solid State Drives)或光盘等。其中,随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM,Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种文本内容的识别方法,其特征在于,所述方法包括:
获取目标文本内容,所述目标文本内容中包括数量词;
从所述目标文本内容中提取所述数量词;
基于所述数量词在所述目标文本内容中的上下文内容,从所述目标文本内容中确定与所述数量词存在关联关系的关系词,所述关系词用于表达所述数量词在所述目标文本内容中的含义;
输出所述数量词与所述关系词之间的匹配关系。
2.根据权利要求1所述的方法,其特征在于,所述基于所述数量词在所述目标文本内容中的上下文内容,从所述目标文本内容中确定与所述数量词存在关联关系的关系词,包括:
对所述数量词和所述目标文本内容进行编码,得到所述目标文本内容中n个字符对应的第一特征向量,n为正整数;
对所述第i个字符的第一特征向量进行关系概率预测,得到所述第i个字符属于所述关系词的概率值,1≤i≤n;
基于所述概率值,从所述目标文本内容中确定所述关系词。
3.根据权利要求2所述的方法,其特征在于,所述概率值包括第一概率值和第二概率值,所述第一概率值用于表示所述第i个字符作为所述关系词的开始字符的概率,所述第二概率值用于表示所述第i个字符作为所述关系词的结束字符的概率;
所述基于所述概率值,从所述目标文本内容中确定所述关系词,包括:
基于所述n个字符对应的所述第一概率值,从所述n个字符中确定所述关系词的第一起始字符;
基于所述n个字符对应的所述第二概率值,从所述n个字符中确定所述关系词的第一结束字符;
获取所述第一起始字符开始至所述第一结束字符为止的字符作为所述关系词。
4.根据权利要求3所述的方法,其特征在于,所述关系词包括属性关系词、实体关系词和限定关系词中的至少一种;
响应于所述关系词中包括属性关系词,所述第一起始字符包括属性起始字符,所述第一结束字符包括属性结束字符;
响应于所述关系词中包括实体关系词,所述第一起始字符包括实体起始字符,所述第一结束字符包括实体结束字符;
响应于所述关系词中包括限定关系词,所述第一起始字符包括限定起始字符,所述第一结束字符包括限定结束字符。
5.根据权利要求1至4任一所述的方法,其特征在于,所述从所述目标文本内容中提取所述数量词,包括:
对所述目标文本内容进行编码,得到所述目标文本内容中n个字符对应的第二特征向量;
对第i个字符对应的所述第二特征向量进行数量词概率预测,得到第i个字符属于所述数量词的概率值;
基于n个字符属于所述数量词的概率值从所述目标文本内容中提取所述数量词。
6.根据权利要求5所述的方法,其特征在于,所述第i个字符属于所述数量词的概率值包括第三概率值和第四概率值,所述第三概率值表示所述第i个字符作为所述数量词的开始字符的概率,所述第四概率值用于表示所述第i个字符作为所述数量词的结束字符的概率;
所述基于n个字符属于所述数量词的概率值从所述目标文本内容中提取所述数量词,包括:
基于n个字符对应的所述第三概率值,从n个字符中确定所述数量词的第二起始字符;
基于n个字符对应的所述第四概率值,从n个字符中确定所述数量词的第二结束字符;
获取所述第二起始字符开始至所述第二结束字符为止的字符作为所述关系词。
7.根据权利要求1至4任一所述的方法,其特征在于,所述从所述目标文本内容中提取所述数量词之后,还包括:
对所述数量词进行分类预测,得到所述数量词对应的分类结果,所述分类结果用于表示所述数量词的度量价值,所述分类结果包括定量值、范围值和近似值中的任意一种。
8.一种文本内容的识别装置,其特征在于,所述装置包括:
获取模块,用于获取目标文本内容,所述目标文本内容中包括数量词;
提取模块,用于从所述目标文本内容中提取所述数量词;
确定模块,用于基于所述数量词在所述目标文本内容中的上下文内容,从所述目标文本内容中确定与所述数量词存在关联关系的关系词,所述关系词用于表达所述数量词在所述目标文本内容中的含义;
输出模块,用于输出所述数量词与所述关系词之间的匹配关系。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至7任一所述的文本内容的识别方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至7任一所述的文本内容的识别方法。
CN202110578706.6A 2021-05-26 2021-05-26 文本内容的识别方法、装置、设备及可读存储介质 Pending CN113761126A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110578706.6A CN113761126A (zh) 2021-05-26 2021-05-26 文本内容的识别方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110578706.6A CN113761126A (zh) 2021-05-26 2021-05-26 文本内容的识别方法、装置、设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN113761126A true CN113761126A (zh) 2021-12-07

Family

ID=78787229

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110578706.6A Pending CN113761126A (zh) 2021-05-26 2021-05-26 文本内容的识别方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN113761126A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115238217A (zh) * 2022-09-23 2022-10-25 山东省齐鲁大数据研究院 一种公告文本中抽取数值信息的方法及终端机

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115238217A (zh) * 2022-09-23 2022-10-25 山东省齐鲁大数据研究院 一种公告文本中抽取数值信息的方法及终端机

Similar Documents

Publication Publication Date Title
CN111554268B (zh) 基于语言模型的语言识别方法、文本分类方法和装置
WO2020177230A1 (zh) 基于机器学习的医疗数据分类方法、装置、计算机设备及存储介质
CN111680159B (zh) 数据处理方法、装置及电子设备
WO2023060795A1 (zh) 关键词自动提取方法、装置、设备及存储介质
CN112131350B (zh) 文本标签确定方法、装置、终端及可读存储介质
CN112328742B (zh) 基于人工智能的培训方法、装置、计算机设备及存储介质
CN111444340A (zh) 文本分类和推荐方法、装置、设备及存储介质
CN112270196B (zh) 实体关系的识别方法、装置及电子设备
CN111738001B (zh) 同义词识别模型的训练方法、同义词确定方法及设备
CN113094578B (zh) 基于深度学习的内容推荐方法、装置、设备及存储介质
US11386354B2 (en) Information processing apparatus, information processing method, and program
CN111930792A (zh) 数据资源的标注方法、装置、存储介质及电子设备
CN113722474A (zh) 文本分类方法、装置、设备及存储介质
CN113094478B (zh) 表情回复方法、装置、设备及存储介质
CN111651606B (zh) 一种文本处理方法、装置及电子设备
CN114048729A (zh) 医学文献评价方法、电子设备、存储介质和程序产品
CN114492429B (zh) 文本主题的生成方法、装置、设备及存储介质
CN115017879A (zh) 文本对比方法、计算机设备及计算机存储介质
CN113761126A (zh) 文本内容的识别方法、装置、设备及可读存储介质
CN117009516A (zh) 换流站故障策略模型训练方法、推送方法及装置
CN111859955A (zh) 一种基于深度学习的舆情数据分析模型
WO2023134085A1 (zh) 问题答案的预测方法、预测装置、电子设备、存储介质
CN115600595A (zh) 一种实体关系抽取方法、系统、设备及可读存储介质
US20170293863A1 (en) Data analysis system, and control method, program, and recording medium therefor
CN114818900A (zh) 一种半监督特征提取方法及用户信用风险评估方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination