CN110162615A - 一种智能问答方法、装置、电子设备和存储介质 - Google Patents
一种智能问答方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN110162615A CN110162615A CN201910458886.7A CN201910458886A CN110162615A CN 110162615 A CN110162615 A CN 110162615A CN 201910458886 A CN201910458886 A CN 201910458886A CN 110162615 A CN110162615 A CN 110162615A
- Authority
- CN
- China
- Prior art keywords
- word
- meaning
- expansion
- target entity
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000003860 storage Methods 0.000 title claims description 18
- 238000012546 transfer Methods 0.000 claims abstract description 8
- 238000012545 processing Methods 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 8
- GOLXNESZZPUPJE-UHFFFAOYSA-N spiromesifen Chemical compound CC1=CC(C)=CC(C)=C1C(C(O1)=O)=C(OC(=O)CC(C)(C)C)C11CCCC1 GOLXNESZZPUPJE-UHFFFAOYSA-N 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 3
- 238000004891 communication Methods 0.000 claims description 2
- 230000011218 segmentation Effects 0.000 abstract description 24
- 238000003058 natural language processing Methods 0.000 description 17
- 230000007246 mechanism Effects 0.000 description 10
- 238000011160 research Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000004519 manufacturing process Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000011161 development Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000035606 childbirth Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 230000005021 gait Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例公开了一种智能问答方法,包括对提问信息进行检测,获取提问信息中的目标实体词,目标实体词构成第一问题信息;扩展词至少关联一个词义;将目标实体词与扩展词关联的词义匹配,获取各目标实体词的扩展词;扩展词至少构成一个第二问题信息;将第一问题信息与第二问题信息分别与问题模板匹配,获取匹配度最大的问题模板;调取匹配度最大的问题模板关联的答案信息。本发明中,创造性的添加了扩展词,扩大分词结果范围,提高分词结果的多样性,有效解决汉语言中的“多词一义”现象导致的匹配结果准确率低下的问题。同时,由于匹配结果的准确性增加,使得本发明对用户输入问题的要求降低,智能化程度得到明显提高。
Description
技术领域
本发明实施例涉及数据处理技术领域,具体涉及一种智能问答方法、装置、电子设备和存储介质。
背景技术
几乎从计算机诞生之日,人们就开始尝试将其用于自然语言的处理。1950年代,英国数学家A·M·Turing就预见到未来的计算机将会对自然语言研究提出新问题,他提出的“图灵测试”一般被认为是自然语言处理思想的开端。
20世纪50年代中期,随着乔姆斯基生成语言学理论的提出,语言信息处理主要采用基于规则的方法。甚至到20世纪80年代,自然语言处理领域的主流方法依然是基于规则的理性主义方法。直到20世纪90年代,自然语言处理的研究空前繁荣,概率和数据驱动的方法几乎成为了自然语言处理的标准方法。句法剖析、词类标注、参照消解和话语处理的算法全都开始引入概率,并且采用语音识别和信息检索中借过来的评测方法。基于统计的经验主义方法逐渐成为自然语言处理研究的主流。
人类社会发展史,也是一部知识海量增长的历史,尤其近1个世纪内,人类知识呈几何级数递增。对这些知识和信息的获取、挖掘、加工、存储、传播和应用,必须借助于高效的计算机技术。2008年到现在,在图像识别和语音识别领域的成果激励下,人们也逐渐开始引入深度学习来做自然语言处理研究,由最初的词向量到2013年word2vec,将深度学习与自然语言处理的结合推向了高潮,并在机器翻译、问答系统、阅读理解等领域取得了一定成功。
从目前的理论和技术现状看,虽然通用的、高质量的自然语言处理系统仍然是人们较长期的努力目标,但是这对一定应用、具有相当语言处理能力的实用系统已经出现,有些已经商品化,甚至开始产业化。典型的例子有多语种数据库和专家系统的自然语言接口、各种机器翻译系统、全信息检索系统、自动文摘系统等。
在中国,1998年11月微软中国研究院(后改名为微软亚洲研究院)的成立,大大带动了自然语言处理在国内的发展。直到目前,中国的自然语言处理技术发展主要体现在两个方面,一是科研水平,一是产业化。比如搜索引擎、电子商务、新闻网站、机器翻译、智能音箱的技术体系中,NLP(Natural Language Processing,自然语言处理)都居于核心地位。
分词技术是目前自然语言处理中重要的组成部分。词是最小能够独立应用的语言单位。尽管在语言学语义学上,词有着相对清晰的定义,对于计算机处理自然语言来说,分词很多时候没有放之四海皆准的共同标准。在中文分词中,由于很多中文词仅由单个汉字组成,但是更多的单个汉字是无法在句子中单独作为句法成分或者起到语法作用的。由于国际上常用的NLP算法,深层次的语法语义分析通常都是以词作为基本单位,很多中文的自然语言处理的任务,也就多了一个预处理的过程来把连续的汉字分隔成更具有语言语义学上意义的词。
现有的分词算法基本可以分为三种类别:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。基于字符串匹配的分词方法,又被称为机械分词方法。它是按照一定的策略将待分析的汉字串与一个充分大的机器词典中的词条进行匹配。若在词典中找到某个相同的字符串,则匹配成功。
目前市面上常用以下两种智能问答产品。
第一种为,提前确定好一定数量的问题与答案,将问题进行分词后集合形成一个基本词库。用户在产品中输入问题后直接使用词库对问题进行分词,然后通过匹配到的词直接寻找已确定好的包含该词的问题,推送问题的答案。而匹配方法一般采用正向最大匹配法,即按照从左至右的方法,依次按照字符长度从大到小匹配,如匹配上较长字符的词则不再匹配较短字符的词。
例如,先构造好“个人所得税的税率是多少”等10个与个人所得税相关的法律问答,将这10个问题进行分词,分好的词集合作为词库。
当用户输入问题“个人所得税的税率是多少”时,先使用词库将用户输入的问题进行分词,会得到分词结果:个人所得税,的,税率,是,多少。如分词机制中有去除无意义词的机制,则分词结果中的“的”、“是”、“什么”有可能去除,最后得到有意义的分词结果为:个人所得税,税率。
将用户问题的分词结果与10个问题的分词结果进行匹配,如提前确定的问题的分词机制与用户问题的分词机制相同,则可由用户问题的分词结果完全匹配到“个人所得税的税率是多少”的问题。
但是上述智能问答产品存在着如下的缺点:
1.机械的使用标准问题形成的词库,实际上忽略了客观情况下,用户使用词语的不规范性与日常口语化。在用户输入不够标准化的语句或词组时,当前技术方案难以正确进行分词,并精确匹配问答库中的问题。
2.汉语表达方式的多样性与词库本身的局限性之间存在矛盾,导致用户使用同一词义的不同词组时,词库无法准确识别该词组或无法与已有的其他同等词义的词组对应。
3.目前采用词库简单进行分词方法难以解决汉语言中一词多义现象。在用户使用的词义有较常见的歧义时,很有可能导致最后的匹配结果不符合用户提出的问题。
第二种为,提前确定好的问答与用户输入的问题进行匹配,实际上是句子对的匹配,即提前设定的问题与用户输入的问题两个句子之间的匹配。在NLP中,句子对匹配是非常常见的问题,就是给定两个句子S1和S2,任务目标是判断这两个句子是否具备某种类型的关系。问答系统中相似问题匹配就属于比较常见的句子对匹配。
目前市面上的法律相关智能问答产品通常是在分词的基础上,直接进行句子对的匹配率计算。
例如,已设定好的问题包括“个人所得税的税率是多少”(语句为S1)与“个人所得税的税收优惠有哪些”(语句为S2)两个问题。
假设该产品的分词机制可去除无意义词,则两个问题的分词结果分别为:
S1:个人所得税、税率
S2:个人所得税、税收优惠
当用户输入问题“个人所得税的税率是多少”(语句为S3)时,在用户问题的分词机制与设定问题的分词机制相同的情况下,可以得到用户问题的分词结果:
S3:个人所得税、税率。
将语句S3与S1、S2进行匹配,可见S3匹配到了S1中的全部词,匹配率达到100%。而S3只匹配到了S2中的“个人所得税”,未匹配到“税收优惠”,匹配率远低于S3与S1的匹配率,因此S1作为答案推送给用户更为恰当。
但是上述智能问答产品存在着如下的缺点:简单的分词匹配在问题库中设置的问题数量较多的情况下,需进行依次匹配,答案的推送速度难以保证。
同时,在设置的问题数量较多时,问题越复杂,就会导致每个问题的分词结果越多,准确匹配到正确答案的概率就越低。
发明内容
为此,本发明实施例提供一种智能问答方法、装置、电子设备和存储介质,以解决现有技术中由于无法精准分词而导致的匹配答案准确度低的问题。
为了实现上述目的,本发明实施例提供如下技术方案:
根据本发明实施例的第一方面提供了一种智能问答方法,包括:
对提问信息进行检测,获取所述提问信息中的目标实体词,所述目标实体词构成第一问题信息;
扩展词至少关联一个词义;
将所述目标实体词与扩展词关联的词义匹配,获取各所述目标实体词的扩展词;
所述扩展词至少构成一个第二问题信息;
将所述第一问题信息与所述第二问题信息分别与问题模板匹配,获取匹配度最大的所述问题模板;
调取匹配度最大的问题模板关联的答案信息。
进一步地,所述的智能问答方法中,将所述目标实体词与扩展词关联的词义匹配,获取各所述目标实体词的扩展词,包括:
将所述目标实体词与扩展词关联的词义匹配,当匹配到具有与所述目标实体词相同的词义时,确定所述扩展词与其关联的词义的关系,
当所述扩展词与其关联的词义的关系为双向同义词时,则获取与该词义关联的所述扩展词;
其中,当所述扩展词与其关联的词义的关系为双向同义词时,所述扩展词和与其关联的词义互为词义和互为扩展词;
当所述扩展词与其关联的词义的关系为单向同义词时,则获取与该词义关联的扩展词;
其中,当所述扩展词关联一个以上的词义时,所述词义之间禁止扩展。
进一步地,所述的智能问答方法中,在将所述第一问题信息与所述第二问题信息分别与问题模板匹配前还包括:
根据所述目标实体词或所述扩展词确定所述第一问题信息和/或所述第二问题的问题节点;
将所述第一问题信息和所述第二问题信息分别与所述问题节点下关联的问题模板匹配,获取匹配度最大的所述问题模板。
进一步地,所述的智能问答方法中,将所述第一问题信息与所述第二问题信息分别与问题模板匹配,获取匹配度最大的所述问题模板,包括:
获取模板问题的目标实体词,将所述第一问题信息与所述第二问题信息分别与问题模板的实体词匹配,获取匹配度最大的问题模板;
其中,当所述模板问题的目标实体词与所述第一问信息的目标实体词或第二问题信息中的扩展词的关系为禁用时,则该目标实体词与该扩展词或目标实体词定义为未匹配。
根据本发明实施例的第二方面提供了一种智能问答装置,包括:
检测模块,用于对提问信息进行检测,获取所述提问信息中的目标实体词,所述目标实体词构成第一问题信息;
第一处理模块,将所述目标实体词与扩展词关联的词义匹配,获取各所述目标实体词的扩展词;所述扩展词至少构成一个第二问题信息;
第二处理模块,将所述第一问题信息与所述第二问题信息分别与问题模板匹配,获取匹配度最大的所述问题模板;调取匹配度最大的问题模板关联的答案信息。
进一步地,所述的智能问答装置中,将所述目标实体词与扩展词关联的词义匹配,获取各所述目标实体词的扩展词,包括:
将所述目标实体词与扩展词关联的词义匹配,当匹配到具有与所述目标实体词相同的词义时,确定所述扩展词与其关联的词义的关系,
当所述扩展词与其关联的词义的关系为双向同义词时,则获取与该词义关联的所述扩展词;
其中,当所述扩展词与其关联的词义的关系为双向同义词时,所述扩展词和与其关联的词义互为词义和互为扩展词;
当所述扩展词与其关联的词义的关系为单向同义词时,则获取与该词义关联的扩展词;
其中,当所述扩展词关联一个以上的词义时,所述词义之间禁止扩展。
进一步地,所述的智能问答装置中,所述第二处理模块还用于在将所述第一问题信息与所述第二问题信息分别与问题模板匹配前根据所述目标实体词或所述扩展词确定所述第一问题信息和/或所述第二问题的问题节点;
将所述第一问题信息和所述第二问题信息分别与所述问题节点下关联的问题模板匹配,获取匹配度最大的所述问题模板。
进一步地,所述的智能问答装置中,将所述第一问题信息与所述第二问题信息分别与问题模板匹配,获取匹配度最大的所述问题模板,包括:
获取模板问题的目标实体词,将所述第一问题信息与所述第二问题信息分别与问题模板的实体词匹配,获取匹配度最大的问题模板;
其中,当所述模板问题的目标实体词与所述第一问信息的目标实体词或第二问题信息中的扩展词的关系为禁用时,则该目标实体词与该扩展词或目标实体词定义为未匹配。
根据本发明实施例的第三方面提供了一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至4任一所述的一种智能问答方法的步骤。
根据本发明实施例的第四方面提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至4任一所述的一种智能问答方法的步骤。
本发明实施例具有如下优点:
1.本申请提供的一种智能问答方法,包括对提问信息进行检测,获取所述提问信息中的目标实体词,所述目标实体词构成第一问题信息;扩展词至少关联一个词义;将所述目标实体词与扩展词关联的词义匹配,获取各所述目标实体词的扩展词;所述扩展词至少构成一个第二问题信息;将所述第一问题信息与所述第二问题信息分别与问题模板匹配,获取匹配度最大的所述问题模板;调取匹配度最大的问题模板关联的答案信息。本发明中,创造性的添加了扩展词,扩大分词结果范围,提高分词结果的多样性,有效解决汉语言中的“多词一义”现象导致的匹配结果准确率低下的问题。同时,由于匹配结果的准确性增加,使得本发明对用户输入问题的要求降低,智能化程度得到明显提高。
2.本申请提供的一种智能问答方法,将所述目标实体词与扩展词关联的词义匹配,当匹配到具有与所述目标实体词相同的词义时,确定所述扩展词与其关联的词义的关系,当所述扩展词与其关联的词义的关系为双向同义词时,则获取与该词义关联的所述扩展词;当所述扩展词与其关联的词义的关系为单向同义词时,则获取与该词义关联的扩展词;本申请中通过对扩展词与其关联的词义的限制,不仅提高了问题信息的准确度,而且对常用多义词进行词义进行了区分,减少了因词义关联而出现在分词结果中的错词,进一步提高匹配精确度。
3.本申请提供的一种智能问答方法,所述第二处理模块还用于在将所述第一问题信息与所述第二问题信息分别与问题模板匹配前根据所述目标实体词或所述扩展词确定所述第一问题信息和/或所述第二问题的问题节点;将所述第一问题信息和所述第二问题信息分别与所述问题节点下关联的问题模板匹配,获取匹配度最大的所述问题模板。本申请中创造性的将问题模板关联至每个问题节点下,通过筛选问题节点,在确定问题模板,有效的提高了匹配速度。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容得能涵盖的范围内。
图1为本发明实施例提供的一种智能问答方法所涉及的实施环境;
图2为本发明实施例提供的一种智能问答方法的流程图;
图3为本发明实施例提供的获取扩展词的流程图;
图4为本发明实施例提供的问题节点示意图;
图5为本发明实施例提供的一种智能问答装置的结构示意图;
图6为本发明实施例提供的一种计算机设备的结构示意图。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的智能问答方法所涉及的实施环境,参见图1,该实施环境包括:客户端101和服务器102。
其中,客户端101可为PDA、笔记本电脑、台式计算机、平板电脑、智能手机等,本实施例不对客户端101的产品类型作具体限定。客户端101上可安装有用于进行智能问答的应用,基于应用可以完成人与设备之间的交互,也可为具有智能问答功能的其他应用,例如具有智能问答功能的浏览器应用、搜索引擎应用等,本发明实施例对此不作限定。
本实施例中分词方法为基于字符串匹配的分词方法、基于理解的分词方法或基于统计的分词方法,采用的算法为NLP算法。由于上述技术均为现有技术,本实施例中在此不做详细阐述。
基于图1的实施环境,本申请实施例所提供的一种智能问答方法,参见图2所示,包括步骤S201~S205:
S201:对提问信息进行检测,获取所述提问信息中的目标实体词,所述目标实体词构成第一问题信息;
随着互联网及人工智能的不断发展,从海量的信息中获取用户所需的信息可以有效的提高工作效率。特别在法律问题方面,法律包含众多的法律条文和相关的法条解释,如何从众多的法律信息中获取用户所需的那一部分非常重要。对于所需法律信息的获取,用户可在客户端输入提问的信息,然后对提问信息进行检测,对提问信息进行分词处理,利用分词机制中的去除无意义词机制,得到目标实体词。例如,当用户输入问题信息为“个税的税率是多少”时,先使将用户输入的问题信息进行分词,会得到分词结果:个税,的,税率,是,多少。再利用分词机制中去除无意义词的机制,则分词结果中的“的”、“是”、“什么”有可能去除,最后得到目标实体词结果为:“个税”“税率”,第一问题信息-Q1:个税,税率。
S202:将所述目标实体词与扩展词关联的词义匹配,获取各所述目标实体词的扩展词;扩展词至少关联一个词义;
在本实施例中,在预先设置在词库中存储有大量的扩展词,每个扩展词都关联有至少一个词义,上述的词义可以是词汇也可以是短句,本实施例中不做特别的限定,用于解释或标注扩展词的词义,例如“个人所得税”其关联的词义为“个税”,当用户输入“个税的税率是多少”时,通过分词处理,得到的目标实体词为“个税”“税率”,通过与扩展词关联的词义匹配,得到“个税”的扩展词为“个人所得税”。
S203:所述扩展词至少构成一个第二问题信息;
在本实施例中,通过对在次词库中筛选各目标实体词的扩展词,将这些扩展词组成至少一个第二问题信息。例如,第一问题信息-Q1:个税,税率;由扩展词组成的第二问题信息-Q2:个人所得税,税率;
S204:将所述第一问题信息与所述第二问题信息分别与问题模板匹配,获取匹配度最大的所述问题模板;
具体地,获取模板问题的目标实体词,将所述第一问题信息与所述第二问题信息分别与问题模板的实体词匹配,获取匹配度最大的问题模板;
其中,当所述模板问题的目标实体词与所述第一问信息的目标实体词或第二问题信息中的扩展词的关系为禁用时,则该目标实体词与该扩展词或目标实体词定义为未匹配。
在本实施例中,将Q1,Q2与问题库中的问题模板匹配,其中该问题模板为预设问题信息分词处理后,由预设问题信息的目标实体词组成的,获取匹配率最高的即作为最终的问题模板;例如,在问题库中筛选到与Q1匹配度最高的问题模板的匹配度为60%,筛选到与Q2匹配度最高的问题模板的匹配度为90%,则选用与Q2匹配度90%的问题模板为最终问题模板;
其中,在匹配的过程中,本发明还设置了对字符上有包含关系但词义毫无关联的两组词构造了禁用关系,作为禁用词;例如,“民政”和“人民政协”,从字面上看具有包含关系,但词义完全无关,但是字符匹配过程中,问题模板中的实体词“人民政协”中的“民政”的字符与第一问题信息中的一个实体词“民政”的字符相匹配,若不将其设为禁用词,将其的匹配度也计算到最终的匹配度上,将会使最终的问题模板的获取有很大偏差。
在匹配的过程,可以在通过XML文件中设置禁用词规则,设置禁用词库,禁用词库中存储有若干词汇,每一词汇关联一与其关系为禁用的禁用词;
本实施例中以第一问题信息匹配为例,
第一问题信息与问题模板的每一目标实体词字符匹配,若存在匹配,则将匹配的两个词在禁用词库中查找,确定这两个词的关系是否为禁用,若这两个词为禁用词,则判定这两个词为不匹配,即其不计入到最终的匹配度计算。
S205:调取匹配度最大的问题模板关联的答案信息。
在本实施例中,每个问题模板都关联有一个答案信息,即回答问题模板中问题的信息,调取最终问题模板关联的答案信息,将该答案信息推送给用户。
本发明中,创造性的添加了扩展词,扩大分词结果范围,提高分词结果的多样性,有效解决汉语言中的“多词一义”现象导致的匹配结果准确率低下的问题。同时,由于匹配结果的准确性增加,使得本发明对用户输入问题的要求降低,智能化程度得到明显提高。
参见图3所示,本实施例采用下述方式将所述目标实体词与扩展词关联的词义匹配,获取各所述目标实体词的扩展词,包括步骤S301-S303,需要注意的是,本实施例中步骤S302-S303没有执行的先后顺序。
本实施例的词库中用于匹配目标实体词,其中集合有大量的扩展词,不仅集合所有问题库中的问题模板中包含的目标实体词外,还吸收了大量细胞词库,包括法律类词库、生活类词库、政策类词库等。
除此之外,为了更适应普通群众的用语习惯,词库中引进了大量的口语化词。且为了之后进行更精细化的加工,词库中对于标准词与口语化词进行了属性标记加以区分。同时,为了准确分辨出语句中含有实际意义的词,本发明对词库中无意义词进行了筛选,作为停用词,不参与问题的匹配。
S301:将所述目标实体词与扩展词关联的词义匹配,当匹配到具有与所述目标实体词相同的词义时,确定所述扩展词与其关联的词义的关系,
S302:当所述扩展词与其关联的词义的关系为双向同义词时,则获取与该词义关联的所述扩展词;
其中,当所述扩展词与其关联的词义的关系为双向同义词时,所述扩展词和与其关联的词义互为词义和互为扩展词;
在本实施例中,词库中对每个扩展词与其关联的词义的关系做了设定,包括双向同义词和单向同义词。若扩展词与其关联的词义的关系为双向同义词,即为双向映射关系,即扩展词的词义与其关联的词义完全相同,扩展词和与其关联的词义互为词义和互为扩展词,例如,“个税”与“个人所得税”即为双向同义词,“个税”是扩展词也是“个人所得税”的词义,同样的“个人所得税”是扩展词也是“个税”的词义。
S303:当所述扩展词与其关联的词义的关系为单向同义词时,则获取与该词义关联的扩展词;
其中,当所述扩展词关联一个以上的词义时,所述词义之间禁止扩展。
在本实施例中,若扩展词与其关联的词义的关系为单向同义词时,即扩展词的词义包含其关联的词义,例如扩展词为“主刑”其关联的词义为“无期徒刑”。
同时,有的扩展词为多义词,其关联有多个词义,例如“生产”一词,在“生产车间”中的词义是“制造”,在“孕妇生产”中的词义是“分娩”。因此,对“生产”一词关联的词义有两个,分别为:
词义1 含义:制造 双向同义词:制造;
词义2 含义:分娩 双向同义词:分娩;
若不在两个词义之间设置禁止扩展关系,则单纯的词义关联,很容易使词生产车间的生产通过词义关联关系推导得出词分娩,而这种结果明显是错误的。
进一步地,本实施例在将所述第一问题信息与所述第二问题信息分别与问题模板匹配前还包括步骤S206,
S206:根据所述目标实体词或所述扩展词确定所述第一问题信息和/或所述第二问题的问题节点;
将所述第一问题信息和所述第二问题信息分别与所述问题节点下关联的问题模板匹配,获取匹配度最大的所述问题模板。
在本实施例中,为了便于用户理解与阅读,针对问题与答案中的专业向较强的词语设置了专门解释,延伸用户的阅读范围。
设置问题的同时,按照问题内容之间的包含关系与门类,设置了从上到下的一个或多个问题节点。本实施例中三个问题节点为例,但是本发明并不限于此,例如,以法律问题为例,如图4所示,一级问题节点为问题涉及的领域,包括法律门类、热点问题等,二级节点是对问题涉及领域的结构性分类,例如一级节点劳动争议下细分出劳动关系、劳动保险、劳动保障等,三级节点是对二级节点的进一步划分,例如二级问题节点劳动关系下细分出劳动合同订立、劳务派遣等。在三级问题节点下关联了相关的问题模板。
基于同一发明构思,本申请实施例中还提供了与智能问答方法对应智能问答装置。由于本申请实施例中的装置解决问题的原理与本申请实施例上述智能问答方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
参见图5所示一种智能问答装置,包括:
检测模块401,用于对提问信息进行检测,获取所述提问信息中的目标实体词,所述目标实体词构成第一问题信息;
第一处理模块402,将所述目标实体词与扩展词关联的词义匹配,获取各所述目标实体词的扩展词;所述扩展词至少构成一个第二问题信息;
第二处理模块403,将所述第一问题信息与所述第二问题信息分别与问题模板匹配,获取匹配度最大的所述问题模板;调取匹配度最大的问题模板关联的答案信息。
可选地,将所述目标实体词与扩展词关联的词义匹配,获取各所述目标实体词的扩展词,包括:
将所述目标实体词与扩展词关联的词义匹配,当匹配到具有与所述目标实体词相同的词义时,确定所述扩展词与其关联的词义的关系,
当所述扩展词与其关联的词义的关系为双向同义词时,则获取与该词义关联的所述扩展词;
其中,当所述扩展词与其关联的词义的关系为双向同义词时,所述扩展词和与其关联的词义互为词义和互为扩展词;
当所述扩展词与其关联的词义的关系为单向同义词时,则获取与该词义关联的扩展词;
其中,当所述扩展词关联一个以上的词义时,所述词义之间禁止扩展。
可选地,所述第二处理模块403还用于在将所述第一问题信息与所述第二问题信息分别与问题模板匹配前根据所述目标实体词或所述扩展词确定所述第一问题信息和/或所述第二问题的问题节点;
将所述第一问题信息和所述第二问题信息分别与所述问题节点下关联的问题模板匹配,获取匹配度最大的所述问题模板。
可选地,将所述第一问题信息与所述第二问题信息分别与问题模板匹配,获取匹配度最大的所述问题模板,包括:
获取模板问题的目标实体词,将所述第一问题信息与所述第二问题信息分别与问题模板的实体词匹配,获取匹配度最大的问题模板;
其中,当所述模板问题的目标实体词与所述第一问信息的目标实体词或第二问题信息中的扩展词的关系为禁用时,则该目标实体词与该扩展词或目标实体词定义为未匹配。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述智能问答控制方法的步骤。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述智能问答控制方法,从而能够基于步态识别技术和分时管理方法提高智能问答控制中身份识别的安全性和识别效率。
对应于图2中的智能问答方法,本申请实施例还提供了一种计算机设备,如图6所示,该设备包括存储器1000、处理器2000及存储在该存储器1000上并可在该处理器2000上运行的计算机程序,其中,上述处理器2000执行上述计算机程序时实现上述智能问答控制方法的步骤。
具体地,上述存储器1000和处理器2000能够为通用的存储器和处理器,这里不做具体限定,当处理器2000运行存储器1000存储的计算机程序时,能够执行上述智能问题方法,从而能够基于本发明快速准确的实现智能问答。
本申请实施例所提供的智能问答方法及装置的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
在这里示出和描述的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制,因此,示例性实施例的其他示例可以具有不同的值。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。
Claims (10)
1.一种智能问答方法,其特征在于,包括:
对提问信息进行检测,获取所述提问信息中的目标实体词,所述目标实体词构成第一问题信息;
扩展词至少关联一个词义;
将所述目标实体词与扩展词关联的词义匹配,获取各所述目标实体词的扩展词;
所述扩展词至少构成一个第二问题信息;
将所述第一问题信息与所述第二问题信息分别与问题模板匹配,获取匹配度最大的所述问题模板;
调取匹配度最大的问题模板关联的答案信息。
2.根据权利要求1所述的智能问答方法,其特征在于,将所述目标实体词与扩展词关联的词义匹配,获取各所述目标实体词的扩展词,包括:
将所述目标实体词与扩展词关联的词义匹配,当匹配到具有与所述目标实体词相同的词义时,确定所述扩展词与其关联的词义的关系,
当所述扩展词与其关联的词义的关系为双向同义词时,则获取与该词义关联的所述扩展词;
其中,当所述扩展词与其关联的词义的关系为双向同义词时,所述扩展词和与其关联的词义互为词义和互为扩展词;
当所述扩展词与其关联的词义的关系为单向同义词时,则获取与该词义关联的扩展词;
其中,当所述扩展词关联一个以上的词义时,所述词义之间禁止扩展。
3.根据权利要求1所述的智能问答方法,其特征在于,在将所述第一问题信息与所述第二问题信息分别与问题模板匹配前还包括:
根据所述目标实体词或所述扩展词确定所述第一问题信息和/或所述第二问题的问题节点;
将所述第一问题信息和所述第二问题信息分别与所述问题节点下关联的问题模板匹配,获取匹配度最大的所述问题模板。
4.根据权利要求1-3任一所述的智能问答方法,其特征在于,将所述第一问题信息与所述第二问题信息分别与问题模板匹配,获取匹配度最大的所述问题模板,包括:
获取模板问题的目标实体词,将所述第一问题信息与所述第二问题信息分别与问题模板的实体词匹配,获取匹配度最大的问题模板;
其中,当所述模板问题的目标实体词与所述第一问信息的目标实体词或第二问题信息中的扩展词的关系为禁用时,则该目标实体词与该扩展词或目标实体词定义为未匹配。
5.一种智能问答装置,其特征在于,包括:
检测模块,用于对提问信息进行检测,获取所述提问信息中的目标实体词,所述目标实体词构成第一问题信息;
第一处理模块,将所述目标实体词与扩展词关联的词义匹配,获取各所述目标实体词的扩展词;所述扩展词至少构成一个第二问题信息;
第二处理模块,将所述第一问题信息与所述第二问题信息分别与问题模板匹配,获取匹配度最大的所述问题模板;调取匹配度最大的问题模板关联的答案信息。
6.根据权利要求5所述的智能问答装置,其特征在于,将所述目标实体词与扩展词关联的词义匹配,获取各所述目标实体词的扩展词,包括:
将所述目标实体词与扩展词关联的词义匹配,当匹配到具有与所述目标实体词相同的词义时,确定所述扩展词与其关联的词义的关系,
当所述扩展词与其关联的词义的关系为双向同义词时,则获取与该词义关联的所述扩展词;
其中,当所述扩展词与其关联的词义的关系为双向同义词时,所述扩展词和与其关联的词义互为词义和互为扩展词;
当所述扩展词与其关联的词义的关系为单向同义词时,则获取与该词义关联的扩展词;
其中,当所述扩展词关联一个以上的词义时,所述词义之间禁止扩展。
7.根据权利要求5所述的智能问答装置,其特征在于,所述第二处理模块还用于在将所述第一问题信息与所述第二问题信息分别与问题模板匹配前根据所述目标实体词或所述扩展词确定所述第一问题信息和/或所述第二问题的问题节点;
将所述第一问题信息和所述第二问题信息分别与所述问题节点下关联的问题模板匹配,获取匹配度最大的所述问题模板。
8.根据权利要求5-7任一所述的智能问答装置,其特征在于,将所述第一问题信息与所述第二问题信息分别与问题模板匹配,获取匹配度最大的所述问题模板,包括:
获取模板问题的目标实体词,将所述第一问题信息与所述第二问题信息分别与问题模板的实体词匹配,获取匹配度最大的问题模板;
其中,当所述模板问题的目标实体词与所述第一问信息的目标实体词或第二问题信息中的扩展词的关系为禁用时,则该目标实体词与该扩展词或目标实体词定义为未匹配。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至4任一所述的一种智能问答方法的步骤。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至4任一所述的一种智能问答方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910458886.7A CN110162615B (zh) | 2019-05-29 | 2019-05-29 | 一种智能问答方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910458886.7A CN110162615B (zh) | 2019-05-29 | 2019-05-29 | 一种智能问答方法、装置、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110162615A true CN110162615A (zh) | 2019-08-23 |
CN110162615B CN110162615B (zh) | 2021-08-24 |
Family
ID=67629851
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910458886.7A Active CN110162615B (zh) | 2019-05-29 | 2019-05-29 | 一种智能问答方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110162615B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112634093A (zh) * | 2020-12-30 | 2021-04-09 | 北京金堤科技有限公司 | 获取用于生成合同的引导问题节点图的方法及应用和装置 |
WO2021196934A1 (zh) * | 2020-04-02 | 2021-10-07 | 深圳壹账通智能科技有限公司 | 一种基于字段相似度计算的问题推荐方法、装置和服务器 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104462553A (zh) * | 2014-12-25 | 2015-03-25 | 北京奇虎科技有限公司 | 问答页面相关问题推荐方法及装置 |
CN107273350A (zh) * | 2017-05-16 | 2017-10-20 | 广东电网有限责任公司江门供电局 | 一种实现智能问答的信息处理方法及其装置 |
US20170323008A1 (en) * | 2016-05-09 | 2017-11-09 | Fujitsu Limited | Computer-implemented method, search processing device, and non-transitory computer-readable storage medium |
CN108363743A (zh) * | 2018-01-24 | 2018-08-03 | 清华大学深圳研究生院 | 一种智能问题生成方法、装置和计算机可读存储介质 |
-
2019
- 2019-05-29 CN CN201910458886.7A patent/CN110162615B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104462553A (zh) * | 2014-12-25 | 2015-03-25 | 北京奇虎科技有限公司 | 问答页面相关问题推荐方法及装置 |
US20170323008A1 (en) * | 2016-05-09 | 2017-11-09 | Fujitsu Limited | Computer-implemented method, search processing device, and non-transitory computer-readable storage medium |
CN107273350A (zh) * | 2017-05-16 | 2017-10-20 | 广东电网有限责任公司江门供电局 | 一种实现智能问答的信息处理方法及其装置 |
CN108363743A (zh) * | 2018-01-24 | 2018-08-03 | 清华大学深圳研究生院 | 一种智能问题生成方法、装置和计算机可读存储介质 |
Non-Patent Citations (2)
Title |
---|
KAI WANG等: "A syntactic tree matching approach to finding similar questions in community-based qa services", 《PROCEEDINGS OF THE 32ND INTERNATIONAL ACM SIGIR CONFERENCE ON RESEARCH AND DEVELOPMENT IN INFORMATION RETRIEVAL》 * |
曾帅等: "面向知识自动化的自动问答研究进展", 《自动化学报》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021196934A1 (zh) * | 2020-04-02 | 2021-10-07 | 深圳壹账通智能科技有限公司 | 一种基于字段相似度计算的问题推荐方法、装置和服务器 |
CN112634093A (zh) * | 2020-12-30 | 2021-04-09 | 北京金堤科技有限公司 | 获取用于生成合同的引导问题节点图的方法及应用和装置 |
CN112634093B (zh) * | 2020-12-30 | 2023-11-03 | 北京金堤科技有限公司 | 获取用于生成合同的引导问题节点图的方法及应用和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110162615B (zh) | 2021-08-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11449556B2 (en) | Responding to user queries by context-based intelligent agents | |
Williams et al. | A broad-coverage challenge corpus for sentence understanding through inference | |
CN112101041B (zh) | 基于语义相似度的实体关系抽取方法、装置、设备及介质 | |
CN114580382A (zh) | 文本纠错方法以及装置 | |
CN107180026B (zh) | 一种基于词嵌入语义映射的事件短语学习方法及装置 | |
CN110377900A (zh) | 网络内容发布的审核方法、装置、计算机设备及存储介质 | |
CN109344234A (zh) | 机器阅读理解方法、装置、计算机设备和存储介质 | |
CN106570180A (zh) | 基于人工智能的语音搜索方法及装置 | |
CN109472022B (zh) | 基于机器学习的新词识别方法及终端设备 | |
CN113761890B (zh) | 一种基于bert上下文感知的多层级语义信息检索方法 | |
CN111339772B (zh) | 俄语文本情感分析方法、电子设备和存储介质 | |
Zhou et al. | English grammar error correction algorithm based on classification model | |
CN108062351A (zh) | 关于特定主题类别的文本摘要提取方法、可读存储介质 | |
CN117251524A (zh) | 一种基于多策略融合的短文本分类方法 | |
CN110874408B (zh) | 模型训练方法、文本识别方法、装置及计算设备 | |
CN110162615A (zh) | 一种智能问答方法、装置、电子设备和存储介质 | |
Lee | Natural Language Processing: A Textbook with Python Implementation | |
RU2563148C2 (ru) | Система и метод семантического поиска | |
CN117291192A (zh) | 一种政务文本语义理解分析方法及系统 | |
CN107818078B (zh) | 汉语自然语言对话的语义关联与匹配方法 | |
CN115809658A (zh) | 平行语料的生成方法及装置和无监督同义转写方法及装置 | |
CN114548113A (zh) | 基于事件的指代消解系统、方法、终端及存储介质 | |
CN111191465B (zh) | 一种问答匹配方法、装置、设备及存储介质 | |
Zouaoui et al. | Ontological Approach Based on Multi-Agent System for Indexing and Filtering Arabic Docu-ments | |
Ghosh | Natural Language Processing: Basics, Challenges, and Clustering Applications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20240531 Address after: No. 08, 11th Floor, Building 2-17, No. 2 Fufeng Road, Fengtai District, Beijing, 100071 (1208) Patentee after: Lutiantong (Beijing) Information Technology Co.,Ltd. Country or region after: China Address before: 100085 a303, 2 / F, block a, No.9, Shangdi 3rd Street, Haidian District, Beijing Patentee before: BEIJING LEDICT TECHNOLOGY Co.,Ltd. Country or region before: China |
|
TR01 | Transfer of patent right |