CN107391614A - 一种基于wmd的中文问答匹配方法 - Google Patents

一种基于wmd的中文问答匹配方法 Download PDF

Info

Publication number
CN107391614A
CN107391614A CN201710539034.1A CN201710539034A CN107391614A CN 107391614 A CN107391614 A CN 107391614A CN 201710539034 A CN201710539034 A CN 201710539034A CN 107391614 A CN107391614 A CN 107391614A
Authority
CN
China
Prior art keywords
question
word
wmd
question sentence
chinese
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710539034.1A
Other languages
English (en)
Inventor
杜云贵
杜若
李智星
侯聪
晏世凯
刘科
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Minsky Data Technology Co Ltd
Chongqing Wisdom Stewart Big Data Co Ltd
Original Assignee
Chongqing Minsky Data Technology Co Ltd
Chongqing Wisdom Stewart Big Data Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Minsky Data Technology Co Ltd, Chongqing Wisdom Stewart Big Data Co Ltd filed Critical Chongqing Minsky Data Technology Co Ltd
Priority to CN201710539034.1A priority Critical patent/CN107391614A/zh
Publication of CN107391614A publication Critical patent/CN107391614A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明请求保护一种基于WMD的中文问答匹配方法,涉及自然语言处理领域。包括步骤:目标领域的知识库的建立步骤:对知识库的数据预处理步骤:常用同义词词典的建立步骤:词语距离字典的建立步骤:用户提问信息的预处理步骤:文档向量化表示步骤:问句检索及问句匹配步骤:答案返回。采用改进的WMD距离算法度量问句之间的相似性。区别于搜索引擎,本发明允许用户以自然语言的方式查询,并直接返回工整的答案。值得一提的是,本发明在问句匹配过程中兼顾了问句的外在表现形式和问句的内在语义信息,使得本发明能够应对用户提出的类型更为复杂的问句。

Description

一种基于WMD的中文问答匹配方法
技术领域
本发明涉及问答系统以及自然语言处理领域,特别是涉及一种基于WMD的中文问答匹配方法。
背景技术
随着信息技术的迅猛发展,互联网上的数据呈海量增长,与此同时,网络上的冗余数据也越来越多,对于需要在网络上检索自己所需信息的用户来说,其检索任务也变得愈加困难,如何简洁方便又有效的获取用户想了解的信息已成为一个难题摆到人们面前。
因此,以Google、百度为代表的搜索引擎得到了迅猛的发展,用户只要向搜索引擎输入一些关键词组合,搜索引擎就可以返回大量包含相应关键词的网页,再通过对返回结果进行筛选,即可得到自己所需的信息。但搜索引擎存在很多的不足,一方面返回的结果太多,导致用户很难快速的定位到所需信息;另一方面,搜索引擎技术的基础——关键字匹配,只关注了语法形式,并没有涉及语言的语义信息,用户仅采用简单的查询词很难表达其真实的检索需求,导致检索效果一般。
获取需求信息的方式除搜索引擎外,还有另外一种方式,即问答系统(QA,Question Answering)。问答系统是目前自然语言处理领域的一个研究热点,区别于搜索引擎系统,问答系统既能够让用户使用自然语言句子提问,又能够为用户直接返回所需的答案,而不是一些相关的网页,这使得问答系统能让人们在杂乱无章的网络世界中快速、准确地获得自己想要的信息。然而,在问答系统中,对问题的正确理解是整个问题处理过程的前提,句子相似度的计算又是正确理解用户提出问题的基础。因此,需要针对问答系统开发一种精度更高的问句匹配方法以提升问答系统的准确率。
WMD(Word Mover’s Distance)距离是一种基于Word2vec的文档间相似度度量算法。对于两篇文档,该算法首先将文档使用BOW模型(Bag of Words)向量化表示,得到文档对应的特征向量;同时求取两篇文档中的所有词语之间的距离,进一步得到距离矩阵,将两篇文档所对应的特征向量和距离矩阵作为输入代入EMD(Earth Mover’s Distance)距离算法即可求得WMD距离。在文档分类中,当使用WMD距离替代原始kNN算法(k-NearestNeighbors)中的欧式距离时,可以有效的降低分类的误差。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种提高搜索问答准确度、提高效率的基于WMD的中文问答匹配方法。本发明的技术方案如下:
一种基于WMD的中文问答匹配方法,其包括:
目标领域的知识库的建立步骤:对知识库的数据预处理步骤:常用同义词词典的建立步骤:词语距离字典的建立步骤:用户提问信息的预处理步骤:文档向量化表示步骤:问句检索及问句匹配步骤:答案返回。
进一步的,所述目标领域的知识库的建立步骤包括:收集某一目标领域的知识,并将其整理为问答对的形式。
进一步的,所述对知识库的数据预处理步骤包括:通过无监督算法从知识库中发现新词(新词是指词库里面没有出现过的词,比如某些机构的名字,网络新词汇等),将新词和目标领域的专业词汇作为词库,使用中文分词算法将知识库中的问句和答案进行分词操作,并过滤分词结果中出现的标点符号。
进一步的,所述常用同义词词典的建立步骤包括:将现有同义词词林、百科词条整理转换得到常用同义词词典,再使用爬虫抓取互联网上的词条并整理成中文常用同义词词典,并使用正则表达式将知识库中的英文单词找出并翻译,得到中英常用同义词词典,将这两者更新至常用同义词词典。
进一步的,所述词语距离字典的建立步骤包括:使用分词并过滤后的知识库作为训练语料,为出现过的每个词语训练一个d维的word2vec向量,通过每个词语的word2vec向量计算出每个词语的前k个近邻词语及对应的距离,得到词语距离字典,同时,为得到的常用同义词词典中的同义词两两之间启发式的设置一个距离值,使用该距离值更新词语距离字典。
进一步的,所述用户提问信息的预处理步骤包括:将发现的新词和目标领域的专业词汇作为词库使用中文分词算法将用户提出的问句进行分词操作,并过滤分词结果中的标点符号。
进一步的,所述文档向量化表示步骤包括:根据词频、文档频、词性、词语位置将知识库中的问句和用户提出的问句向量化表示。
进一步的,文档向量化表示使用的是加权后的TF-IDF值,权值设置的依据为词语的词性以及词语的长度信息。
进一步的,所述问句检索包括:计算用户提出的问句与知识库中的每一条问句之间的编辑距离,将编辑距离最近的n条问句取出;问句匹配包括步骤:使用改进的WMD距离算法度量用户提出的问句与中得到的n条问句之间的相似度。
答案返回:根据问句匹配的结果,将知识库中与用户提出问句最相似的问句所对应的答案返回给用户。
进一步的,所述改进的WMD距离算法与原始的WMD距离算法的区别在于:需要用到的文档特征向量由文档向量化表示得到;需要用到的词语距离矩阵通过查询词语距离字典得到,如果词语距离字典中无法查询到,则为其设置一个默认值p;使用的EMD距离为改进后的EMD距离,其求取仅考虑测试问句中的词语到待匹配问句中的词语之间的最短距离。
本发明的优点及有益效果如下:
本发明区别于搜索引擎,本发明允许用户以自然语言的方式查询,并直接返回工整的答案。同时,针对问句的特点,本发明使用了效率较高的编辑距离作为问句检索的算法,有效的降低了响应的时间。值得一提的是,引入WMD距离,本发明在问句匹配过程中兼顾了问句的外在表现形式和问句的内在语义信息,使得本发明能够应对用户提出的类型更为复杂的问句,这也是首次将改进的WMD距离应用到问答系统中。
附图说明
图1是本发明提供优选实施例基于WMD的中文问答匹配方法整体流程图;
图2为基于WMD的中文问答匹配方法知识库预处理流程图;
图3为基于WMD的中文问答匹配方法文档向量化流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
首先,通过一定的方法将目标领域的知识整理成问答对的形式得到知识库,再通过无监督算法从知识库中发现新词,将新词和目标领域的专业词汇作为词库使用中文分词算法将知识库中的问句进行分词操作,并过滤分词结果中出现的标点符号。同时,将现有的同义词词林整理转换得到常用同义词词典。补充地,一方面使用爬虫抓取互联网上的词条并整理成中文常用同义词词典,另一方面使用正则表达式将知识库中的英文单词找出并翻译,得到中英常用同义词词典,将这两者更新至常用同义词词典。
进一步的,将分词后的知识库作为训练语料为出现过的每个词语训练一个d维的word2vec向量,通过每个词语的word2vec向量计算出每个词语的前k个近邻词语及对应的距离,得到词语距离字典,同时将常用同义词词典中的同义词(两两之间)通过一定的规则设置一个距离值,使用该距离值更新词语距离字典。
进一步的,将新词和目标领域的专业词汇作为词库使用中文分词算法将用户提出的问句进行分词操作,并过滤分词结果中的标点符号。同时,根据词频、文档频、词性、词语位置等将知识库中的问句和用户提出的问句向量化表示。
最后,计算用户提出的问句与知识库中的每一条问句之间的编辑距离,将编辑距离最近的n条取出,使用改进的WMD距离度量用户提出的问句与这n条问句之间的相似度,将知识库中与用户提出问句最相似的问句所对应的答案返回给用户。
一种基于WMD的中文问答匹配方法的整体流程如图1所示,下面将结合附图对本发明的具体过程做进一步阐述。
步骤1.知识库的建立
收集某一特定领域(目标领域)的知识,并将其整理为问答对的形式,即一个问题对应着一个答案。收集和整理的方法比较宽泛,比如使用爬虫技术抓取互联网上某一特定领域的知识,并通过人工的方法对其进行整理,使问题和答案更加规整。由于收集和整理的方法已非本发明的内容,故不再详细叙述。本实例以已经收集并整理好的某领域(领域A)的十万条问答对为例,以下统称知识库A。
步骤2.知识库数据预处理
如图2所示,通过无监督算法从知识库A中发现新词,将新词和领域A的专业词汇作为词库使用中文分词算法将知识库A中的问句和答案进行分词操作,并过滤分词结果中出现的标点符号。知识库中的答案部分与分词后的问句依旧保持一一对应关系,这种对应关系通过给每个问答对设置一个索引号实现。对于知识库分词后得到的词语,根据其词性进行归类,得到词性文件。需要注意的是,必须先分词再进行过滤标点符号操作,不然会导致分词的效果变差。
步骤3.常用同义词词典建立
将《哈工大信息检索研究室同义词词林扩展版》整理转换得到常用同义词词典。由于同义词词林是比较通用的同义词词典,并不针对领域A,所以作为补充,一方面使用爬虫抓取互联网上的词条并整理成中文常用同义词词典,另一方面使用正则表达式将知识库中的英文单词找出并翻译,得到中英常用同义词词典,将这两者更新至常用同义词词典。
步骤4.词语距离字典的建立
使用步骤2中分词并过滤后的知识库A作为训练语料为出现过的每个词语训练一个d维的word2vec向量,通过每个词语的word2vec向量计算出每个词语的前k个近邻词语及对应的距离,得到词语距离字典。需要注意的是,这里距离的求取使用的是余弦距离。同时,为常用同义词词典中的同义词(两两之间)启发式的设置一个距离值,使用该距离值更新词语距离字典。
步骤5.用户提问信息预处理
将步骤2中发现的新词和领域A的专业词汇作为词库使用中文分词算法将用户提出的问句进行分词操作,并过滤分词结果中的标点符号。
步骤6.文档向量化表示
如图3所示,根据词频、文档频、词性、词语位置等将知识库A中的问句和用户提出的问句向量化表示。文档频的计算依据为整个知识库A(即包括问句部分和答案部分),词频的计算依据则只包含问句部分,答案部分不参与词频的计算。根据词频和文档频可以计算出TF-IDF值,然后依据词性对其进行加权,当词性为人名、地名时,为该词赋予更高的权重,普通名词及动词次之,非语素字的权重则最低;同时,依据词语的长度修改权重值,词语越长,其权重越高。
步骤7.问句检索
计算用户提出的问句与知识库A中的每一条问句之间的编辑距离,将编辑距离最近的n条取出。计算编辑距离的依据为分词后的问句以空字符为间隔拼接在一起的字符串。本步骤的目的是缩小匹配范围,以提高匹配的整体时间效率。
步骤8.问句匹配
使用改进的WMD距离度量用户提出的问句与步骤7中得到的n条问句之间的相似度,得到n个相似度的值。改进的WMD距离算法与原始的WMD距离算法的区别在于:需要用到的文档所对应的特征向量由步骤6得到;需要用到的词语距离矩阵通过查询步骤4中的词语距离字典得到,如果词语距离字典中无法查询到,则为其设置一个默认值p;使用的EMD距离为改进后的EMD距离,其求取仅考虑测试问句中的词语到待匹配问句中的词语之间的最短距离。
步骤9.答案输出
根据问句匹配的结果,将知识库A中与用户提出问句最相似的问句所对应的答案返回给用户。需要注意的是,这里返回的答案为原始的答案,其对应关系由索引建立。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (10)

1.一种基于WMD的中文问答匹配方法,其特征在于,包括:
目标领域的知识库的建立步骤:对知识库的数据预处理步骤:常用同义词词典的建立步骤:词语距离字典的建立步骤:用户提问信息的预处理步骤:文档向量化表示步骤:问句检索及问句匹配步骤:答案返回。
2.根据权利要求1所述的基于WMD的中文问答匹配方法,其特征在于,
所述目标领域的知识库的建立步骤包括:收集某一目标领域的知识,并将其整理为问答对的形式。
3.根据权利要求2所述的基于WMD的中文问答匹配方法,其特征在于,所述对知识库的数据预处理步骤包括:通过无监督算法从知识库中发现新词,新词指词库里面没有出现过的词,将新词和目标领域的专业词汇作为词库,使用中文分词算法将知识库中的问句和答案进行分词操作,并过滤分词结果中出现的标点符号。
4.根据权利要求3所述的基于WMD的中文问答匹配方法,其特征在于,所述常用同义词词典的建立步骤包括:将现有同义词词林、百科词条整理转换得到常用同义词词典,再使用爬虫抓取互联网上的词条并整理成中文常用同义词词典,并使用正则表达式将知识库中的英文单词找出并翻译,得到中英常用同义词词典,将这两者更新至常用同义词词典。
5.根据权利要求4所述的基于WMD的中文问答匹配方法,其特征在于,所述词语距离字典的建立步骤包括:使用分词并过滤后的知识库作为训练语料,为出现过的每个词语训练一个d维的word2vec向量,通过每个词语的word2vec向量计算出每个词语的前k个近邻词语及对应的距离,得到词语距离字典,同时,为得到的常用同义词词典中的同义词两两之间启发式的设置一个距离值,使用该距离值更新词语距离字典。
6.根据权利要求5所述的基于WMD的中文问答匹配方法,其特征在于,所述用户提问信息的预处理步骤包括:将发现的新词和目标领域的专业词汇作为词库使用中文分词算法将用户提出的问句进行分词操作,并过滤分词结果中的标点符号。
7.根据权利要求5所述的基于WMD的中文问答匹配方法,其特征在于,所述文档向量化表示步骤包括:根据词频、文档频、词性、词语位置将知识库中的问句和用户提出的问句向量化表示。
8.根据权利要求7所述的基于WMD的中文问答匹配方法,其特征在于,文档向量化表示使用的是加权后的TF-IDF值,权值设置的依据为词语的词性以及词语的长度信息。
9.根据权利要求8所述的基于WMD的中文问答匹配方法,其特征在于,所述问句检索包括:计算用户提出的问句与知识库中的每一条问句之间的编辑距离,将编辑距离最近的n条问句取出;问句匹配包括步骤:使用改进的WMD距离算法度量用户提出的问句与中得到的n条问句之间的相似度;
答案返回:根据问句匹配的结果,将知识库中与用户提出问句最相似的问句所对应的答案返回给用户。
10.根据权利要求9所述的基于WMD的中文问答匹配方法,其特征在于,所述改进的WMD距离算法与原始的WMD距离算法的区别在于:需要用到的文档特征向量由文档向量化表示得到;需要用到的词语距离矩阵通过查询词语距离字典得到,如果词语距离字典中无法查询到,则为其设置一个默认值p;使用的EMD距离为改进后的EMD距离,其求取仅考虑测试问句中的词语到待匹配问句中的词语之间的最短距离。
CN201710539034.1A 2017-07-04 2017-07-04 一种基于wmd的中文问答匹配方法 Pending CN107391614A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710539034.1A CN107391614A (zh) 2017-07-04 2017-07-04 一种基于wmd的中文问答匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710539034.1A CN107391614A (zh) 2017-07-04 2017-07-04 一种基于wmd的中文问答匹配方法

Publications (1)

Publication Number Publication Date
CN107391614A true CN107391614A (zh) 2017-11-24

Family

ID=60335278

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710539034.1A Pending CN107391614A (zh) 2017-07-04 2017-07-04 一种基于wmd的中文问答匹配方法

Country Status (1)

Country Link
CN (1) CN107391614A (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108595706A (zh) * 2018-05-10 2018-09-28 中国科学院信息工程研究所 一种基于主题词类相似性的文档语义表示方法、文本分类方法和装置
CN108717433A (zh) * 2018-05-14 2018-10-30 南京邮电大学 一种面向程序设计领域问答系统的知识库构建方法及装置
CN109033373A (zh) * 2018-07-27 2018-12-18 中国地质调查局发展研究中心 用于标注地质体代号的方法、装置及其存储介质
CN109460448A (zh) * 2018-08-31 2019-03-12 厦门快商通信息技术有限公司 一种可自主配置的faq服务框架
CN109657232A (zh) * 2018-11-16 2019-04-19 北京九狐时代智能科技有限公司 一种意图识别方法
CN109710732A (zh) * 2018-11-19 2019-05-03 东软集团股份有限公司 信息查询方法、装置、存储介质和电子设备
CN109766421A (zh) * 2018-12-28 2019-05-17 上海汇付数据服务有限公司 智能问答系统以及方法
CN109977204A (zh) * 2019-03-08 2019-07-05 科讯嘉联信息技术有限公司 一种基于知识库的智能问答系统和方法
CN110019715A (zh) * 2017-12-08 2019-07-16 阿里巴巴集团控股有限公司 应答确定方法、装置、设备、介质和系统
CN110598078A (zh) * 2019-09-11 2019-12-20 京东数字科技控股有限公司 数据检索方法及装置、计算机可读存储介质、电子设备
CN110674378A (zh) * 2019-09-26 2020-01-10 科大国创软件股份有限公司 基于余弦相似度和最小编辑距离的中文语义识别方法
CN110852111A (zh) * 2018-08-03 2020-02-28 天津大学 能同时过滤无关评论和对相关评论进行情感分类的方法
CN111090735A (zh) * 2019-12-25 2020-05-01 成都航天科工大数据研究院有限公司 一种基于知识图谱的智能问答方法及其性能评价方法
CN111429886A (zh) * 2020-04-09 2020-07-17 厦门钛尚人工智能科技有限公司 一种语音识别方法及系统
CN111506721A (zh) * 2020-04-22 2020-08-07 福州大学 一种面向领域知识图谱的问答系统及构建方法
CN112215010A (zh) * 2019-07-10 2021-01-12 北京猎户星空科技有限公司 一种语义识别方法及设备
CN112507096A (zh) * 2020-12-16 2021-03-16 平安银行股份有限公司 文档问答对拆分方法、装置、电子设备及存储介质
CN112599120A (zh) * 2020-12-11 2021-04-02 上海中通吉网络技术有限公司 基于自定义加权的wmd算法的语意确定方法及装置
US20210104233A1 (en) * 2019-10-03 2021-04-08 Ez-Ai Corp. Interactive voice feedback system and method thereof
CN113609830A (zh) * 2021-04-07 2021-11-05 新大陆数字技术股份有限公司 基于nlp技术的文学作品问答方法、系统及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101373532A (zh) * 2008-07-10 2009-02-25 昆明理工大学 旅游领域faq中文问答系统实现方法
CN103064969A (zh) * 2012-12-31 2013-04-24 武汉传神信息技术有限公司 自动建立关键词索引表的方法
CN104050256A (zh) * 2014-06-13 2014-09-17 西安蒜泥电子科技有限责任公司 基于主动学习的问答方法及采用该方法的问答系统
CN105824933A (zh) * 2016-03-18 2016-08-03 苏州大学 基于主述位的自动问答系统及其实现方法
CN106484664A (zh) * 2016-10-21 2017-03-08 竹间智能科技(上海)有限公司 一种短文本间相似度计算方法
CN106649561A (zh) * 2016-11-10 2017-05-10 复旦大学 面向税务咨询业务的智能问答系统
CN106777232A (zh) * 2016-12-26 2017-05-31 上海智臻智能网络科技股份有限公司 问答抽取方法、装置及终端

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101373532A (zh) * 2008-07-10 2009-02-25 昆明理工大学 旅游领域faq中文问答系统实现方法
CN103064969A (zh) * 2012-12-31 2013-04-24 武汉传神信息技术有限公司 自动建立关键词索引表的方法
CN104050256A (zh) * 2014-06-13 2014-09-17 西安蒜泥电子科技有限责任公司 基于主动学习的问答方法及采用该方法的问答系统
CN105824933A (zh) * 2016-03-18 2016-08-03 苏州大学 基于主述位的自动问答系统及其实现方法
CN106484664A (zh) * 2016-10-21 2017-03-08 竹间智能科技(上海)有限公司 一种短文本间相似度计算方法
CN106649561A (zh) * 2016-11-10 2017-05-10 复旦大学 面向税务咨询业务的智能问答系统
CN106777232A (zh) * 2016-12-26 2017-05-31 上海智臻智能网络科技股份有限公司 问答抽取方法、装置及终端

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
柳晓春: "《信息资源组织》", 31 July 2003, 世界图书出版公司 *
高尚: "《分布估计算法及其应用》", 31 January 2016, 国防工业出版社 *

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019715A (zh) * 2017-12-08 2019-07-16 阿里巴巴集团控股有限公司 应答确定方法、装置、设备、介质和系统
CN110019715B (zh) * 2017-12-08 2023-07-14 阿里巴巴集团控股有限公司 应答确定方法、装置、设备、介质和系统
CN108595706A (zh) * 2018-05-10 2018-09-28 中国科学院信息工程研究所 一种基于主题词类相似性的文档语义表示方法、文本分类方法和装置
CN108595706B (zh) * 2018-05-10 2022-05-24 中国科学院信息工程研究所 一种基于主题词类相似性的文档语义表示方法、文本分类方法和装置
CN108717433A (zh) * 2018-05-14 2018-10-30 南京邮电大学 一种面向程序设计领域问答系统的知识库构建方法及装置
CN109033373A (zh) * 2018-07-27 2018-12-18 中国地质调查局发展研究中心 用于标注地质体代号的方法、装置及其存储介质
CN109033373B (zh) * 2018-07-27 2021-11-16 中国地质调查局发展研究中心 用于标注地质体代号的方法、装置及其存储介质
CN110852111A (zh) * 2018-08-03 2020-02-28 天津大学 能同时过滤无关评论和对相关评论进行情感分类的方法
CN109460448A (zh) * 2018-08-31 2019-03-12 厦门快商通信息技术有限公司 一种可自主配置的faq服务框架
CN109657232A (zh) * 2018-11-16 2019-04-19 北京九狐时代智能科技有限公司 一种意图识别方法
CN109710732A (zh) * 2018-11-19 2019-05-03 东软集团股份有限公司 信息查询方法、装置、存储介质和电子设备
CN109710732B (zh) * 2018-11-19 2021-03-05 东软集团股份有限公司 信息查询方法、装置、存储介质和电子设备
CN109766421A (zh) * 2018-12-28 2019-05-17 上海汇付数据服务有限公司 智能问答系统以及方法
CN109977204A (zh) * 2019-03-08 2019-07-05 科讯嘉联信息技术有限公司 一种基于知识库的智能问答系统和方法
CN112215010A (zh) * 2019-07-10 2021-01-12 北京猎户星空科技有限公司 一种语义识别方法及设备
CN110598078A (zh) * 2019-09-11 2019-12-20 京东数字科技控股有限公司 数据检索方法及装置、计算机可读存储介质、电子设备
CN110674378A (zh) * 2019-09-26 2020-01-10 科大国创软件股份有限公司 基于余弦相似度和最小编辑距离的中文语义识别方法
US20210104233A1 (en) * 2019-10-03 2021-04-08 Ez-Ai Corp. Interactive voice feedback system and method thereof
CN111090735A (zh) * 2019-12-25 2020-05-01 成都航天科工大数据研究院有限公司 一种基于知识图谱的智能问答方法及其性能评价方法
CN111090735B (zh) * 2019-12-25 2023-03-10 成都航天科工大数据研究院有限公司 一种基于知识图谱的智能问答方法的性能评价方法
CN111429886A (zh) * 2020-04-09 2020-07-17 厦门钛尚人工智能科技有限公司 一种语音识别方法及系统
CN111429886B (zh) * 2020-04-09 2023-08-15 厦门钛尚人工智能科技有限公司 一种语音识别方法及系统
CN111506721A (zh) * 2020-04-22 2020-08-07 福州大学 一种面向领域知识图谱的问答系统及构建方法
CN111506721B (zh) * 2020-04-22 2022-10-11 福州大学 一种面向领域知识图谱的问答系统及构建方法
CN112599120A (zh) * 2020-12-11 2021-04-02 上海中通吉网络技术有限公司 基于自定义加权的wmd算法的语意确定方法及装置
CN112507096A (zh) * 2020-12-16 2021-03-16 平安银行股份有限公司 文档问答对拆分方法、装置、电子设备及存储介质
CN113609830A (zh) * 2021-04-07 2021-11-05 新大陆数字技术股份有限公司 基于nlp技术的文学作品问答方法、系统及存储介质

Similar Documents

Publication Publication Date Title
CN107391614A (zh) 一种基于wmd的中文问答匹配方法
CN113011533B (zh) 文本分类方法、装置、计算机设备和存储介质
CN110457688B (zh) 纠错处理方法及装置、存储介质和处理器
CN109918666B (zh) 一种基于神经网络的中文标点符号添加方法
WO2020232861A1 (zh) 命名实体识别方法、电子装置及存储介质
WO2019153737A1 (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN109840287A (zh) 一种基于神经网络的跨模态信息检索方法和装置
CN110929038B (zh) 基于知识图谱的实体链接方法、装置、设备和存储介质
CN113094578B (zh) 基于深度学习的内容推荐方法、装置、设备及存储介质
US11934781B2 (en) Systems and methods for controllable text summarization
CN113591483A (zh) 一种基于序列标注的文档级事件论元抽取方法
CN107180026B (zh) 一种基于词嵌入语义映射的事件短语学习方法及装置
CN102314876B (zh) 语音检索的方法和系统
KR101988165B1 (ko) 청각 장애 학생들을 위한 전문 자료 텍스트 분석 기반 음성인식 기술 정확도 향상 방법 및 시스템
CN114818717B (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
JP2019082931A (ja) 検索装置、類似度算出方法、およびプログラム
CN110929498A (zh) 一种短文本相似度的计算方法及装置、可读存储介质
CN112883182A (zh) 一种基于机器阅读的问答匹配方法及装置
US20230178073A1 (en) Systems and methods for parsing and correlating solicitation video content
CN112528003B (zh) 一种基于语义排序和知识修正的多项选择问答方法
CN117828024A (zh) 一种插件检索方法、装置、存储介质及设备
US20190095525A1 (en) Extraction of expression for natural language processing
Ronghui et al. Application of Improved Convolutional Neural Network in Text Classification.
CN110019814B (zh) 一种基于数据挖掘与深度学习的新闻信息聚合方法
US20230088411A1 (en) Machine reading comprehension apparatus and method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20171124

RJ01 Rejection of invention patent application after publication