CN108108449A - 一种面向医疗领域的基于多源异构数据问答系统及该系统的实现方法 - Google Patents
一种面向医疗领域的基于多源异构数据问答系统及该系统的实现方法 Download PDFInfo
- Publication number
- CN108108449A CN108108449A CN201711448417.4A CN201711448417A CN108108449A CN 108108449 A CN108108449 A CN 108108449A CN 201711448417 A CN201711448417 A CN 201711448417A CN 108108449 A CN108108449 A CN 108108449A
- Authority
- CN
- China
- Prior art keywords
- mrow
- sentence
- msub
- answer
- question
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
- G06F16/337—Profile generation, learning or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
一种面向医疗领域的基于多源异构数据问答系统及该系统的实现方法,属于医疗健康领域,本发明为解决现有医疗健康问答系统中数据来源单一、算法单一、考虑的语义信息少的问题。本发明所述一种面向医疗领域的基于多源异构数据问答系统,包括客户端和服务器,客户端向服务器发起获取答案的请求,服务器从结构化数据库、医疗健康问答对数据和开放知识图谱中获取答案,并将答案进行处理和合成后返回至客户端。本发明用于医疗健康领域的数据问答系统。
Description
技术领域
本发明涉及一种基于多源异构数据问答系统及该系统的实现方法,属于医疗健康领域。
背景技术
随着互联网的发展,互联网累积了海量的医疗健康信息资源,并且多以文本问答对、文本数据等方式呈现。然而传统的搜索引擎网页搜索结果较多,而且可能有许多重复和无关的内容。尤其对于医疗健康的相关问题,用户使用搜索引擎难以区分可靠和不可靠的答案。因此,医疗健康领域急需一个专业可靠的知识获取系统,以尽可能充分利用网络健康信息资源。
问答系统作为自然语言处理的重要分支,对提高人们获取知识的效率、改善人机交互体验具有重大作用。相对于传统的信息检索系统,自动问答系统返回用户的不再是基于关键词匹配排序的文档列表,而是精准的自然语言答案。近年来,随着人工智能的飞速发展,自动问答已经成为倍受关注且发展前景广泛的研究方向。与此同时,海量的在线健康问答数据和自然语言处理技术的发展,这些都给医疗健康自动问答系统提供了有利的环境。
从用户的角度,医疗健康自动问答系统可以缓解医患之间信息不对称的矛盾,极大地降低用户的使用门槛,方便大家的生活。用户可以随时使用医疗健康自动问答系统,方便快捷地咨询医疗健康相关问题,如疾病的症状、并发症、治疗方法等,随时解决日常中基本的健康问题。从研究的角度,自动问答作为自然语言处理领域的热门研究方向,在国外医学领域的应用已有了初步发展,但在国内尚未引起充分重视。同时,网络健康信息资源往往以文本问答对、文本数据等多种方式呈现。
近年来,随着深度学习算法的不断发展,越来越多的深度学习算法应用于自然语言处理,例如使用词向量对词进行表示、基于双向LSTM(Long Short-Term Memory,长短期记忆网络)结合CRF算法(Conditional Random Field Algorithm,条件随机场算法)的命名实体识别、端到端的语言生成模型等。
词向量是近年来常用来替代传统词袋的词表示方法,解决了词袋表示带来的维数灾难问题。研究人员还发现,通过训练语言模型得到的词向量蕴含了词汇的语义信息,还可以通过一些算法能够在一定程度上得到词汇的相似度等数据,可以用于计算问句的相似度。
命名实体识别作为信息抽取的基本任务之一,在问答系统、句法分析、机器翻译等领域中都有重要应用。命名实体识别任务使用的模型主要有以CRF为代表的传统模型和深度神经网络模型两类,而在医疗领域一般还在使用传统的CRF模型。研究表明,使用双向LSTM结合CRF的方法能够有效提高命名实体识别的精度。
序列到序列的语言生成模型可以有效用于基于问答对的问答系统。序列到序列的记忆神经网络模型并应用于自动问答的优点是把传统的问句解析、文本检索、答案抽取与生成等复杂步骤转变成了一个可学习的过程。
现有的面向医疗健康领域的自动问答系统多是基于文档检索的方法,这些方法很难考虑语义的信息;虽然也存在一些基于知识库的问答系统,但是面向医疗健康领域的较少,而中文领域的医疗健康问答系统更是非常少见,并且这些系统的数据源往往是单一的。
发明内容
本发明是为了解决现有医疗健康问答系统中数据来源单一、算法单一、考虑的语义信息少的问题,提出的一种面向医疗领域的基于多源异构数据问答系统及该系统的实现方法。
本发明所述一种面向医疗领域的基于多源异构数据问答系统,该问答系统包括客户端和服务器,客户端向服务器发起获取答案的请求,服务器从结构化数据库、医疗健康问答对数据和开放知识图谱中获取答案,并将答案进行处理和合成后返回至客户端。
本发明所述一种面向医疗领域的基于多源异构数据问答系统的实现方法,该问答系统的实现方法的具体过程为:
步骤1、收集中文语料库;
收集医疗健康问答对数据;
收集具有结构化特征的医疗健康文本数据,并将医疗健康文本数据转化成结构化数据库;
步骤2、将步骤1收集的中文语料库中的语料数据进行词向量训练,并保存模型,作为深度学习模型的预训练词向量;
步骤3、利用步骤2的预训练词向量对步骤1收集的医疗健康问答对数据进行带注意力机制的序列到序列网络的训练,训练生成的模型用于获得医疗健康问答对中的答案;
步骤4、利用步骤1生成的结构化数据库获取结构化数据库中对应的答案:
获取结构化数据库中对应答案的具体过程为:
步骤4-1、通过步骤1生成的结构化数据库构建病名词典、症状词典和用户意图特征词典;
步骤4-2、基于病名词典、症状词典和用户意图特征词典对用户问句进行槽填充,槽填充后的用户问句为已标记的词典用户问句;
步骤4-3、将已标记的词典用户问句转换生成SQL查询语句;
步骤4-4、使用生成的SQL查询语句从结构化数据库中查询答案;从结构化数据库中获取的答案如果过长,对答案进行自动摘要;
步骤5、收集步骤4中的已标记用户问句作为训练数据;基于带条件随机场算法解码的双向长短期记忆单元网络模型,对已标记的用户问句进行训练;使用训练好的带条件随机场算法解码的双向长短期记忆单元网络模型,对用户问句再次进行槽填充,获得已标记的双向长短期记忆单元网络模型用户问句;
将已标记的双向长短期记忆单元网络模型用户问句转换成开放知识图谱查询API;
发起API请求获取相应开放知识图谱答案;
将从开放知识图谱中获取的答案根据已标记的双向长短期记忆单元网络模型用户问句和相应模版转换成自然语言形式的答案;
步骤6、对步骤3中获取的医疗健康问答对中的答案、步骤4中获取的结构化数据库中的答案和步骤5中获取的开放知识图谱中的答案进行合并;
对所有的答案进行合并的具体过程为:将所有的答案按照句子级别划分,从语法和语义两个层面计算句子之间的相似度,当有相似的句子时,随机除去一个,最后将所有的答案合并为一个答案;
步骤7、根据用户问句,采用步骤6的计算句子之间相似度的方法,从历史问答对中查找与当前用户问句相似的问句,进行相似问句的推荐。
本发明所述一种面向医疗领域的基于多源异构数据问答系统的实现方法的有益效果为:
本发明涉及序列到序列的语言生成模型,所属自然语言生成领域,相关研究和应用对序列到序列模型有促进作用。本发明通过使用深度学习方法,进一步挖掘语料所蕴含的信息;同时引入大规模语料信息来防止模型在测试中,由于出现了过多没有经过训练的开放领域常规词而降低效果的问题。
本发明能够缓解医疗领域的实体识别又缺乏标注语料的问题,研究在医疗领域如何利用基于结构化数据库和规则的方法获取答案的同时,对用户问句进行自动标注,从而自动生成医疗领域的问句标注语料。
本发明能够缓解医疗健康领域的问答系统数据来源单一,算法精度不足的问题,研究在医疗领域如何利用互联网上不同形式的数据,采用最新的算法,提高问答系统答案的准确性和丰富性。
本发明的基于多源异构数据的医疗健康自动问答系统不仅可以有效利用网络健康信息资源,还对推动中文领域医学自动问答研究和应用的发展有重大意义。
附图说明
图1为本发明所述的一种面向医疗领域的基于多源异构数据问答系统的拓扑架构图;
图2为本发明所述的一种面向医疗领域的基于多源异构数据问答系统的流程示意图。
具体实施方式
具体实施方式一、结合图1说明本实施方式,本实施方式所述一种面向医疗领域的基于多源异构数据问答系统,该问答系统包括客户端和服务器,客户端向服务器发起获取答案的请求,服务器从结构化数据库、医疗健康问答对数据和开放知识图谱中获取答案,并将答案进行处理和合成后返回至客户端。
本实施方式中,客户端包括Web端和移动端。
具体实施方式二、结合图2说明本实施方式,本实施方式所述一种面向医疗领域的基于多源异构数据问答系统的实现方法,该问答系统的实现方法的具体过程为:
步骤1、收集中文语料库;
收集医疗健康问答对数据;
收集具有结构化特征的医疗健康文本数据,并将医疗健康文本数据转化成结构化数据库;
步骤2、将步骤1收集的中文语料库中的语料数据进行词向量训练,并保存模型,作为深度学习模型的预训练词向量;
步骤3、利用步骤2的预训练词向量对步骤1收集的医疗健康问答对数据进行带注意力机制的序列到序列网络的训练,训练生成的模型用于获得医疗健康问答对中的答案;
步骤4、利用步骤1生成的结构化数据库获取结构化数据库中对应的答案:
获取结构化数据库中对应答案的具体过程为:
步骤4-1、通过步骤1生成的结构化数据库构建病名词典、症状词典和用户意图特征词典;
步骤4-2、基于病名词典、症状词典和用户意图特征词典对用户问句进行槽填充,槽填充后的用户问句为已标记的词典用户问句;
步骤4-3、将已标记的词典用户问句转换生成SQL查询语句;
步骤4-4、使用生成的SQL查询语句从结构化数据库中查询答案;从结构化数据库中获取的答案如果过长,对答案进行自动摘要;
步骤5、收集步骤4中的已标记用户问句作为训练数据;基于带条件随机场算法解码的双向长短期记忆单元网络模型,对已标记的用户问句进行训练;使用训练好的带条件随机场算法解码的双向长短期记忆单元网络模型,对用户问句再次进行槽填充,获得已标记的双向长短期记忆单元网络模型用户问句;
将已标记的双向长短期记忆单元网络模型用户问句转换成开放知识图谱查询API;
发起API请求获取相应开放知识图谱答案;
将从开放知识图谱中获取的答案根据已标记的双向长短期记忆单元网络模型用户问句和相应模版转换成自然语言形式的答案;
步骤6、对步骤3中获取的医疗健康问答对中的答案、步骤4中获取的结构化数据库中的答案和步骤5中获取的开放知识图谱中的答案进行合并;
对所有的答案进行合并的具体过程为:将所有的答案按照句子级别划分,从语法和语义两个层面计算句子之间的相似度,当有相似的句子时,随机除去一个,最后将所有的答案合并为一个答案;
步骤7、根据用户问句,采用步骤6的计算句子之间相似度的方法,从历史问答对中查找与当前用户问句相似的问句,进行相似问句的推荐。
本实施方式中,步骤3中所述注意力为Attention,序列到序列为Sequence toSequence,Seq2Seq。
本实施方式中,SQL,Structured Query Language,结构化查询语言。API,Application Programming Interface,应用程序编程接口。
本实施方式中,带条件随机场算法解码的双向长短期记忆单元网络模型,双向长短期记忆单元网络为Bi-LSTM-CRF。
具体实施方式三、本实施方式是对具体实施方式二作进一步说明,步骤3所述对数据进行带注意力机制的序列到序列网络的训练的具体过程为:
步骤3-1、采用步骤2的预训练词向量对医疗健康问答对数据中的所有词进行初始化;
步骤3-2、采用记忆网络模型对用户问句进行编码,获得编码后的输出值和隐状态;
步骤3-3、采用记忆网络模型,结合注意力机制,对编码后的输出值、隐状态和用户问句的输入值进行解码,获得预测后的答案;
步骤3-4、根据解码后的答案和真实答案计算损失函数;
步骤3-5、判断损失参数是否收敛,如果否,则执行步骤3-6,如果是,则执行步骤3-7;
步骤3-6、根据损失函数进行反向传播,更新参数,然后返回执行步骤3-2;
步骤3-7、带注意力机制的序列到序列网络的训练完成。
本实施方式中,记忆网络模型为GRU模型。
具体实施方式四、本实施方式是对具体实施方式二作进一步说明,步骤4-4所述对从结构化数据库中获取的答案进行自动摘要的具体过程为:
步骤4-4-1、将过长答案的每个段落作为一篇文档,采用词频-逆文档频率方法计算每篇文档中每个词的权重,当一个词出现在用户问句中时,该词的权重为词频-逆文档频率方法计算获得的权重加一;
步骤4-4-2、根据步骤4-4-1获得的每个词的权重,计算每个段落的平均权重,将段落的平均权重作为该段落的重要度;
步骤4-4-3、将所有段落按照步骤4-4-2获得的段落重要度降序排列,当段落重要度相同时,将靠前的段落排在前面,最终选取前三个排名的段落;
步骤4-4-4、将前三个排名的段落按照句子级别进行划分,根据步骤4-4-1获得的每个词的权重,计算划分后每个句子的词的平均权重,将词的平均权重作为句子的重要度;
步骤4-4-5、将步骤4-4-4划分的所有句子按照句子重要度降序排列,当句子重要度相同时,将靠前的句子排在前面,最终选取前五个排名的句子作为摘要出的答案。
本实施方式中,词频-逆文档频率方法为TF-IDF方法。
具体实施方式五、本实施方式是对具体实施方式二作进一步说明,步骤5所述基于带条件随机场算法解码的双向长短期记忆单元网络模型,对已标记的用户问句进行训练的具体过程为:
步骤5-1、采用步骤2的预训练词向量对已标记的用户问句中的所有词进行初始化;
步骤5-2、从输入层向输出层正向传播,从左向右计算长短期记忆单元网络的状态值;
步骤5-3、从输入层向输出层正向传播,从右向左计算长短期记忆单元网络的状态值;
步骤5-4、将步骤5-2的正向长短期记忆单元网络的状态值和步骤5-3的反向长短期记忆单元网络的状态值输入条件随机场层进行解码;
步骤5-5、根据条件随机场解码后的命名实体识别答案和已标记答案计算损失函数;
步骤5-6、判断损失函数是否收敛,如果否,则执行步骤5-7,如果是,则执行步骤5-8;
步骤5-7、根据损失函数对双向长短期记忆单元网络进行反向传播,更新参数,然后返回执行步骤5-2;
步骤5-8、基于带条件随机场算法解码的双向长短期记忆单元网络模型训练完成。
具体实施方式六、本实施方式是对具体实施方式二作进一步说明,步骤6所述从语法和语义两个层面计算句子之间的相似度的具体过程为:
步骤6-1、两个句子分别表示为S1和S2,wordSim(S1,S2)表示句子S1和句子S2的词形相似度,则词形相似度为:
其中,same(S1,S2)表示句子S1和句子S2中共同词的个数,当一个词在句子S1和句子S2中出现的次数不同时,按照出现次数少的计数,len(S1)表示句子S1中词的个数,len(S2)表示句子S2中词的个数;
步骤6-2、orderSim(S1,S2)表示句子S1和句子S2的词序相似度,则词序相似度为:
其中,orderOcc(S1,S2)表示在句子S1和句子S2中都出现且只出现一次的词,orderOcc(S1,S2)中的词在句子S1中位置序号构成的向量表示为PFirst(S1,S2),PFirst(S1,S2)中的分量按对应词在句子S2中的词序排序生成的向量表示为PSecond(S1,S2),PSecond(S1,S2)各相邻分量的逆序数表示为reWord(S1,S2);
步骤6-3、lenSim(S1,S2)表示句子S1和句子S2的句长相似度,则句长相似度为:
其中,abs表示绝对值;
步骤6-4、根据步骤6-1获得的词形相似度wordSim(S1,S2)、步骤6-2获得的词序相似度reWord(S1,S2)和步骤6-3获得的句长相似度lenSim(S1,S2)进行加权,获得句子S1和句子S2的语法相似度syntaxSim(S1,S2),语法相似度为:
syntaxSim(S1,S2)=α×wordSim(S1,S2)+β×orderSim(S1,S2)+γ×lenSim(S1,S2),其中,α、β、γ为常数,α>>β,α>>γ,且满足α+β+γ=1,使得syntaxSim(S1,S2)∈[0,1],
步骤6-5、句子S1包含的词表示为w11,w12,…,w1n,句子S2包含的词表示为w21,w22,…,w2m,则词w1i(1≤i≤)n和w2j(1≤j≤m)之间的相似度表示为sim(w1i,w2j),句子S1和句子S2之间的语义相似度为:
步骤6-6、根据语法相似度和语义相似度计算句子S1和句子S2之间的相似度结果为:
sim(S1,S2)=φ×syntaxSim(S1,S2)+ψ×semanticSim(S1,S2);
其中,φ和ψ为常数,φ>ψ,且满足φ+ψ=1。
本实施方式中,词形相似度wordSim(S1,S2)反映两个句子S1和S2中的词在形态上的相似程度;词序相似度reWord(S1,S2)反映两个句子S1和S2中词在位置关系上的相似度;句长相似度lenSim(S1,S2)反映两个句子S1和S2在长度形态上的相似程度。
具体实施方式七、结合图2说明本实施方式,本实施方式所述一种面向医疗领域的基于多源异构数据问答系统的使用方法,该使用方法的具体过程为:
步骤7-1、客户端接收用户输入的用户问句,然后将用户问句输出至服务器;
步骤7-2、服务器接收用户问句,对用户问句进行预处理,预处理包括分词、停用词过滤和同义词扩展;
步骤7-3、服务器根据预处理后的用户问句获取结构化数据库中的答案;
具体过程为:
步骤7-3-1、通过生成的结构化数据库构建病名词典、症状词典和用户意图特征词典;
步骤7-3-2、基于病名词典、症状词典和用户意图特征词典对用户问句进行槽填充,槽填充后的用户问句为已标记的词典用户问句;
步骤7-3-3、将已标记的词典用户问句转换生成SQL查询语句,使用生成的SQL查询语句从结构化数据库中查询答案;
步骤7-3-4、判断答案是否过长。如果是,将过长答案的每个段落作为一篇文档,采用词频-逆文档频率方法计算每篇文档中每个词的权重,当一个词出现在用户问句中时,该词的权重为词频-逆文档频率方法计算获得的权重加一;
步骤7-3-5、根据每个词的权重,计算每个段落的平均权重,将段落的平均权重作为该段落的重要度;将所有段落按照段落重要度降序排列,当段落重要度相同时,将靠前的段落排在前面,最终选取前三个排名的段落;
步骤7-3-6、将前三个排名的段落按照句子级别进行划分,根据每个词的权重,计算划分后每个句子的词的平均权重,将词的平均权重作为句子的重要度;将划分的所有句子按照句子重要度降序排列,当句子重要度相同时,将靠前的句子排在前面,最终选取前五个排名的句子作为摘要出的答案。
步骤7-4、步骤7-3的同时,服务器根据预处理后的用户问句获取医疗健康问答对中的答案;具体过程为:
步骤7-4-1、根据已经训练好的序列到序列模型,对问句进行词向量表示;
步骤7-4-2、将词向量表示后的问句输入的序列到序列模型中的编码器,对问句进行编码;
步骤7-4-3、将编码后的输出值、状态值以及问句的词向量表示输入到序列到序列模型中的解码器,解码生成的答案作为问答对中的最终答案。
步骤7-5、步骤7-3的同时,服务器根据预处理后的用户问句获取开放知识图谱中的答案;具体过程为:
步骤7-5-1、使用训练好的Bi-LSTM-CRF模型,对用户问句进行词向量表示;
步骤7-5-2、将词向量表示后的问句输入Bi-LSTM-CRF模型,从输入层向输出层正向传播,从左往右计算LSTM的状态值;从输入层向输出层正向传播,从右往左计算LSTM的状态值;
步骤7-5-3、将计算得到的正反两个方向的LSTM状态值输入的CRF层进行解码;
步骤7-5-4、根据CRF解码后的命名实体识别答案,对用户输入的问句进行标记(槽填充);
步骤7-5-5、将标记后的用户问句转换生成开放知识图谱查询API;发起API请求获取相应开放知识图谱答案;
步骤7-5-6、将从开放知识图谱中的答案根据标记好的问句和相应模板转成自然语言形式的答案,作为开放知识图谱中的最终答案;
步骤7-6、将基于结构化数据库获取的最终答案、基于问答对获取的最终答案以及基于开放知识图谱获取的最终答案进行答案合成;具体过程为:
步骤7-6-1、将所有获取的答案以句子级别划分,
步骤7-6-2、从语法和语义两个层面计算两个句子之间的相似度:
两个句子分别表示为S1和S2,wordSim(S1,S2)表示句子S1和句子S2的词形相似度,则词形相似度为:
其中,same(S1,S2)表示句子S1和句子S2中共同词的个数,当一个词在句子S1和句子S2中出现的次数不同时,按照出现次数少的计数,len(S1)表示句子S1中词的个数,len(S2)表示句子S2中词的个数;
orderSim(S1,S2)表示句子S1和句子S2的词序相似度,则词序相似度为:
其中,orderOcc(S1,S2)表示在句子S1和句子S2中都出现且只出现一次的词,orderOcc(S1,S2)中的词在句子S1中位置序号构成的向量表示为PFirst(S1,S2),PFirst(S1,S2)中的分量按对应词在句子S2中的词序排序生成的向量表示为PSecond(S1,S2),PSecond(S1,S2)各相邻分量的逆序数表示为reWord(S1,S2);
lenSim(S1,S2)表示句子S1和句子S2的句长相似度,则句长相似度为:
其中,abs表示绝对值;
根据步骤词形相似度wordSim(S1,S2)、词序相似度reWord(S1,S2)和句长相似度lenSim(S1,S2)进行加权,获得句子S1和句子S2的语法相似度syntaxSim(S1,S2),语法相似度为:
syntaxSim(S1,S2)=α×wordSim(S1,S2)+β×orderSim(S1,S2)+γ×lenSim(S1,S2),其中,α、β、γ为常数,α>>β,α>>γ,且满足α+β+γ=1,使得syntaxSim(S1,S2)∈[0,1];
实验证明,α=0.8,β=0.1,γ=0.1是比较好的常数选择;
句子S1包含的词表示为w11,w12,…,w1n,句子S2包含的词表示为w21,w22,…,w2m,则词w1i(1≤i≤n)和w2j(1≤j≤m)之间的相似度表示为sim(wi,w2j),句子S1和句子S2之间的语义相似度为:
根据语法相似度和语义相似度计算句子S1和句子S2之间的相似度结果为:
sim(S1,S2)=φ×syntaxSim(S1,S2)+ψ×semanticSim(S1,S2);
其中,φ和ψ为常数,φ>ψ,且满足φ+ψ=1;
实验证明,φ=0.65,ψ=0.35是比较好的常数选择;
步骤7-6-3、若发现有两个句子大于阈值δ,则随机除去一个,实验表明,δ=0.85是一个较好的设置;最终将来自多源异构数据的答案合并为一个答案。
本发明将记录用户历史问句和对应的答案,并保存到历史问句数据库中,然后,根据用户的问句,通过句子相似度的计算,从系统历史问答对中查找与当前用户问句相似的问句,进行相似问句的推荐。
本发明提供一个用户反馈入口,让用户可以反馈答案的质量。根据用户的反馈可以判定历史问答对的质量,挑选质量高的融入训练Seq2Seq模型的问答对中,对Seq2Seq进行增量训练,从而优化系统。图2展示了本发明的处理流程。
系统提供用户界面,供用户选择数据来源、输入查询问句、查看答案、查看推荐问句以及反馈答案质量等。
Claims (6)
1.一种面向医疗领域的基于多源异构数据问答系统,其特征在于,该问答系统包括客户端和服务器,客户端向服务器发起获取答案的请求,服务器从结构化数据库、医疗健康问答对数据和开放知识图谱中获取答案,并将答案进行处理和合成后返回至客户端。
2.基于权利要求1所述一种面向医疗领域的基于多源异构数据问答系统的实现方法,其特征在于,该问答系统的实现方法的具体过程为:
步骤1、收集中文语料库;
收集医疗健康问答对数据;
收集具有结构化特征的医疗健康文本数据,并将医疗健康文本数据转化成结构化数据库;
步骤2、将步骤1收集的中文语料库中的语料数据进行词向量训练,并保存模型,作为深度学习模型的预训练词向量;
步骤3、利用步骤2的预训练词向量对步骤1收集的医疗健康问答对数据进行带注意力机制的序列到序列网络的训练,训练生成的模型用于获得医疗健康问答对中的答案;
步骤4、利用步骤1生成的结构化数据库获取结构化数据库中对应的答案:
获取结构化数据库中对应答案的具体过程为:
步骤4-1、通过步骤1生成的结构化数据库构建病名词典、症状词典和用户意图特征词典;
步骤4-2、基于病名词典、症状词典和用户意图特征词典对用户问句进行槽填充,槽填充后的用户问句为已标记的词典用户问句;
步骤4-3、将已标记的词典用户问句转换生成SQL查询语句;
步骤4-4、使用生成的SQL查询语句从结构化数据库中查询答案;从结构化数据库中获取的答案如果过长,对答案进行自动摘要;
步骤5、收集步骤4中的已标记用户问句作为训练数据;基于带条件随机场算法解码的双向长短期记忆单元网络模型,对已标记的用户问句进行训练;使用训练好的带条件随机场算法解码的双向长短期记忆单元网络模型,对用户问句再次进行槽填充,获得已标记的双向长短期记忆单元网络模型用户问句;
将已标记的双向长短期记忆单元网络模型用户问句转换成开放知识图谱查询API;
发起API请求获取相应开放知识图谱答案;
将从开放知识图谱中获取的答案根据已标记的双向长短期记忆单元网络模型用户问句和相应模版转换成自然语言形式的答案;
步骤6、对步骤3中获取的医疗健康问答对中的答案、步骤4中获取的结构化数据库中的答案和步骤5中获取的开放知识图谱中的答案进行合并;
对所有的答案进行合并的具体过程为:将所有的答案按照句子级别划分,从语法和语义两个层面计算句子之间的相似度,当有相似的句子时,随机除去一个,最后将所有的答案合并为一个答案;
步骤7、根据用户问句,采用步骤6的计算句子之间相似度的方法,从历史问答对中查找与当前用户问句相似的问句,进行相似问句的推荐。
3.根据权利要求2所述的一种面向医疗领域的基于多源异构数据问答系统的实现方法,其特征在于,步骤3所述对数据进行带注意力机制的序列到序列网络的训练的具体过程为:
步骤3-1、采用步骤2的预训练词向量对医疗健康问答对数据中的所有词进行初始化;
步骤3-2、采用记忆网络模型对用户问句进行编码,获得编码后的输出值和隐状态;
步骤3-3、采用记忆网络模型,结合注意力机制,对编码后的输出值、隐状态和用户问句的输入值进行解码,获得预测后的答案;
步骤3-4、根据解码后的答案和真实答案计算损失函数;
步骤3-5、判断损失参数是否收敛,如果否,则执行步骤3-6,如果是,则执行步骤3-7;
步骤3-6、根据损失函数进行反向传播,更新参数,然后返回执行步骤3-2;
步骤3-7、带注意力机制的序列到序列网络的训练完成。
4.根据权利要求2所述的一种面向医疗领域的基于多源异构数据问答系统的实现方法,其特征在于,步骤4-4所述对从结构化数据库中获取的答案进行自动摘要的具体过程为:
步骤4-4-1、将过长答案的每个段落作为一篇文档,采用词频-逆文档频率方法计算每篇文档中每个词的权重,当一个词出现在用户问句中时,该词的权重为词频-逆文档频率方法计算获得的权重加一;
步骤4-4-2、根据步骤4-4-1获得的每个词的权重,计算每个段落的平均权重,将段落的平均权重作为该段落的重要度;
步骤4-4-3、将所有段落按照步骤4-4-2获得的段落重要度降序排列,当段落重要度相同时,将靠前的段落排在前面,最终选取前三个排名的段落;
步骤4-4-4、将前三个排名的段落按照句子级别进行划分,根据步骤4-4-1获得的每个词的权重,计算划分后每个句子的词的平均权重,将词的平均权重作为句子的重要度;
步骤4-4-5、将步骤4-4-4划分的所有句子按照句子重要度降序排列,当句子重要度相同时,将靠前的句子排在前面,最终选取前五个排名的句子作为摘要出的答案。
5.根据权利要求2所述的一种面向医疗领域的基于多源异构数据问答系统的实现方法,其特征在于,步骤5所述基于带条件随机场算法解码的双向长短期记忆单元网络模型,对已标记的用户问句进行训练的具体过程为:
步骤5-1、采用步骤2的预训练词向量对已标记的用户问句中的所有词进行初始化;
步骤5-2、从输入层向输出层正向传播,从左向右计算长短期记忆单元网络的状态值;
步骤5-3、从输入层向输出层正向传播,从右向左计算长短期记忆单元网络的状态值;
步骤5-4、将步骤5-2的正向长短期记忆单元网络的状态值和步骤5-3的反向长短期记忆单元网络的状态值输入条件随机场层进行解码;
步骤5-5、根据条件随机场解码后的命名实体识别答案和已标记答案计算损失函数;
步骤5-6、判断损失函数是否收敛,如果否,则执行步骤5-7,如果是,则执行步骤5-8;
步骤5-7、根据损失函数对双向长短期记忆单元网络进行反向传播,更新参数,然后返回执行步骤5-2;
步骤5-8、基于带条件随机场算法解码的双向长短期记忆单元网络模型训练完成。
6.根据权利要求2所述的一种面向医疗领域的基于多源异构数据问答系统的实现方法,其特征在于,步骤6所述从语法和语义两个层面计算句子之间的相似度的具体过程为:
步骤6-1、两个句子分别表示为S1和S2,wordSim(S1,S2)表示句子S1和句子S2的词形相似度,则词形相似度为:
<mrow>
<mi>w</mi>
<mi>o</mi>
<mi>r</mi>
<mi>d</mi>
<mi>S</mi>
<mi>i</mi>
<mi>m</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>S</mi>
<mn>1</mn>
</msub>
<mo>,</mo>
<msub>
<mi>S</mi>
<mn>2</mn>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mn>2</mn>
<mo>&times;</mo>
<mfrac>
<mrow>
<mi>s</mi>
<mi>a</mi>
<mi>m</mi>
<mi>e</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>S</mi>
<mn>1</mn>
</msub>
<mo>,</mo>
<msub>
<mi>S</mi>
<mn>2</mn>
</msub>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mi>l</mi>
<mi>e</mi>
<mi>n</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>S</mi>
<mn>1</mn>
</msub>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mi>l</mi>
<mi>e</mi>
<mi>n</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>S</mi>
<mn>2</mn>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>,</mo>
</mrow>
其中,same(S1,S2)表示句子S1和句子S2中共同词的个数,当一个词在句子S1和句子S2中出现的次数不同时,按照出现次数少的计数,len(S1)表示句子S1中词的个数,len(S2)表示句子S2中词的个数;
步骤6-2、orderSim(S1,S2)表示句子S1和句子S2的词序相似度,则词序相似度为:
<mrow>
<mi>o</mi>
<mi>r</mi>
<mi>d</mi>
<mi>e</mi>
<mi>r</mi>
<mi>S</mi>
<mi>i</mi>
<mi>m</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>S</mi>
<mn>1</mn>
</msub>
<mo>,</mo>
<msub>
<mi>S</mi>
<mn>2</mn>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfenced open = "{" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<mn>1</mn>
<mo>-</mo>
<mfrac>
<mrow>
<mi>r</mi>
<mi>e</mi>
<mi>W</mi>
<mi>o</mi>
<mi>r</mi>
<mi>d</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>S</mi>
<mn>1</mn>
</msub>
<mo>,</mo>
<msub>
<mi>S</mi>
<mn>2</mn>
</msub>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mo>|</mo>
<mi>o</mi>
<mi>r</mi>
<mi>d</mi>
<mi>e</mi>
<mi>r</mi>
<mi>O</mi>
<mi>c</mi>
<mi>c</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>S</mi>
<mn>1</mn>
</msub>
<mo>,</mo>
<msub>
<mi>S</mi>
<mn>2</mn>
</msub>
<mo>)</mo>
</mrow>
<mo>|</mo>
<mo>-</mo>
<mn>1</mn>
</mrow>
</mfrac>
</mrow>
</mtd>
<mtd>
<mrow>
<mo>|</mo>
<mi>o</mi>
<mi>r</mi>
<mi>d</mi>
<mi>e</mi>
<mi>r</mi>
<mi>O</mi>
<mi>c</mi>
<mi>c</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>S</mi>
<mn>1</mn>
</msub>
<mo>,</mo>
<msub>
<mi>S</mi>
<mn>2</mn>
</msub>
<mo>)</mo>
</mrow>
<mo>|</mo>
<mo>></mo>
<mn>1</mn>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mn>1</mn>
</mtd>
<mtd>
<mrow>
<mo>|</mo>
<mi>o</mi>
<mi>r</mi>
<mi>d</mi>
<mi>e</mi>
<mi>r</mi>
<mi>O</mi>
<mi>c</mi>
<mi>c</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>S</mi>
<mn>1</mn>
</msub>
<mo>,</mo>
<msub>
<mi>S</mi>
<mn>2</mn>
</msub>
<mo>)</mo>
</mrow>
<mo>|</mo>
<mo>=</mo>
<mn>1</mn>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mn>0</mn>
</mtd>
<mtd>
<mrow>
<mo>|</mo>
<mi>o</mi>
<mi>r</mi>
<mi>d</mi>
<mi>e</mi>
<mi>r</mi>
<mi>O</mi>
<mi>c</mi>
<mi>c</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>S</mi>
<mn>1</mn>
</msub>
<mo>,</mo>
<msub>
<mi>S</mi>
<mn>2</mn>
</msub>
<mo>)</mo>
</mrow>
<mo>|</mo>
<mo><</mo>
<mn>1</mn>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
<mo>,</mo>
</mrow>
其中,orderOcc(S1,S2)表示在句子S1和句子S2中都出现且只出现一次的词,orderOcc(S1,S2)中的词在句子S1中位置序号构成的向量表示为PFirst(S1,S2),PFirst(S1,S2)中的分量按对应词在句子S2中的词序排序生成的向量表示为PSecond(S1,S2),PSecond(S1,S2)各相邻分量的逆序数表示为reWord(S1,S2);
步骤6-3、lenSim(S1,S2)表示句子S1和句子S2的句长相似度,则句长相似度为:
<mrow>
<mi>l</mi>
<mi>e</mi>
<mi>n</mi>
<mi>S</mi>
<mi>i</mi>
<mi>m</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>S</mi>
<mn>1</mn>
</msub>
<mo>,</mo>
<msub>
<mi>S</mi>
<mn>2</mn>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mn>1</mn>
<mo>-</mo>
<mi>a</mi>
<mi>b</mi>
<mi>s</mi>
<mo>|</mo>
<mfrac>
<mrow>
<mi>l</mi>
<mi>e</mi>
<mi>n</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>S</mi>
<mn>1</mn>
</msub>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mi>l</mi>
<mi>e</mi>
<mi>n</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>S</mi>
<mn>2</mn>
</msub>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mi>l</mi>
<mi>e</mi>
<mi>n</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>S</mi>
<mn>1</mn>
</msub>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mi>l</mi>
<mi>e</mi>
<mi>n</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>S</mi>
<mn>2</mn>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>|</mo>
<mo>,</mo>
</mrow>
其中,abs表示绝对值;
步骤6-4、根据步骤6-1获得的词形相似度wordSim(S1,S2)、步骤6-2获得的词序相似度reWord(S1,S2)和步骤6-3获得的句长相似度lenSim(S1,S2)进行加权,获得句子S1和句子S2的语法相似度syntaxSim(S1,S2),语法相似度为:
syntaxSim(S1,S2)=α×wordSim(S1,S2)+β×orderSim(S1,S2)+γ×lenSim(S1,S2),其中,α、β、γ为常数,α>>β,α>>γ,且满足α+β+γ=1,使得syntaxSim(S1,S2)∈[0,1],
步骤6-5、句子S1包含的词表示为w11,w12,…,w1n,句子S2包含的词表示为w21,w22,…,w2m,则词w1i(1≤i≤n)和w2j(1≤j≤m)之间的相似度表示为sim(w1i,w2j),句子S1和句子S2之间的语义相似度为:
<mrow>
<mtable>
<mtr>
<mtd>
<mrow>
<mi>s</mi>
<mi>e</mi>
<mi>m</mi>
<mi>a</mi>
<mi>n</mi>
<mi>t</mi>
<mi>i</mi>
<mi>c</mi>
<mi>S</mi>
<mi>i</mi>
<mi>m</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>S</mi>
<mn>1</mn>
</msub>
<mo>,</mo>
<msub>
<mi>S</mi>
<mn>2</mn>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mn>1</mn>
<mn>2</mn>
</mfrac>
<mrow>
<mo>(</mo>
<mfrac>
<mn>1</mn>
<mi>n</mi>
</mfrac>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</munderover>
<mi>max</mi>
<mo>{</mo>
<mi>s</mi>
<mi>i</mi>
<mi>m</mi>
<mo>(</mo>
<msub>
<mi>w</mi>
<mrow>
<mn>1</mn>
<mi>i</mi>
</mrow>
</msub>
<mo>,</mo>
<msub>
<mi>w</mi>
<mrow>
<mn>2</mn>
<mi>j</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mo>|</mo>
<mn>1</mn>
<mo>&le;</mo>
<mi>j</mi>
<mo>&le;</mo>
<mi>m</mi>
<mo>}</mo>
<mo>+</mo>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mfrac>
<mn>1</mn>
<mi>m</mi>
</mfrac>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>m</mi>
</munderover>
<mi>max</mi>
<mo>{</mo>
<mi>s</mi>
<mi>i</mi>
<mi>m</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>w</mi>
<mrow>
<mn>1</mn>
<mi>i</mi>
</mrow>
</msub>
<mo>,</mo>
<msub>
<mi>w</mi>
<mrow>
<mn>2</mn>
<mi>j</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mo>|</mo>
<mn>1</mn>
<mo>&le;</mo>
<mi>i</mi>
<mo>&le;</mo>
<mi>n</mi>
<mo>}</mo>
<mo>)</mo>
</mrow>
</mtd>
</mtr>
</mtable>
<mo>;</mo>
</mrow>
步骤6-6、根据语法相似度和语义相似度计算句子S1和句子S2之间的相似度结果为:
sim(S1,S2)=φ×syntaxSim(S1,S2)+ψ×semanticSim(S1,S2);
其中,φ和ψ为常数,φ>ψ,且满足φ+ψ=1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711448417.4A CN108108449A (zh) | 2017-12-27 | 2017-12-27 | 一种面向医疗领域的基于多源异构数据问答系统及该系统的实现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711448417.4A CN108108449A (zh) | 2017-12-27 | 2017-12-27 | 一种面向医疗领域的基于多源异构数据问答系统及该系统的实现方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108108449A true CN108108449A (zh) | 2018-06-01 |
Family
ID=62213982
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711448417.4A Pending CN108108449A (zh) | 2017-12-27 | 2017-12-27 | 一种面向医疗领域的基于多源异构数据问答系统及该系统的实现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108108449A (zh) |
Cited By (39)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108629144A (zh) * | 2018-06-11 | 2018-10-09 | 湖北交投智能检测股份有限公司 | 一种桥梁健康评估方法 |
CN108804718A (zh) * | 2018-06-11 | 2018-11-13 | 线粒体(北京)科技有限公司 | 数据推送方法、装置、电子设备及计算机可读存储介质 |
CN108804654A (zh) * | 2018-06-07 | 2018-11-13 | 重庆邮电大学 | 一种基于智能问答的虚拟学习环境构建方法 |
CN108920599A (zh) * | 2018-06-27 | 2018-11-30 | 北京计算机技术及应用研究所 | 一种基于知识本体库的问答系统答案精准定位和抽取方法 |
CN108932350A (zh) * | 2018-08-17 | 2018-12-04 | 沈阳农业大学 | 基于多策略的水稻病虫害智能问答方法 |
CN109033344A (zh) * | 2018-07-24 | 2018-12-18 | 上海常仁信息科技有限公司 | 一种远程交互机器人系统 |
CN109033428A (zh) * | 2018-08-10 | 2018-12-18 | 深圳市磐创网络科技有限公司 | 一种智能客服方法及系统 |
CN109062990A (zh) * | 2018-07-03 | 2018-12-21 | 上海常仁信息科技有限公司 | 一种基于机器人的健康知识问答系统 |
CN109147934A (zh) * | 2018-07-04 | 2019-01-04 | 平安科技(深圳)有限公司 | 问诊数据推荐方法、装置、计算机设备和存储介质 |
CN109241519A (zh) * | 2018-06-28 | 2019-01-18 | 平安科技(深圳)有限公司 | 质量评价模型获取方法及装置、计算机设备与存储介质 |
CN109658271A (zh) * | 2018-12-19 | 2019-04-19 | 前海企保科技(深圳)有限公司 | 一种基于保险专业场景的智能客服系统及方法 |
CN109684445A (zh) * | 2018-11-13 | 2019-04-26 | 中国科学院自动化研究所 | 口语化医疗问答方法及系统 |
CN109726279A (zh) * | 2018-12-30 | 2019-05-07 | 联想(北京)有限公司 | 一种数据处理方法及装置 |
CN109740168A (zh) * | 2019-01-09 | 2019-05-10 | 北京邮电大学 | 一种基于中医药知识图谱和注意力机制的中医典籍古文翻译方法 |
CN109918489A (zh) * | 2019-02-28 | 2019-06-21 | 上海乐言信息科技有限公司 | 一种多策略融合的知识问答方法和系统 |
CN109933602A (zh) * | 2019-02-28 | 2019-06-25 | 武汉大学 | 一种自然语言与结构化查询语言的转换方法及装置 |
CN110110059A (zh) * | 2019-05-20 | 2019-08-09 | 挂号网(杭州)科技有限公司 | 一种基于深度学习的医疗对话系统意图识别分类方法 |
CN110377719A (zh) * | 2019-07-25 | 2019-10-25 | 广东工业大学 | 医疗问答方法及装置 |
CN110390023A (zh) * | 2019-07-02 | 2019-10-29 | 安徽继远软件有限公司 | 一种基于改进bert模型的知识图谱构建方法 |
CN110413756A (zh) * | 2019-07-29 | 2019-11-05 | 北京小米智能科技有限公司 | 自然语言处理的方法、装置及设备 |
CN110543557A (zh) * | 2019-09-06 | 2019-12-06 | 北京工业大学 | 一种基于注意力机制的医疗智能问答系统的构建方法 |
CN110569343A (zh) * | 2019-08-16 | 2019-12-13 | 华东理工大学 | 一种基于问答的临床文本结构化的方法 |
CN110826341A (zh) * | 2019-11-26 | 2020-02-21 | 杭州微洱网络科技有限公司 | 一种基于seq2seq模型的语义相似度计算方法 |
CN111090736A (zh) * | 2018-10-24 | 2020-05-01 | 马上消费金融股份有限公司 | 问答模型的训练方法、问答方法、装置及计算机存储介质 |
CN111091884A (zh) * | 2019-12-24 | 2020-05-01 | 无锡识凌科技有限公司 | 一种医院信息集成平台的患者主索引匹配系统及方法 |
CN111159467A (zh) * | 2019-12-31 | 2020-05-15 | 青岛海信智慧家居系统股份有限公司 | 一种处理信息交互的方法及设备 |
CN111209725A (zh) * | 2018-11-19 | 2020-05-29 | 阿里巴巴集团控股有限公司 | 一种文本信息生成方法、装置以及计算设备 |
CN111324712A (zh) * | 2020-02-18 | 2020-06-23 | 山东汇贸电子口岸有限公司 | 对话回复方法及服务端 |
CN111428104A (zh) * | 2020-01-21 | 2020-07-17 | 广东工业大学 | 基于观点型阅读理解的癫痫病辅助医疗智能问答方法 |
CN111737426A (zh) * | 2020-05-09 | 2020-10-02 | 中国科学院深圳先进技术研究院 | 问答模型的训练方法、计算机设备以及可读存储介质 |
CN111949758A (zh) * | 2019-05-16 | 2020-11-17 | 北大医疗信息技术有限公司 | 医疗问答推荐方法、推荐系统和计算机可读存储介质 |
CN112259260A (zh) * | 2020-11-18 | 2021-01-22 | 中国科学院自动化研究所 | 基于智能穿戴设备的智能医疗问答方法、系统及装置 |
CN112257409A (zh) * | 2020-09-30 | 2021-01-22 | 华泰证券股份有限公司 | 一种相似句子对判断方法、系统及存储介质 |
CN112463944A (zh) * | 2020-12-22 | 2021-03-09 | 安徽商信政通信息技术股份有限公司 | 一种基于多模型融合的检索式智能问答方法及装置 |
CN112667799A (zh) * | 2021-03-15 | 2021-04-16 | 四川大学 | 一种基于语言模型和实体匹配的医疗问答系统构建方法 |
CN112749265A (zh) * | 2021-01-08 | 2021-05-04 | 哈尔滨工业大学 | 一种基于多信息源的智能问答系统 |
WO2021169640A1 (zh) * | 2020-02-25 | 2021-09-02 | 京东方科技集团股份有限公司 | 一种问题查询装置、方法、设备及存储介质 |
CN113449117A (zh) * | 2021-06-24 | 2021-09-28 | 武汉工程大学 | 一种基于Bi-LSTM和中文知识图谱的复合问答方法 |
CN113821616A (zh) * | 2021-08-09 | 2021-12-21 | 北京交通大学 | 领域自适应的槽位填充方法、装置、设备及存储介质 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101178718A (zh) * | 2007-05-17 | 2008-05-14 | 腾讯科技(深圳)有限公司 | 一种知识共享系统及问题搜索方法、问题发布方法 |
CN101286161A (zh) * | 2008-05-28 | 2008-10-15 | 华中科技大学 | 一种基于概念的智能中文问答系统 |
CN101499078A (zh) * | 2008-02-03 | 2009-08-05 | 黄林 | 用于查询个性化医药保健信息的人机对话系统及方案 |
CN102663129A (zh) * | 2012-04-25 | 2012-09-12 | 中国科学院计算技术研究所 | 医疗领域深度问答方法及医学检索系统 |
US20130339879A1 (en) * | 2010-12-31 | 2013-12-19 | Quora, Inc. | Methods and systems for soliciting an answer to a question |
CN106570181A (zh) * | 2016-11-09 | 2017-04-19 | 武汉泰迪智慧科技有限公司 | 基于上下文管理的智能交互方法及系统 |
US20170109355A1 (en) * | 2015-10-16 | 2017-04-20 | Baidu Usa Llc | Systems and methods for human inspired simple question answering (hisqa) |
CN106649258A (zh) * | 2016-09-22 | 2017-05-10 | 北京联合大学 | 一种智能的问答系统 |
CN106844506A (zh) * | 2016-12-27 | 2017-06-13 | 竹间智能科技(上海)有限公司 | 一种人工智能对话的知识检索方法及知识库自动完善方法 |
CN106875940A (zh) * | 2017-03-06 | 2017-06-20 | 吉林省盛创科技有限公司 | 一种基于神经网络的机器自学习构建知识图谱训练方法 |
CN106919674A (zh) * | 2017-02-20 | 2017-07-04 | 广东省中医院 | 一种基于Wiki语义网络构建的知识问答系统及智能检索方法 |
CN107451276A (zh) * | 2017-08-05 | 2017-12-08 | 龙飞 | 一种基于深度学习的智能自助导游系统及其方法 |
-
2017
- 2017-12-27 CN CN201711448417.4A patent/CN108108449A/zh active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101178718A (zh) * | 2007-05-17 | 2008-05-14 | 腾讯科技(深圳)有限公司 | 一种知识共享系统及问题搜索方法、问题发布方法 |
CN101499078A (zh) * | 2008-02-03 | 2009-08-05 | 黄林 | 用于查询个性化医药保健信息的人机对话系统及方案 |
CN101286161A (zh) * | 2008-05-28 | 2008-10-15 | 华中科技大学 | 一种基于概念的智能中文问答系统 |
US20130339879A1 (en) * | 2010-12-31 | 2013-12-19 | Quora, Inc. | Methods and systems for soliciting an answer to a question |
CN102663129A (zh) * | 2012-04-25 | 2012-09-12 | 中国科学院计算技术研究所 | 医疗领域深度问答方法及医学检索系统 |
US20170109355A1 (en) * | 2015-10-16 | 2017-04-20 | Baidu Usa Llc | Systems and methods for human inspired simple question answering (hisqa) |
CN106649258A (zh) * | 2016-09-22 | 2017-05-10 | 北京联合大学 | 一种智能的问答系统 |
CN106570181A (zh) * | 2016-11-09 | 2017-04-19 | 武汉泰迪智慧科技有限公司 | 基于上下文管理的智能交互方法及系统 |
CN106844506A (zh) * | 2016-12-27 | 2017-06-13 | 竹间智能科技(上海)有限公司 | 一种人工智能对话的知识检索方法及知识库自动完善方法 |
CN106919674A (zh) * | 2017-02-20 | 2017-07-04 | 广东省中医院 | 一种基于Wiki语义网络构建的知识问答系统及智能检索方法 |
CN106875940A (zh) * | 2017-03-06 | 2017-06-20 | 吉林省盛创科技有限公司 | 一种基于神经网络的机器自学习构建知识图谱训练方法 |
CN107451276A (zh) * | 2017-08-05 | 2017-12-08 | 龙飞 | 一种基于深度学习的智能自助导游系统及其方法 |
Non-Patent Citations (1)
Title |
---|
杜刚 等: "句子相似度计算模型的改进", 《电脑知识与技术》 * |
Cited By (62)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108804654A (zh) * | 2018-06-07 | 2018-11-13 | 重庆邮电大学 | 一种基于智能问答的虚拟学习环境构建方法 |
CN108629144A (zh) * | 2018-06-11 | 2018-10-09 | 湖北交投智能检测股份有限公司 | 一种桥梁健康评估方法 |
CN108804718A (zh) * | 2018-06-11 | 2018-11-13 | 线粒体(北京)科技有限公司 | 数据推送方法、装置、电子设备及计算机可读存储介质 |
CN108920599A (zh) * | 2018-06-27 | 2018-11-30 | 北京计算机技术及应用研究所 | 一种基于知识本体库的问答系统答案精准定位和抽取方法 |
CN108920599B (zh) * | 2018-06-27 | 2021-08-27 | 北京计算机技术及应用研究所 | 一种基于知识本体库的问答系统答案精准定位和抽取方法 |
CN109241519A (zh) * | 2018-06-28 | 2019-01-18 | 平安科技(深圳)有限公司 | 质量评价模型获取方法及装置、计算机设备与存储介质 |
CN109062990A (zh) * | 2018-07-03 | 2018-12-21 | 上海常仁信息科技有限公司 | 一种基于机器人的健康知识问答系统 |
WO2020007028A1 (zh) * | 2018-07-04 | 2020-01-09 | 平安科技(深圳)有限公司 | 问诊数据推荐方法、装置、计算机设备和存储介质 |
CN109147934B (zh) * | 2018-07-04 | 2023-04-11 | 平安科技(深圳)有限公司 | 问诊数据推荐方法、装置、计算机设备和存储介质 |
CN109147934A (zh) * | 2018-07-04 | 2019-01-04 | 平安科技(深圳)有限公司 | 问诊数据推荐方法、装置、计算机设备和存储介质 |
CN109033344A (zh) * | 2018-07-24 | 2018-12-18 | 上海常仁信息科技有限公司 | 一种远程交互机器人系统 |
CN109033428A (zh) * | 2018-08-10 | 2018-12-18 | 深圳市磐创网络科技有限公司 | 一种智能客服方法及系统 |
CN109033428B (zh) * | 2018-08-10 | 2021-09-10 | 深圳市磐创网络科技有限公司 | 一种智能客服方法及系统 |
CN108932350A (zh) * | 2018-08-17 | 2018-12-04 | 沈阳农业大学 | 基于多策略的水稻病虫害智能问答方法 |
CN111090736A (zh) * | 2018-10-24 | 2020-05-01 | 马上消费金融股份有限公司 | 问答模型的训练方法、问答方法、装置及计算机存储介质 |
CN109684445A (zh) * | 2018-11-13 | 2019-04-26 | 中国科学院自动化研究所 | 口语化医疗问答方法及系统 |
CN109684445B (zh) * | 2018-11-13 | 2021-05-28 | 中国科学院自动化研究所 | 口语化医疗问答方法及系统 |
CN111209725B (zh) * | 2018-11-19 | 2023-04-25 | 阿里巴巴集团控股有限公司 | 一种文本信息生成方法、装置以及计算设备 |
CN111209725A (zh) * | 2018-11-19 | 2020-05-29 | 阿里巴巴集团控股有限公司 | 一种文本信息生成方法、装置以及计算设备 |
CN109658271A (zh) * | 2018-12-19 | 2019-04-19 | 前海企保科技(深圳)有限公司 | 一种基于保险专业场景的智能客服系统及方法 |
CN109726279A (zh) * | 2018-12-30 | 2019-05-07 | 联想(北京)有限公司 | 一种数据处理方法及装置 |
CN109740168A (zh) * | 2019-01-09 | 2019-05-10 | 北京邮电大学 | 一种基于中医药知识图谱和注意力机制的中医典籍古文翻译方法 |
CN109740168B (zh) * | 2019-01-09 | 2020-10-13 | 北京邮电大学 | 一种基于中医药知识图谱和注意力机制的中医典籍古文翻译方法 |
CN109933602A (zh) * | 2019-02-28 | 2019-06-25 | 武汉大学 | 一种自然语言与结构化查询语言的转换方法及装置 |
CN109933602B (zh) * | 2019-02-28 | 2021-05-04 | 武汉大学 | 一种自然语言与结构化查询语言的转换方法及装置 |
CN109918489A (zh) * | 2019-02-28 | 2019-06-21 | 上海乐言信息科技有限公司 | 一种多策略融合的知识问答方法和系统 |
CN111949758A (zh) * | 2019-05-16 | 2020-11-17 | 北大医疗信息技术有限公司 | 医疗问答推荐方法、推荐系统和计算机可读存储介质 |
CN110110059B (zh) * | 2019-05-20 | 2021-06-29 | 挂号网(杭州)科技有限公司 | 一种基于深度学习的医疗对话系统意图识别分类方法 |
CN110110059A (zh) * | 2019-05-20 | 2019-08-09 | 挂号网(杭州)科技有限公司 | 一种基于深度学习的医疗对话系统意图识别分类方法 |
CN110390023A (zh) * | 2019-07-02 | 2019-10-29 | 安徽继远软件有限公司 | 一种基于改进bert模型的知识图谱构建方法 |
CN110377719A (zh) * | 2019-07-25 | 2019-10-25 | 广东工业大学 | 医疗问答方法及装置 |
CN110377719B (zh) * | 2019-07-25 | 2022-02-15 | 广东工业大学 | 医疗问答方法及装置 |
CN110413756A (zh) * | 2019-07-29 | 2019-11-05 | 北京小米智能科技有限公司 | 自然语言处理的方法、装置及设备 |
WO2021017173A1 (zh) * | 2019-07-29 | 2021-02-04 | 北京小米智能科技有限公司 | 自然语言处理的方法、装置及设备 |
KR20210016262A (ko) * | 2019-07-29 | 2021-02-15 | 베이징 시아오미 인텔리전트 테크놀로지 컴퍼니 리미티드 | 자연 언어 처리 방법, 장치 및 기기 |
CN110413756B (zh) * | 2019-07-29 | 2022-02-15 | 北京小米智能科技有限公司 | 自然语言处理的方法、装置及设备 |
US11501078B2 (en) | 2019-07-29 | 2022-11-15 | Beijing Xiaomi Intelligent Technology Co., Ltd. | Method and device for performing reinforcement learning on natural language processing model and storage medium |
KR102330061B1 (ko) * | 2019-07-29 | 2021-11-26 | 베이징 시아오미 인텔리전트 테크놀로지 컴퍼니 리미티드 | 자연 언어 처리 방법, 장치, 기기 및 컴퓨터 판독 가능 저장매체 |
CN110569343A (zh) * | 2019-08-16 | 2019-12-13 | 华东理工大学 | 一种基于问答的临床文本结构化的方法 |
CN110543557A (zh) * | 2019-09-06 | 2019-12-06 | 北京工业大学 | 一种基于注意力机制的医疗智能问答系统的构建方法 |
CN110826341A (zh) * | 2019-11-26 | 2020-02-21 | 杭州微洱网络科技有限公司 | 一种基于seq2seq模型的语义相似度计算方法 |
CN111091884B (zh) * | 2019-12-24 | 2024-04-05 | 无锡识凌科技有限公司 | 一种医院信息集成平台的患者主索引匹配系统及方法 |
CN111091884A (zh) * | 2019-12-24 | 2020-05-01 | 无锡识凌科技有限公司 | 一种医院信息集成平台的患者主索引匹配系统及方法 |
CN111159467B (zh) * | 2019-12-31 | 2022-05-10 | 青岛海信智慧家居系统股份有限公司 | 一种处理信息交互的方法及设备 |
CN111159467A (zh) * | 2019-12-31 | 2020-05-15 | 青岛海信智慧家居系统股份有限公司 | 一种处理信息交互的方法及设备 |
CN111428104B (zh) * | 2020-01-21 | 2023-10-10 | 广东工业大学 | 基于观点型阅读理解的癫痫病辅助医疗智能问答方法 |
CN111428104A (zh) * | 2020-01-21 | 2020-07-17 | 广东工业大学 | 基于观点型阅读理解的癫痫病辅助医疗智能问答方法 |
CN111324712A (zh) * | 2020-02-18 | 2020-06-23 | 山东汇贸电子口岸有限公司 | 对话回复方法及服务端 |
WO2021169640A1 (zh) * | 2020-02-25 | 2021-09-02 | 京东方科技集团股份有限公司 | 一种问题查询装置、方法、设备及存储介质 |
CN111737426B (zh) * | 2020-05-09 | 2021-06-01 | 中国科学院深圳先进技术研究院 | 问答模型的训练方法、计算机设备以及可读存储介质 |
CN111737426A (zh) * | 2020-05-09 | 2020-10-02 | 中国科学院深圳先进技术研究院 | 问答模型的训练方法、计算机设备以及可读存储介质 |
CN112257409A (zh) * | 2020-09-30 | 2021-01-22 | 华泰证券股份有限公司 | 一种相似句子对判断方法、系统及存储介质 |
CN112259260A (zh) * | 2020-11-18 | 2021-01-22 | 中国科学院自动化研究所 | 基于智能穿戴设备的智能医疗问答方法、系统及装置 |
CN112259260B (zh) * | 2020-11-18 | 2023-11-17 | 中国科学院自动化研究所 | 基于智能穿戴设备的智能医疗问答方法、系统及装置 |
CN112463944A (zh) * | 2020-12-22 | 2021-03-09 | 安徽商信政通信息技术股份有限公司 | 一种基于多模型融合的检索式智能问答方法及装置 |
CN112463944B (zh) * | 2020-12-22 | 2023-10-24 | 安徽商信政通信息技术股份有限公司 | 一种基于多模型融合的检索式智能问答方法及装置 |
CN112749265A (zh) * | 2021-01-08 | 2021-05-04 | 哈尔滨工业大学 | 一种基于多信息源的智能问答系统 |
CN112667799A (zh) * | 2021-03-15 | 2021-04-16 | 四川大学 | 一种基于语言模型和实体匹配的医疗问答系统构建方法 |
CN113449117A (zh) * | 2021-06-24 | 2021-09-28 | 武汉工程大学 | 一种基于Bi-LSTM和中文知识图谱的复合问答方法 |
CN113449117B (zh) * | 2021-06-24 | 2023-09-26 | 武汉工程大学 | 一种基于Bi-LSTM和中文知识图谱的复合问答方法 |
CN113821616A (zh) * | 2021-08-09 | 2021-12-21 | 北京交通大学 | 领域自适应的槽位填充方法、装置、设备及存储介质 |
CN113821616B (zh) * | 2021-08-09 | 2023-11-14 | 北京交通大学 | 领域自适应的槽位填充方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108108449A (zh) | 一种面向医疗领域的基于多源异构数据问答系统及该系统的实现方法 | |
CN107748757B (zh) | 一种基于知识图谱的问答方法 | |
CN111444726B (zh) | 基于双向格子结构的长短时记忆网络的中文语义信息提取方法和装置 | |
CN107133213B (zh) | 一种基于算法的文本摘要自动提取方法与系统 | |
CN109472024A (zh) | 一种基于双向循环注意力神经网络的文本分类方法 | |
CN108681574B (zh) | 一种基于文本摘要的非事实类问答答案选择方法及系统 | |
CN105938485A (zh) | 一种基于卷积循环混合模型的图像描述方法 | |
CN106980609A (zh) | 一种基于词向量表示的条件随机场的命名实体识别方法 | |
CN110298033A (zh) | 关键词语料标注训练提取工具 | |
CN110083710A (zh) | 一种基于循环神经网络与潜变量结构的词语定义生成方法 | |
CN106202010A (zh) | 基于深度神经网络构建法律文本语法树的方法和装置 | |
CN104765769A (zh) | 一种基于词矢量的短文本查询扩展及检索方法 | |
CN110750635B (zh) | 一种基于联合深度学习模型的法条推荐方法 | |
CN105653840A (zh) | 基于词句分布表示的相似病例推荐系统及相应的方法 | |
CN105528437A (zh) | 一种基于结构化文本知识提取的问答系统构建方法 | |
CN107798624A (zh) | 一种软件问答社区中的技术标签推荐方法 | |
CN113761890B (zh) | 一种基于bert上下文感知的多层级语义信息检索方法 | |
Zhang et al. | Effective subword segmentation for text comprehension | |
CN116127095A (zh) | 一种序列模型与知识图谱结合的问答方法 | |
CN113505209A (zh) | 一种面向汽车领域的智能问答系统 | |
CN110516145A (zh) | 一种基于句向量编码的信息搜索方法 | |
CN108491459B (zh) | 一种软件代码摘要自动生成模型的优化方法 | |
CN109918477A (zh) | 一种基于变分自编码器的分布式检索资源库选择方法 | |
CN112632250A (zh) | 一种多文档场景下问答方法及系统 | |
CN113157885A (zh) | 一种面向人工智能领域知识的高效智能问答系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
AD01 | Patent right deemed abandoned |
Effective date of abandoning: 20220401 |
|
AD01 | Patent right deemed abandoned |