CN113742454B - 基于人工智能的应答语料生成方法及相关设备 - Google Patents
基于人工智能的应答语料生成方法及相关设备 Download PDFInfo
- Publication number
- CN113742454B CN113742454B CN202111055021.XA CN202111055021A CN113742454B CN 113742454 B CN113742454 B CN 113742454B CN 202111055021 A CN202111055021 A CN 202111055021A CN 113742454 B CN113742454 B CN 113742454B
- Authority
- CN
- China
- Prior art keywords
- word
- corpus
- question
- professional
- answer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Human Computer Interaction (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及人工智能领域,公开了一种基于人工智能的应答语料生成方法及相关设备。该方法包括:获取问诊语料和待推送应答语料,并基于预置线性链条件随机场进行分词处理,对应得到问诊分词和应答分词;对问诊分词和应答分词进行专业词语义匹配,对应得到问诊专业分词和应答专业分词;对问诊专业分词和应答专业分词进行交叉问答匹配,并根据交叉问答匹配的结果,对问诊专业分词和应答专业分词进行组合,得到诊断语句;采用预置先验医疗知识库,匹配诊断语句对应的治疗产品信息,对治疗产品信息和待推送应答语料进行组合,得到新的待推送应答语料并推送。本发明实现了线上问诊过程中的治疗产品推荐,提升了线上问诊的智能化程度。
Description
技术领域
本发明涉及人工智能领域,尤其涉及一种基于人工智能的应答语料生成方法及相关设备。
背景技术
随着计算机技术的发展,现有产品推荐服务从最原始的广告位推广、竞价排名等,到目前的广告推荐算法,现阶段很多视频网站正在尝试的与视频要素绑定的产品推荐,也存在多种互联网店商AI推荐算法等。都在向着两个技术方向上进化,即技术上的精准推荐,以及形式上非暴力展示。以求获得更高的推荐转化率和更好的用户服务体验。
现有医疗平台的问诊环节中,均携带有产品推荐功能,一般依靠医生进行口头上的推荐,当患者确认有购买意向时,再进行产品或者服务的推送。这种依赖人力的推广方式虽然有更好的转化效果,但无法进行大规模推广,在大数据大力发展的时代,未充分地应用基于大数据分析的精准智能推荐。
发明内容
本发明的主要目的在于解决现有基于问诊环节的产品智能推荐精准度较低的技术问题。
本发明第一方面提供了一种基于人工智能的应答语料生成方法,包括:获取问诊语料和所述问诊语料对应的待推送应答语料,并基于预置线性链条件随机场,分别对所述问诊语料和所述待推送应答语料进行分词处理,对应得到多个问诊分词和多个应答分词;分别对所述问诊分词和所述应答分词进行专业词语义匹配,对应得到所述问诊分词对应的问诊专业分词和所述应答分词对应的应答专业分词;依次对各所述问诊专业分词和各所述应答专业分词进行交叉问答匹配,并根据交叉问答匹配的结果,对所述问诊专业分词和所述应答专业分词进行组合,得到诊断语句;采用预置先验医疗知识库,匹配诊断语句对应的治疗产品信息,对所述治疗产品信息和所述待推送应答语料进行组合,得到新的待推送应答语料并推送。
可选的,在本发明第一方面的第一种实现方式中,所述分别对所述问诊语料和所述待推送应答语料进行分词处理,对应得到多个问诊分词和多个应答分词包括:提取所述问答语料的字符特征向量以及对应的拼音特征向量,其中,问答语料包括问诊语料和待推送应答语料;对所述字符特征向量以及对应的拼音特征向量进行拼接,得到上下文信息向量,并对所述上下文信息向量进行语义分析,得到语义特征;采用预置线性链条件随机场对所述语义特征进行标注,得到分词标注序列,并对所述分词标注序列进行解码,得到多个问答分词,其中,所述问答分词包括问诊分词和应答分词。
可选的,在本发明第一方面的第二种实现方式中,所述分别对所述问诊分词和所述应答分词进行专业词语义匹配,对应得到所述问诊分词对应的问诊专业分词和所述应答分词对应的应答专业分词包括:构建所述问答分词在预置常用词词典中的第一音形码,以及构建预置专业词词典中各专业词的第二音形码,并计算第一音形码和第二音形码之间的编辑距离;对编辑距离小于预置编辑距离阈值的第一音形码对应的问答分词进行组合,得到问答分词组,以及选取编辑距离小于所述编辑距离阈值的第二音形码对应的专业词;依次采用选取的专业词替换所述问答分词组中对应的问答分词,得到问答分词组对应的多个专业词组;对所述问答分词组进行语义分析,得到第一语义分析结果,以及对各所述专业词组进行语义分析,得到多个第二语义分析结果;分别对所述第一语义分析结果与各所述第二语义分析结果进行对比,并根据对比的结果,从多个所述专业词组中选取所述问答分词组中各问答分词的近义词;将选取的近义词作为所述问答分词对应的问答专业分词,其中,所述问答专业分词包括问诊专业分词和应答专业分词。
可选的,在本发明第一方面的第三种实现方式中,所述根据对比的结果,从多个所述专业词组中选取所述问答分词组中各问答分词的近义词包括:根据对比的结果,分别计算所述第一语义分析结果与各所述第二语义分析结果之间的差异程度,并根据所述差异程度,确定所述问答分词组与各所述专业词组之间的相似度;将所述问答分词组中每个问答分词对应专业词所在的专业词组进行分类,得到多个问答分词类别的专业词组;分别从各个问答分词类别的专业词组中选取相似度最大的专业词组,并将选取的专业词组中对应问答分词类别的专业词作为所述问答分词的近义词。
可选的,在本发明第一方面的第四种实现方式中,所述采用预置先验医疗知识库,匹配诊断语句对应的治疗产品信息包括:采用所述诊断语句,在预置先验医疗知识库中进行层次遍历,并根据层次遍历的结果,确定所述诊断语句对应的诊断结果;从所述先验知识库中选取与所述诊断结果相匹配的治疗产品标识信息,并获取与所述治疗产品标识信息相映射的治疗产品信息,其中,所述治疗产品信息包括治疗产品的推荐链接和摘要信息。
可选的,在本发明第一方面的第五种实现方式中,在所述获取问诊语料和所述问诊语料对应的待推送应答语料之后,还包括:采用预置全同态加密算法,将所述问诊语料和所述待推送应答语料转化成对应的进制位明文;对所述进制位明文进行加密运算,得到加密语料,并根据预置模值,计算所述加密语料的密文原码、密文反码和密文补码;采用所述密文原码、所述密文反码和所述密文补码,对所述加密语料进行模运算,得到模加密语料,其中,所述模加密语料包括所述问诊语料对应的第一模加密语料和所述待推送应答语料对应的第二加密语料;将所述第一加密语料作为新的问诊语料,以及将所述第二加密语料作为新的待推送应答语料。
本发明第二方面提供了一种基于人工智能的应答语料生成装置,包括:分词模块,用于获取问诊语料和所述问诊语料对应的待推送应答语料,并基于预置线性链条件随机场,分别对所述问诊语料和所述待推送应答语料进行分词处理,对应得到多个问诊分词和多个应答分词;语义匹配模块,用于分别对所述问诊分词和所述应答分词进行专业词语义匹配,对应得到所述问诊分词对应的问诊专业分词和所述应答分词对应的应答专业分词;问答匹配模块,用于依次对各所述问诊专业分词和各所述应答专业分词进行交叉问答匹配,并根据交叉问答匹配的结果,对所述问诊专业分词和所述应答专业分词进行组合,得到诊断语句;组合模块,用于采用预置先验医疗知识库,匹配诊断语句对应的治疗产品信息,对所述治疗产品信息和所述待推送应答语料进行组合,得到新的待推送应答语料并推送。
可选的,在本发明第二方面的第一种实现方式中,所述分词模块包括:提取单元,用于提取所述问答语料的字符特征向量以及对应的拼音特征向量,其中,问答语料包括问诊语料和待推送应答语料;拼接单元,用于对所述字符特征向量以及对应的拼音特征向量进行拼接,得到上下文信息向量,并对所述上下文信息向量进行语义分析,得到语义特征;解码单元,用于采用预置线性链条件随机场对所述语义特征进行标注,得到分词标注序列,并对所述分词标注序列进行解码,得到多个问答分词,其中,所述问答分词包括问诊分词和应答分词。
可选的,在本发明第二方面的第二种实现方式中,所述语义匹配模块包括:构建单元,用于构建所述问答分词在预置常用词词典中的第一音形码,以及构建预置专业词词典中各专业词的第二音形码,并计算第一音形码和第二音形码之间的编辑距离;组合单元,用于对编辑距离小于预置编辑距离阈值的第一音形码对应的问答分词进行组合,得到问答分词组,以及选取编辑距离小于所述编辑距离阈值的第二音形码对应的专业词;替换单元,用于依次采用选取的专业词替换所述问答分词组中对应的问答分词,得到问答分词组对应的多个专业词组;语义分析单元,用于对所述问答分词组进行语义分析,得到第一语义分析结果,以及对各所述专业词组进行语义分析,得到多个第二语义分析结果;对比单元,用于分别对所述第一语义分析结果与各所述第二语义分析结果进行对比,并根据对比的结果,从多个所述专业词组中选取所述问答分词组中各问答分词的近义词;将选取的近义词作为所述问答分词对应的问答专业分词,其中,所述问答专业分词包括问诊专业分词和应答专业分词。
可选的,在本发明第二方面的第三种实现方式中,所述对比单元还用于:根据对比的结果,分别计算所述第一语义分析结果与各所述第二语义分析结果之间的差异程度,并根据所述差异程度,确定所述问答分词组与各所述专业词组之间的相似度;将所述问答分词组中每个问答分词对应专业词所在的专业词组进行分类,得到多个问答分词类别的专业词组;分别从各个问答分词类别的专业词组中选取相似度最大的专业词组,并将选取的专业词组中对应问答分词类别的专业词作为所述问答分词的近义词。
可选的,在本发明第二方面的第四种实现方式中,所述组合模块包括:遍历单元,用于采用所述诊断语句,在预置先验医疗知识库中进行层次遍历,并根据层次遍历的结果,确定所述诊断语句对应的诊断结果;筛选单元,用于从所述先验知识库中选取与所述诊断结果相匹配的治疗产品标识信息,并获取与所述治疗产品标识信息相映射的治疗产品信息,其中,所述治疗产品信息包括治疗产品的推荐链接和摘要信息。
可选的,在本发明第二方面的第五种实现方式中,所述基于人工智能的应答语料生成装置还包括加密模块,用于:采用预置全同态加密算法,将所述问诊语料和所述待推送应答语料转化成对应的进制位明文;对所述进制位明文进行加密运算,得到加密语料,并根据预置模值,计算所述加密语料的密文原码、密文反码和密文补码;采用所述密文原码、所述密文反码和所述密文补码,对所述加密语料进行模运算,得到模加密语料,其中,所述模加密语料包括所述问诊语料对应的第一模加密语料和所述待推送应答语料对应的第二加密语料;将所述第一加密语料作为新的问诊语料,以及将所述第二加密语料作为新的待推送应答语料。
本发明第三方面提供了一种基于人工智能的应答语料生成设备,包括:存储器和至少一个处理器,所述存储器中存储有指令;所述至少一个处理器调用所述存储器中的所述指令,以使得所述基于人工智能的应答语料生成设备执行上述的基于人工智能的应答语料生成方法。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的基于人工智能的应答语料生成方法。
本发明提供的技术方案中,通过获取患者输入的问诊语料和医生对患者进行待推送应答语料的答复,通过专业词语义匹配来将问诊语料和待推送语料转化为专业的问诊语料和应答语料,并对问诊和应答的专业分词进行匹配,以用于判断患者的病情和医生推荐的治疗方案,得到诊断语句,并根据诊断语句来匹配治疗产品信息,并与待推送应答语料一起推送给患者。实现问诊环节平滑的产品推荐功能。推荐的产品、服务是针对了此次聊天场景的精确推荐,向用户提供了针对特定产品的快速下单功能,实现问诊过程中产权的精准推荐。
附图说明
图1为本发明基于人工智能的应答语料生成方法的第一个实施例示意图;
图2为本发明基于人工智能的应答语料生成方法的第二个实施例示意图;
图3为本发明基于人工智能的应答语料生成方法的第三个实施例示意图;
图4为本发明基于人工智能的应答语料生成装置的一个实施例示意图;
图5为本发明基于人工智能的应答语料生成装置的另一个实施例示意图;
图6为本发明基于人工智能的应答语料生成设备的一个实施例示意图。
具体实施方式
本发明实施例提供了一种基于人工智能的应答语料生成方法及相关设备,获取问诊语料和待推送应答语料,并基于预置线性链条件随机场进行分词处理,对应得到问诊分词和应答分词;对问诊分词和应答分词进行专业词语义匹配,对应得到问诊专业分词和应答专业分词;对问诊专业分词和应答专业分词进行交叉问答匹配,并根据交叉问答匹配的结果,对问诊专业分词和应答专业分词进行组合,得到诊断语句;采用预置先验医疗知识库,匹配诊断语句对应的治疗产品信息,对治疗产品信息和待推送应答语料进行组合,得到新的待推送应答语料并推送。本发明实现了线上问诊过程中的治疗产品推荐,提升了线上问诊的智能化程度。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中基于人工智能的应答语料生成方法的第一个实施例包括:
101、获取问诊语料和问诊语料对应的待推送应答语料,并基于预置线性链条件随机场,分别对问诊语料和待推送应答语料进行分词处理,对应得到多个问诊分词和多个应答分词;
可以理解的是,本发明的执行主体可以为基于人工智能的应答语料生成装置,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。
本实施例中,问诊语料由患者通过问诊聊天界面输入并发送得到,待推送应答语料则是由对接医生接收到患者的问诊语料后,通过聊天界面输入并发得到,比如患者发送“胳膊皮肤过敏,请问医生该怎么处理?”的问诊语料,对接医生回复该问诊语料,“自己是否在家用过抗过敏药?”的待推送应答语料,其中,待推送语料发送至后台,并未直接转发给患者,需通过本发明方法进行产品推荐信息的植入再进行发送。
另外,产品推荐信息的获取是根据问诊语料和待推送应答语料的语义进行匹配的,故需要对问诊语料和待推送应答语料进行语义识别,并根据语义识别结果,匹配对应的产品推荐信息。此处可以先通过结合隐马尔可夫模型,具体采用预置的线性链条件随机场对问诊语料和待推送应答语料进行分词处理,得到对应的多个问诊分词和应答分词,两者通过“生成-判别对”的关系对问诊分词和应答分词进行分词处理。
我们一般都假设问诊语料和待推送应答语料多个应答分词X和已知词性Y有相同的结构,即:X=(x1,x2,……,xn),Y=(y1,y2,……,yn);通过每个Y分别与X连接,每个Y由y1-yn顺序连接,组成的结构即构成了线性链条件随机场。并通过线性随机场进行学习,直到达到最优化权重,即可得到问诊分词和应答分词。
102、分别对问诊分词和应答分词进行专业词语义匹配,对应得到问诊分词对应的问诊专业分词和应答分词对应的应答专业分词;
本实施例中,先对问诊分词和应答分词进行词性区分,为问诊分词和应答分词标示词性,以此找出名词性的问诊分词和应答分词即可,对于其他词性的问诊分词和应答分词则直接排除。可直接对接自定义的或者现有的规则词库进行排除,并通过运营人员补全规则,也可对接AI系统进行排除。
进一步的,采用保留的问诊分词和应答分词进行专业词语义匹配,可对接现有的基于规则的同近义词词库,并通过运营人员补全规则,也可以对接AI同近义词功能,实现基于AI系统的转换。最终目标为将口语化或非统一的问诊分词和应答分词转换为统一的问诊分词和应答分词。
103、依次对各问诊专业分词和各应答专业分词进行交叉问答匹配,并根据交叉问答匹配的结果,对问诊专业分词和应答专业分词进行组合,得到诊断语句;
本实施例中,医生针对患者输入的问诊语料进行应答语料的答复,在进行分词处理和语义识别后,得到问诊专业分词和应答专业分词,为问诊语料中的关键问诊词语和关键应答词语,其中,在问诊过程中可能包含多个症状或者问题,则医生也会针对不同的症状或者问题进行相对应的回复,故此处需要对问诊专业分词和应答专业分词进行交叉问答匹配。
具体的,可以先对各个问诊专业分词分别进行分布式表示,得到问诊专业分词的问诊词向量序列和与应答专业分词绑定的预置的参照词向量序列;然后通过深度学习模型来识别问诊词向量序列和参照词向量序列的语义相似度;接着通过预设的公式计算每个问诊专业分词和每个应答专业分词之间的文本相似度;再通过语义相似度和文本相似度来确定两者之间的综合相似度;根据综合相似度确定与文字专业分词相匹配的应答专业分词,并进行组合,即可得到诊断语句。
104、采用预置先验医疗知识库,匹配诊断语句对应的治疗产品信息,对治疗产品信息和待推送应答语料进行组合,得到新的待推送应答语料并推送。
本实施例中,先验医疗知识库中配置了诊断语句的正则表达式与诊断结果之间的映射关系表,通过诊断语句可以查找到对应的正则表达式,然后通过正则表达式遍历该映射关系表,即可确定与诊断语句相映射的诊断结果,然后先验医疗知识库中还配置了诊断结果与治疗产品标识信息之间的映射关系表,通过诊断结果遍历该映射关系表,即可查找到具体的治疗产品标识信息,包括质量产品的推荐链接和摘要信息,其中,摘要信息可以包括品牌名称、使用说明、出售数量和好评率等。具体如下所示:
(1)采用诊断语句,在预置先验医疗知识库中进行层次遍历,并根据层次遍历的结果,确定诊断语句对应的诊断结果;
(2)从先验知识库中选取与诊断结果相匹配的治疗产品标识信息,并获取与治疗产品标识信息相映射的治疗产品信息,其中,治疗产品信息包括治疗产品的推荐链接和摘要信息。
本发明实施例中,通过获取患者输入的问诊语料和医生对患者进行待推送应答语料的答复,通过专业词语义匹配来将问诊语料和待推送语料转化为专业的问诊语料和应答语料,并对问诊和应答的专业分词进行匹配,以用于判断患者的病情和医生推荐的治疗方案,得到诊断语句,并根据诊断语句来匹配治疗产品信息,并与待推送应答语料一起推送给患者。实现问诊环节平滑的产品推荐功能。推荐的产品、服务是针对了此次聊天场景的精确推荐,向用户提供了针对特定产品的快速下单功能,实现问诊过程中产权的精准推荐。
请参阅图2,本发明实施例中基于人工智能的应答语料生成方法的第二个实施例包括:
201、获取问诊语料和问诊语料对应的待推送应答语料,并提取问答语料的字符特征向量以及对应的拼音特征向量,其中,问答语料包括问诊语料和待推送应答语料;
202、对字符特征向量以及对应的拼音特征向量进行拼接,得到上下文信息向量,并对上下文信息向量进行语义分析,得到语义特征;
203、采用预置线性链条件随机场对语义特征进行标注,得到分词标注序列,并对分词标注序列进行解码,得到多个问答分词,其中,问答分词包括问诊分词和应答分词;
本实施例中,将提问语料中的每个文字分割开,并进行顺序编码,即可得到一个字符表,通过字符表,利用Word2vec等神经网络训练每个文字的字符特征向量,其中,字符特征向量包含提问语料的上下文信息,每个字符特征向量代表一个文字,每个字符特征向量的维度可以根据语料大小进行调整,一般可选的维度为50,100,200等。
将问答语料中的每个文字转换为字母,以此构建问答语料对应的字母表,并构建字母表中的每个字母随机初始化为向量形式,得到每个文字对应的拼音向量矩阵其中,cL为文字对应的拼音中第l个字母对应的向量;L为拼音的最大长度,预设为固定值。一般来说文字对应的拼音的最大长度为6,因此L可以设置为6;且若文字对应的拼音长度L'小于L,则将对应拼音向量矩阵中的第L'+1~L'行元素置零;例如,“市”对应的拼音“shi”长度为3,则其对应的拼音向量矩阵中的第4-6行全部置零。将每个拼音特征向量矩阵依次卷积神经网路CNN进行编码,得到一个固定大小的拼音特征向量。
本实施例中,将字符特征向量和拼音特征向量按照提问语料中每个文字的顺序组成进行一一对应的拼接,即可得到上下文信息向量,然后将上下文信息向量输入双向LSTM神经网络进行语义分析,其中,双向LSTM神经网络包括一个前向LSTM神经网络和一个后向LSTM神经网络,结合遗忘和保存机制进行反向传播学习上下文信息向量的语义特征。
最终,通过线性链条随机场CRF对语义特征进行标注,得到分词标注序列,其中,语义特征Z={z1,z2,……,zN},标注信息Y={y1,y2,……,yN},则对于给定的语义特征Z取值为z的条件下,在标签序列Y上取值为y的条件概率为p(y|z),具体公式如下:
其中,n=1,2,…,N,tk()和sl()是特征函数,λk和μl分别是tk()和sl()对应的权值。p(y|z)是表示取值为z的情况下标注为y的概率,S(z)是规范化因子,为了将输出归一化为一个0到1的数值。在通过上述公式选取得到分词标注序列后,进行解密,即可得到对应的多个问答分词。
204、构建问答分词在预置常用词词典中的第一音形码,以及构建预置专业词词典中各专业词的第二音形码,并计算第一音形码和第二音形码之间的编辑距离;
205、对编辑距离小于预置编辑距离阈值的第一音形码对应的问答分词进行组合,得到问答分词组,以及选取编辑距离小于编辑距离阈值的第二音形码对应的专业词;
206、依次采用选取的专业词替换问答分词组中对应的问答分词,得到问答分词组对应的多个专业词组;
207、对问答分词组进行语义分析,得到第一语义分析结果,以及对各专业词组进行语义分析,得到多个第二语义分析结果;
208、分别对第一语义分析结果与各第二语义分析结果进行对比,并根据对比的结果,从多个专业词组中选取问答分词组中各问答分词的近义词;
209、将选取的近义词作为问答分词对应的问答专业分词,其中,问答专业分词包括问诊专业分词和应答专业分词;
本实施例中,问答分词中各个文字以及专业词词典中的各个专业字词,均有其特殊的字音与字形组合。其中对每个文字的声母、韵母、韵母补码、声调进行数字编码,得到其字音的四位数字编码;对每个文字的汉字结构、五个四角码、笔画数量进行编码,得到其字形的7位数字编码;两者组合即可形成每个文字特有的11位音形码,包括第一音形码和第二音形码。
具体的,若以A1至A26代表声母表中顺序的26个声母对应的编码字段;以B1至B39代表韵母表中顺序的39个韵母对应的编码字段;以C1至C39代表韵母表中顺序的39个韵母对应的韵母补码对应的编码字段;以D1至D4代表声调一声至四声对应的编码字段;则“花”字的字音码编码信息A11B13C13D1。若以E1至E7分别代表常用字的左右结构、上下结构、左中右结构、上中下结构、半包围结构、全包围结构、镶嵌结构对应的编码字段;以F0至F9、G0至G9、H0至H9、J0至J9、K0至K9分别代表常用字的左上角、右上角、左下角、右下角、附号对应的十类笔形对应的编码字段;以Li(i为笔画数量且i为正整数)代表笔画数量对应的编码字段;则“花”字的字形编码信息为E2F4G4H2J1K4L7,故“花”字的常用字编码信息为A11B13C13D1E2F4G4H2J1K4L7。
本实施例中,音形码包括十一种类型的编码字段,第一音形码和第二音形码之间同一类型的编码字段不同,则其编辑距离增加1,否则保持原值。若两者之间全部类型的编码字段一致,表示两个常用字相似度最高,两者之间的编辑距离为0,若两者之间全部类型的编码字段都不一致,表示两个常用字相似度最低,则所两者之间的编辑距离为11,故预替换字与常用字之间的编辑距离在0-11之间。
本实施例中,由于编辑距离为问答分词中每个文字和专业词典中每个字词之间相似度的量化数值,且编辑距离越小,相似度越高,故用户可设置预置编辑距离阈值,用于筛选用于交叉组合的专业词。
在对专业词(a1,a2,b1,b2,c1,d1,d2,e1,e2,e3)进行交叉组合时,参照问答分词组(A,B,C,D,E),选取第一组专业词组(a1,b1,c1,d1,e1),固定专业词“B,C,D,E”,依次将“A”改变为“a1”和“a2”,可以得到专业词组(a1,B,C,D,E)和(a2,B,C,D,E),以此类推,直到全部替换组合完毕时停止。
本实施例中,通过常规的语义识别模型对问答分词组和专业词组进行语义分析,分别得到第一语义分析结果和第二语义分析结果。若经过对比后,两者之间存在较小的语义偏差,则确定对应专业词组中改变的专业词是对应问答分词的近义词,并作为该问答分词对应的问答专业分词。
210、依次对各问诊专业分词和各应答专业分词进行交叉问答匹配,并根据交叉问答匹配的结果,对问诊专业分词和应答专业分词进行组合,得到诊断语句;
211、采用预置先验医疗知识库,匹配诊断语句对应的治疗产品信息,对治疗产品信息和待推送应答语料进行组合,得到新的待推送应答语料并推送。
本发明实施例中,通过预置的常用词词典和专业词词典来构建问诊分词和应答分词以及专业分词的音形码,通过音形码的匹配来确定每个问诊纷纷次和应答分词的近义词,并进行代替,得到对应的问诊专业分词和应答专业分词,在后续进行产品匹配时更准确。
请参阅图3,本发明实施例中基于人工智能的应答语料生成方法的第三个实施例包括:
301、获取问诊语料和问诊语料对应的待推送应答语料,采用预置全同态加密算法,将问诊语料和待推送应答语料转化成对应的进制位明文;
302、对进制位明文进行加密运算,得到加密语料,并根据预置模值,计算加密语料的密文原码、密文反码和密文补码;
303、采用密文原码、密文反码和密文补码,对加密语料进行模运算,得到模加密语料,其中,模加密语料包括问诊语料对应的第一模加密语料和待推送应答语料对应的第二加密语料;
304、将第一加密语料作为新的问诊语料,以及将第二加密语料作为新的待推送应答语料,并基于预置线性链条件随机场,分别对问诊语料和待推送应答语料进行分词处理,对应得到多个问诊分词和多个应答分词;
本实施例中,问诊语料和待推送应答语料的明文m的类型(Type)为T,T的集合为{整数、实数、字符、日期、布尔型等},已知明文ms,其中,s表示数据进制(System),即二进制、十进制、十六进制、521进制等等,记作(T,ms);例如:s=2表示二进制,二进制通常用B表示,明文m表示为二进制位mB,记作(T,mB);s=16表示十六进制,十六进制通常用H表示,明文m表示为十六进制位mH,记作(T,mH);s=512表示512进制,明文m表示为512进制位m512,记作(T,m512)等。比如,一个问诊语料和一个待推送应答语料分别为m1=5,m2=3,需要分别对其进行二进制位加密,则得到的二进制位明文分别为101和011。
本实施例中,在对进制位明文进行加密运算时,可以采用以下加密运算公式:c=(m+s*r+p*r)mod x0,其中,c表示密文,m表示问诊语料和待推送应答语料明文中的进制位,s表示加密中所采用的进制,r表示随机数,p为加密密钥,x0是一个中间变量,其等于加密密钥p与另一个加密密钥q的乘积。
例如,假设工作密钥p=111,q=11,x0=p*q=1221,令r=1,则对于明文5的二进制位明文101和明文3的二进制位明文011中的数0和1而言,使用本步骤的上述公式计算后,可得到:数0加密后的密文等于113;数1加密后的密文等于114。
另外,经过原码、反码、补码的计算方法,通过加密语料即可计算得到对应的密文原码、密文反码和密文补码,而在对加密语料的密文原码、密文反码和密文补码进行加密计算时,对于加密语料的加法运算,直接将其中的密文组合进行对位求和运算,而无需用到密文原码、密文反码和密文补码。
其中,在对加密语料进行减法运算时,首先获取减数的加密语料的反码,然后根据该反码获取对应的补码,最后将该补码与被减数的加密语料的原码进行对位求和运算。
其中,在对于加密语料进行乘法运算时,首先根据加密语料中文字元素的个数n创建一个n*(2n-1)的矩阵,然后,将构建的矩阵的每列进行求和,从而得到一个新的行向量,取该行向量作为加密语料的乘法运算结果。
其中,在对于加密语料进行除法运算时,创建空的除法运算结果的存储格式,该存储格式的总长度为32位、64位或80位,且包括符号位、整数位和小数位,并根据该存储格式对二进制位明文进行扩展;对扩展后的二进制位明文进行加密运算,将加密运算结果进行组合,从而得到对应的密文分别作为被除数和除数;设置小数位计数器count的初始值等于存储格式的长度-L,其中L是存储格式中整数位的长度;判断被除数的密文是否大于除数的密文,如果大于,则将被除数的密文与加密语料的补码做加法,得到余数作为新的被除数,并且在整数位用1的密文做加法,即得到的是密文商;否则判断余数的密文是否全部为零或小数位计数器count大于存储格式的总长度,如果是,则直接按前面预设的存储格式进行存放,否则在余数密文的最右边添加0的密文,得到新的余数密文,判断步骤新的余数密文是否大于除数的密文,如果是大于则将新的余数密文与除数的密文补码做加法,以再次获得新的余数密文,同时将第count个小数位的值设置为1对应的密文值;将第count个小数位的值设置为0对应的密文值,将小数位计数器count加1,根据得到的密文值获取商的整数部分和小数部分,并按前面预设的存储格式进行存放。
305、构建问答分词在预置常用词词典中的第一音形码,以及构建预置专业词词典中各专业词的第二音形码,并计算第一音形码和第二音形码之间的编辑距离;
306、对编辑距离小于预置编辑距离阈值的第一音形码对应的问答分词进行组合,得到问答分词组,以及选取编辑距离小于编辑距离阈值的第二音形码对应的专业词;
307、依次采用选取的专业词替换问答分词组中对应的问答分词,得到问答分词组对应的多个专业词组;
308、对问答分词组进行语义分析,得到第一语义分析结果,以及对各专业词组进行语义分析,得到多个第二语义分析结果;
309、分别对第一语义分析结果与各第二语义分析结果进行对比;
310、根据对比的结果,分别计算第一语义分析结果与各第二语义分析结果之间的差异程度,并根据差异程度,确定问答分词组与各专业词组之间的相似度;
311、将问答分词组中每个问答分词对应专业词所在的专业词组进行分类,得到多个问答分词类别的专业词组;
312、分别从各个问答分词类别的专业词组中选取相似度最大的专业词组,并将选取的专业词组中对应问答分词类别的专业词作为问答分词的近义词;
本实施例中,对于对专业词组(a1,a2,b1,b2,c1,d1,d2,e1,e2,e3)进行交叉组合时,参照问答分词组(A,B,C,D,E),针对“A”对应的专业词改变“a1”、“a2”,将对应的专业词组(a1,B,C,D,E)和(a2,B,C,D,E)分为一类,以此类推,得到多个问答分词类别的专业词组,与问答分词组相似度最大的专业词组,其改变的专业词与问答分词组中的问答分词也相似度最大,则可以作为该问答分词的近义词。
313、将选取的近义词作为问答分词对应的问答专业分词,其中,问答专业分词包括问诊专业分词和应答专业分词;
314、依次对各问诊专业分词和各应答专业分词进行交叉问答匹配,并根据交叉问答匹配的结果,对问诊专业分词和应答专业分词进行组合,得到诊断语句;
315、采用预置先验医疗知识库,匹配诊断语句对应的治疗产品信息,对治疗产品信息和待推送应答语料进行组合,得到新的待推送应答语料并推送。
本发明实施例中,通过对问诊语料和待推送应答语料进行进一步的加密,并通过对密文进行计算,产品推荐等数据处理过程,更能保证患者的个人隐私信息,提升患者的问诊体验感。
上面对本发明实施例中基于人工智能的应答语料生成方法进行了描述,下面对本发明实施例中基于人工智能的应答语料生成装置进行描述,请参阅图4,本发明实施例中基于人工智能的应答语料生成装置一个实施例包括:
分词模块401,用于获取问诊语料和所述问诊语料对应的待推送应答语料,并基于预置线性链条件随机场,分别对所述问诊语料和所述待推送应答语料进行分词处理,对应得到多个问诊分词和多个应答分词;
语义匹配模块402,用于分别对所述问诊分词和所述应答分词进行专业词语义匹配,对应得到所述问诊分词对应的问诊专业分词和所述应答分词对应的应答专业分词;
问答匹配模块403,用于依次对各所述问诊专业分词和各所述应答专业分词进行交叉问答匹配,并根据交叉问答匹配的结果,对所述问诊专业分词和所述应答专业分词进行组合,得到诊断语句;
组合模块404,用于采用预置先验医疗知识库,匹配诊断语句对应的治疗产品信息,对所述治疗产品信息和所述待推送应答语料进行组合,得到新的待推送应答语料并推送。
本发明实施例中,通过获取患者输入的问诊语料和医生对患者进行待推送应答语料的答复,通过专业词语义匹配来将问诊语料和待推送语料转化为专业的问诊语料和应答语料,并对问诊和应答的专业分词进行匹配,以用于判断患者的病情和医生推荐的治疗方案,得到诊断语句,并根据诊断语句来匹配治疗产品信息,并与待推送应答语料一起推送给患者。实现问诊环节平滑的产品推荐功能。推荐的产品、服务是针对了此次聊天场景的精确推荐,向用户提供了针对特定产品的快速下单功能,实现问诊过程中产权的精准推荐。
请参阅图5,本发明实施例中基于人工智能的应答语料生成装置的另一个实施例包括:
分词模块401,用于获取问诊语料和所述问诊语料对应的待推送应答语料,并基于预置线性链条件随机场,分别对所述问诊语料和所述待推送应答语料进行分词处理,对应得到多个问诊分词和多个应答分词;
语义匹配模块402,用于分别对所述问诊分词和所述应答分词进行专业词语义匹配,对应得到所述问诊分词对应的问诊专业分词和所述应答分词对应的应答专业分词;
问答匹配模块403,用于依次对各所述问诊专业分词和各所述应答专业分词进行交叉问答匹配,并根据交叉问答匹配的结果,对所述问诊专业分词和所述应答专业分词进行组合,得到诊断语句;
组合模块404,用于采用预置先验医疗知识库,匹配诊断语句对应的治疗产品信息,对所述治疗产品信息和所述待推送应答语料进行组合,得到新的待推送应答语料并推送。
具体的,所述分词模块401包括:
提取单元4011,用于提取所述问答语料的字符特征向量以及对应的拼音特征向量,其中,问答语料包括问诊语料和待推送应答语料;
拼接单元4012,用于对所述字符特征向量以及对应的拼音特征向量进行拼接,得到上下文信息向量,并对所述上下文信息向量进行语义分析,得到语义特征;
解码单元4013,用于采用预置线性链条件随机场对所述语义特征进行标注,得到分词标注序列,并对所述分词标注序列进行解码,得到多个问答分词,其中,所述问答分词包括问诊分词和应答分词。
具体的,所述语义匹配模块402包括:
构建单元4021,用于构建所述问答分词在预置常用词词典中的第一音形码,以及构建预置专业词词典中各专业词的第二音形码,并计算第一音形码和第二音形码之间的编辑距离;
组合单元4022,用于对编辑距离小于预置编辑距离阈值的第一音形码对应的问答分词进行组合,得到问答分词组,以及选取编辑距离小于所述编辑距离阈值的第二音形码对应的专业词;
替换单元4023,用于依次采用选取的专业词替换所述问答分词组中对应的问答分词,得到问答分词组对应的多个专业词组;
语义分析单元4024,用于对所述问答分词组进行语义分析,得到第一语义分析结果,以及对各所述专业词组进行语义分析,得到多个第二语义分析结果;
对比单元4025,用于分别对所述第一语义分析结果与各所述第二语义分析结果进行对比,并根据对比的结果,从多个所述专业词组中选取所述问答分词组中各问答分词的近义词;将选取的近义词作为所述问答分词对应的问答专业分词,其中,所述问答专业分词包括问诊专业分词和应答专业分词。
具体的,所述对比单元4025还用于:
根据对比的结果,分别计算所述第一语义分析结果与各所述第二语义分析结果之间的差异程度,并根据所述差异程度,确定所述问答分词组与各所述专业词组之间的相似度;
将所述问答分词组中每个问答分词对应专业词所在的专业词组进行分类,得到多个问答分词类别的专业词组;
分别从各个问答分词类别的专业词组中选取相似度最大的专业词组,并将选取的专业词组中对应问答分词类别的专业词作为所述问答分词的近义词。
具体的,所述组合模块404包括:
遍历单元4041,用于采用所述诊断语句,在预置先验医疗知识库中进行层次遍历,并根据层次遍历的结果,确定所述诊断语句对应的诊断结果;
筛选单元4042,用于从所述先验知识库中选取与所述诊断结果相匹配的治疗产品标识信息,并获取与所述治疗产品标识信息相映射的治疗产品信息,其中,所述治疗产品信息包括治疗产品的推荐链接和摘要信息。
具体的,所述基于人工智能的应答语料生成装置还包括加密模块405,用于:
采用预置全同态加密算法,将所述问诊语料和所述待推送应答语料转化成对应的进制位明文;
对所述进制位明文进行加密运算,得到加密语料,并根据预置模值,计算所述加密语料的密文原码、密文反码和密文补码;
采用所述密文原码、所述密文反码和所述密文补码,对所述加密语料进行模运算,得到模加密语料,其中,所述模加密语料包括所述问诊语料对应的第一模加密语料和所述待推送应答语料对应的第二加密语料;
将所述第一加密语料作为新的问诊语料,以及将所述第二加密语料作为新的待推送应答语料。
本发明实施例中,通过预置的常用词词典和专业词词典来构建问诊分词和应答分词以及专业分词的音形码,通过音形码的匹配来确定每个问诊纷纷次和应答分词的近义词,并进行代替,得到对应的问诊专业分词和应答专业分词,在后续进行产品匹配时更准确;通过对问诊语料和待推送应答语料进行进一步的加密,并通过对密文进行计算,产品推荐等数据处理过程,更能保证患者的个人隐私信息,提升患者的问诊体验感。
上面图4和图5从模块化功能实体的角度对本发明实施例中的基于人工智能的应答语料生成装置进行详细描述,下面从硬件处理的角度对本发明实施例中基于人工智能的应答语料生成设备进行详细描述。
图6是本发明实施例提供的一种基于人工智能的应答语料生成设备的结构示意图,该基于人工智能的应答语料生成设备600可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)610(例如,一个或一个以上处理器)和存储器620,一个或一个以上存储应用程序633或数据632的存储介质630(例如一个或一个以上海量存储设备)。其中,存储器620和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对基于人工智能的应答语料生成设备600中的一系列指令操作。更进一步地,处理器610可以设置为与存储介质630通信,在基于人工智能的应答语料生成设备600上执行存储介质630中的一系列指令操作。
基于人工智能的应答语料生成设备600还可以包括一个或一个以上电源640,一个或一个以上有线或无线网络接口650,一个或一个以上输入输出接口660,和/或,一个或一个以上操作系统631,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图6示出的基于人工智能的应答语料生成设备结构并不构成对基于人工智能的应答语料生成设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明还提供一种基于人工智能的应答语料生成设备,所述计算机设备包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行上述各实施例中的所述基于人工智能的应答语料生成方法的步骤。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述基于人工智能的应答语料生成方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (7)
1.一种基于人工智能的应答语料生成方法,其特征在于,所述基于人工智能的应答语料生成方法包括:
获取问诊语料和所述问诊语料对应的待推送应答语料,并基于预置线性链条件随机场,分别对所述问诊语料和所述待推送应答语料进行分词处理,对应得到多个问诊分词和多个应答分词;
分别对所述问诊分词和所述应答分词进行专业词语义匹配,对应得到所述问诊分词对应的问诊专业分词和所述应答分词对应的应答专业分词;
依次对各所述问诊专业分词和各所述应答专业分词进行交叉问答匹配,并根据交叉问答匹配的结果,对所述问诊专业分词和所述应答专业分词进行组合,得到诊断语句;
采用预置先验医疗知识库,匹配诊断语句对应的治疗产品信息,对所述治疗产品信息和所述待推送应答语料进行组合,得到新的待推送应答语料并推送;
其中,所述依次对各所述问诊专业分词和各所述应答专业分词进行交叉问答匹配包括:对各所述问诊专业分词分别进行分布式表示,得到问诊专业分词的问诊词向量序列以及与应答专业分词绑定的预置的参照词向量序列;通过深度学习模型识别问诊词向量序列和参照词向量序列的语义相似度;通过预设的公式计算每个问诊专业分词和每个应答专业分词之间的文本相似度;通过语义相似度和文本相似度确定两者之间的综合相似度,根据综合相似度确定交叉问答匹配的结果;
其中,所述分别对所述问诊分词和所述应答分词进行专业词语义匹配,对应得到所述问诊分词对应的问诊专业分词和所述应答分词对应的应答专业分词包括:构建问答分词在预置常用词词典中的第一音形码,以及构建预置专业词词典中各专业词的第二音形码,并计算第一音形码和第二音形码之间的编辑距离,其中,所述问答分词包括问诊分词和应答分词;对编辑距离小于预置编辑距离阈值的第一音形码对应的问答分词进行组合,得到问答分词组,以及选取编辑距离小于所述编辑距离阈值的第二音形码对应的专业词;依次采用选取的专业词替换所述问答分词组中对应的问答分词,得到问答分词组对应的多个专业词组;对所述问答分词组进行语义分析,得到第一语义分析结果,以及对各所述专业词组进行语义分析,得到多个第二语义分析结果;分别对所述第一语义分析结果与各所述第二语义分析结果进行对比,并根据对比的结果,从多个所述专业词组中选取所述问答分词组中各问答分词的近义词;将选取的近义词作为所述问答分词对应的问答专业分词,其中,所述问答专业分词包括问诊专业分词和应答专业分词;
其中,在所述获取问诊语料和所述问诊语料对应的待推送应答语料之后,还包括:采用预置全同态加密算法,将所述问诊语料和所述待推送应答语料转化成对应的进制位明文;对所述进制位明文进行加密运算,得到加密语料,并根据预置模值,计算所述加密语料的密文原码、密文反码和密文补码;采用所述密文原码、所述密文反码和所述密文补码,对所述加密语料进行模运算,得到加密语料,其中,所述加密语料包括所述问诊语料对应的第一加密语料和所述待推送应答语料对应的第二加密语料;将所述第一加密语料作为新的问诊语料,以及将所述第二加密语料作为新的待推送应答语料。
2.根据权利要求1所述的基于人工智能的应答语料生成方法,其特征在于,所述分别对所述问诊语料和所述待推送应答语料进行分词处理,对应得到多个问诊分词和多个应答分词包括:
提取问答语料的字符特征向量以及对应的拼音特征向量,其中,问答语料包括问诊语料和待推送应答语料;
对所述字符特征向量以及对应的拼音特征向量进行拼接,得到上下文信息向量,并对所述上下文信息向量进行语义分析,得到语义特征;
采用预置线性链条件随机场对所述语义特征进行标注,得到分词标注序列,并对所述分词标注序列进行解码,得到多个问答分词。
3.根据权利要求2所述的基于人工智能的应答语料生成方法,其特征在于,所述根据对比的结果,从多个所述专业词组中选取所述问答分词组中各问答分词的近义词包括:
根据对比的结果,分别计算所述第一语义分析结果与各所述第二语义分析结果之间的差异程度,并根据所述差异程度,确定所述问答分词组与各所述专业词组之间的相似度;
将所述问答分词组中每个问答分词对应专业词所在的专业词组进行分类,得到多个问答分词类别的专业词组;
分别从各个问答分词类别的专业词组中选取相似度最大的专业词组,并将选取的专业词组中对应问答分词类别的专业词作为所述问答分词的近义词。
4.根据权利要求1-3中任一项所述的基于人工智能的应答语料生成方法,其特征在于,所述采用预置先验医疗知识库,匹配诊断语句对应的治疗产品信息包括:
采用所述诊断语句,在预置先验医疗知识库中进行层次遍历,并根据层次遍历的结果,确定所述诊断语句对应的诊断结果;
从所述先验医疗知识库中选取与所述诊断结果相匹配的治疗产品标识信息,并获取与所述治疗产品标识信息相映射的治疗产品信息,其中,所述治疗产品信息包括治疗产品的推荐链接和摘要信息。
5.一种基于人工智能的应答语料生成装置,其特征在于,所述基于人工智能的应答语料生成装置包括:
分词模块,用于获取问诊语料和所述问诊语料对应的待推送应答语料,并基于预置线性链条件随机场,分别对所述问诊语料和所述待推送应答语料进行分词处理,对应得到多个问诊分词和多个应答分词;
语义匹配模块,用于分别对所述问诊分词和所述应答分词进行专业词语义匹配,对应得到所述问诊分词对应的问诊专业分词和所述应答分词对应的应答专业分词;
问答匹配模块,用于依次对各所述问诊专业分词和各所述应答专业分词进行交叉问答匹配,并根据交叉问答匹配的结果,对所述问诊专业分词和所述应答专业分词进行组合,得到诊断语句;
组合模块,用于采用预置先验医疗知识库,匹配诊断语句对应的治疗产品信息,对所述治疗产品信息和所述待推送应答语料进行组合,得到新的待推送应答语料并推送;
其中,问答匹配模块还用于:对各所述问诊专业分词分别进行分布式表示,得到问诊专业分词的问诊词向量序列以及与应答专业分词绑定的预置的参照词向量序列;通过深度学习模型识别问诊词向量序列和参照词向量序列的语义相似度;通过预设的公式计算每个问诊专业分词和每个应答专业分词之间的文本相似度;通过语义相似度和文本相似度确定两者之间的综合相似度,根据综合相似度确定交叉问答匹配的结果;
其中,所述语义匹配模块包括:构建单元,用于构建问答分词在预置常用词词典中的第一音形码,以及构建预置专业词词典中各专业词的第二音形码,并计算第一音形码和第二音形码之间的编辑距离,其中,所述问答分词包括问诊分词和应答分词;组合单元,用于对编辑距离小于预置编辑距离阈值的第一音形码对应的问答分词进行组合,得到问答分词组,以及选取编辑距离小于所述编辑距离阈值的第二音形码对应的专业词;替换单元,用于依次采用选取的专业词替换所述问答分词组中对应的问答分词,得到问答分词组对应的多个专业词组;语义分析单元,用于对所述问答分词组进行语义分析,得到第一语义分析结果,以及对各所述专业词组进行语义分析,得到多个第二语义分析结果;对比单元,用于分别对所述第一语义分析结果与各所述第二语义分析结果进行对比,并根据对比的结果,从多个所述专业词组中选取所述问答分词组中各问答分词的近义词;将选取的近义词作为所述问答分词对应的问答专业分词,其中,所述问答专业分词包括问诊专业分词和应答专业分词;
其中,所述基于人工智能的应答语料生成装置还包括加密模块,用于:采用预置全同态加密算法,将所述问诊语料和所述待推送应答语料转化成对应的进制位明文;对所述进制位明文进行加密运算,得到加密语料,并根据预置模值,计算所述加密语料的密文原码、密文反码和密文补码;采用所述密文原码、所述密文反码和所述密文补码,对所述加密语料进行模运算,得到模加密语料,其中,所述模加密语料包括所述问诊语料对应的第一加密语料和所述待推送应答语料对应的第二加密语料;将所述第一加密语料作为新的问诊语料,以及将所述第二加密语料作为新的待推送应答语料。
6.一种基于人工智能的应答语料生成设备,其特征在于,所述基于人工智能的应答语料生成设备包括:存储器和至少一个处理器,所述存储器中存储有指令;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述基于人工智能的应答语料生成设备执行如权利要求1-4中任意一项所述的基于人工智能的应答语料生成方法的步骤。
7.一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,其特征在于,所述指令被处理器执行时实现如权利要求1-4中任意一项所述基于人工智能的应答语料生成方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111055021.XA CN113742454B (zh) | 2021-09-09 | 2021-09-09 | 基于人工智能的应答语料生成方法及相关设备 |
PCT/CN2022/088893 WO2023035623A1 (zh) | 2021-09-09 | 2022-04-25 | 基于人工智能的应答语料生成方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111055021.XA CN113742454B (zh) | 2021-09-09 | 2021-09-09 | 基于人工智能的应答语料生成方法及相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113742454A CN113742454A (zh) | 2021-12-03 |
CN113742454B true CN113742454B (zh) | 2023-07-21 |
Family
ID=78737446
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111055021.XA Active CN113742454B (zh) | 2021-09-09 | 2021-09-09 | 基于人工智能的应答语料生成方法及相关设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN113742454B (zh) |
WO (1) | WO2023035623A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113742454B (zh) * | 2021-09-09 | 2023-07-21 | 平安科技(深圳)有限公司 | 基于人工智能的应答语料生成方法及相关设备 |
CN114297693B (zh) * | 2021-12-30 | 2022-11-18 | 北京海泰方圆科技股份有限公司 | 一种模型预训练方法、装置、电子设备及存储介质 |
CN116313162B (zh) * | 2023-05-12 | 2023-08-18 | 北京梆梆安全科技有限公司 | 一种基于ai模型的医疗问诊系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6026388A (en) * | 1995-08-16 | 2000-02-15 | Textwise, Llc | User interface and other enhancements for natural language information retrieval system and method |
CN109817351A (zh) * | 2019-01-31 | 2019-05-28 | 百度在线网络技术(北京)有限公司 | 一种信息推荐方法、装置、设备及存储介质 |
CN110781677A (zh) * | 2019-10-12 | 2020-02-11 | 平安医疗健康管理股份有限公司 | 药品信息匹配处理方法、装置、计算机设备和存储介质 |
CN111695343A (zh) * | 2020-06-23 | 2020-09-22 | 深圳壹账通智能科技有限公司 | 错词纠正方法、装置、设备及存储介质 |
CN112287080A (zh) * | 2020-10-23 | 2021-01-29 | 平安科技(深圳)有限公司 | 问题语句的改写方法、装置、计算机设备和存储介质 |
CN112509682A (zh) * | 2020-12-15 | 2021-03-16 | 康键信息技术(深圳)有限公司 | 基于文本识别的问诊方法、装置、设备及存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101178197B1 (ko) * | 2011-03-17 | 2012-08-29 | 김지만 | 의약품 광고 시스템 |
US20170116384A1 (en) * | 2015-10-21 | 2017-04-27 | Jamal Ghani | Systems and methods for computerized patient access and care management |
CN113742454B (zh) * | 2021-09-09 | 2023-07-21 | 平安科技(深圳)有限公司 | 基于人工智能的应答语料生成方法及相关设备 |
-
2021
- 2021-09-09 CN CN202111055021.XA patent/CN113742454B/zh active Active
-
2022
- 2022-04-25 WO PCT/CN2022/088893 patent/WO2023035623A1/zh unknown
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6026388A (en) * | 1995-08-16 | 2000-02-15 | Textwise, Llc | User interface and other enhancements for natural language information retrieval system and method |
CN109817351A (zh) * | 2019-01-31 | 2019-05-28 | 百度在线网络技术(北京)有限公司 | 一种信息推荐方法、装置、设备及存储介质 |
CN110781677A (zh) * | 2019-10-12 | 2020-02-11 | 平安医疗健康管理股份有限公司 | 药品信息匹配处理方法、装置、计算机设备和存储介质 |
CN111695343A (zh) * | 2020-06-23 | 2020-09-22 | 深圳壹账通智能科技有限公司 | 错词纠正方法、装置、设备及存储介质 |
CN112287080A (zh) * | 2020-10-23 | 2021-01-29 | 平安科技(深圳)有限公司 | 问题语句的改写方法、装置、计算机设备和存储介质 |
CN112509682A (zh) * | 2020-12-15 | 2021-03-16 | 康键信息技术(深圳)有限公司 | 基于文本识别的问诊方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2023035623A1 (zh) | 2023-03-16 |
CN113742454A (zh) | 2021-12-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113742454B (zh) | 基于人工智能的应答语料生成方法及相关设备 | |
CN110737763A (zh) | 一种融合知识图谱和深度学习的中文智能问答系统及方法 | |
CN112000791A (zh) | 一种电机故障知识抽取系统及方法 | |
CN114611494B (zh) | 文本纠错方法、装置、设备及存储介质 | |
CN109344242B (zh) | 一种对话问答方法、装置、设备及存储介质 | |
CN112307168B (zh) | 基于人工智能的问诊会话处理方法、装置和计算机设备 | |
CN110781306A (zh) | 一种英文文本的方面层情感分类方法及系统 | |
CN113591457A (zh) | 文本纠错方法、装置、设备及存储介质 | |
CN113094478B (zh) | 表情回复方法、装置、设备及存储介质 | |
CN113569011B (zh) | 文本匹配模型的训练方法、装置、设备及存储介质 | |
CN113435196B (zh) | 意图识别方法、装置、设备及存储介质 | |
CN113268576B (zh) | 一种基于深度学习的部门语义信息抽取的方法及装置 | |
CN111695053A (zh) | 序列标注方法、数据处理设备、可读存储介质 | |
CN113012822A (zh) | 一种基于生成式对话技术的医疗问答系统 | |
CN111813923A (zh) | 文本摘要方法、电子设备及存储介质 | |
CN112215014A (zh) | 基于用户评论的画像生成方法、装置、介质及设备 | |
CN113221553A (zh) | 一种文本处理方法、装置、设备以及可读存储介质 | |
CN111680501B (zh) | 基于深度学习的问询信息识别方法、装置及存储介质 | |
CN112199958A (zh) | 概念词序列生成方法、装置、计算机设备及存储介质 | |
CN114386426B (zh) | 一种基于多元语义融合的金牌话术推荐方法及装置 | |
CN116204635A (zh) | 一种基于企业微信的潜在客户意向级别判别方法及系统 | |
CN115795007A (zh) | 智能问答方法、智能问答装置、电子设备及存储介质 | |
CN114138954A (zh) | 用户咨询问题推荐方法、系统、计算机设备及存储介质 | |
US11983489B1 (en) | Extractive summary generation by abstractive trained model | |
CN112818108B (zh) | 基于形近字的文本语义曲解聊天机器人及其数据处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |