CN114281959A - 语句处理的方法、装置、设备、介质及计算机程序产品 - Google Patents
语句处理的方法、装置、设备、介质及计算机程序产品 Download PDFInfo
- Publication number
- CN114281959A CN114281959A CN202111253286.0A CN202111253286A CN114281959A CN 114281959 A CN114281959 A CN 114281959A CN 202111253286 A CN202111253286 A CN 202111253286A CN 114281959 A CN114281959 A CN 114281959A
- Authority
- CN
- China
- Prior art keywords
- sentence
- target
- information
- text
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 62
- 238000003672 processing method Methods 0.000 title claims abstract description 32
- 238000004590 computer program Methods 0.000 title claims abstract description 13
- 238000004458 analytical method Methods 0.000 claims abstract description 140
- 238000000034 method Methods 0.000 claims abstract description 94
- 239000013598 vector Substances 0.000 claims description 96
- 238000000605 extraction Methods 0.000 claims description 37
- 238000003860 storage Methods 0.000 claims description 30
- 230000011218 segmentation Effects 0.000 claims description 27
- 230000004927 fusion Effects 0.000 claims description 22
- 238000013507 mapping Methods 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 abstract description 34
- 238000005516 engineering process Methods 0.000 abstract description 26
- 238000013473 artificial intelligence Methods 0.000 abstract description 15
- 201000010099 disease Diseases 0.000 description 22
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 22
- 206010012601 diabetes mellitus Diseases 0.000 description 15
- 238000010586 diagram Methods 0.000 description 15
- 208000024891 symptom Diseases 0.000 description 15
- 230000006870 function Effects 0.000 description 11
- 201000004384 Alopecia Diseases 0.000 description 9
- 231100000360 alopecia Toxicity 0.000 description 6
- 238000003058 natural language processing Methods 0.000 description 6
- 238000011160 research Methods 0.000 description 6
- 238000003745 diagnosis Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 241000282414 Homo sapiens Species 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- NOESYZHRGYRDHS-UHFFFAOYSA-N insulin Chemical compound N1C(=O)C(NC(=O)C(CCC(N)=O)NC(=O)C(CCC(O)=O)NC(=O)C(C(C)C)NC(=O)C(NC(=O)CN)C(C)CC)CSSCC(C(NC(CO)C(=O)NC(CC(C)C)C(=O)NC(CC=2C=CC(O)=CC=2)C(=O)NC(CCC(N)=O)C(=O)NC(CC(C)C)C(=O)NC(CCC(O)=O)C(=O)NC(CC(N)=O)C(=O)NC(CC=2C=CC(O)=CC=2)C(=O)NC(CSSCC(NC(=O)C(C(C)C)NC(=O)C(CC(C)C)NC(=O)C(CC=2C=CC(O)=CC=2)NC(=O)C(CC(C)C)NC(=O)C(C)NC(=O)C(CCC(O)=O)NC(=O)C(C(C)C)NC(=O)C(CC(C)C)NC(=O)C(CC=2NC=NC=2)NC(=O)C(CO)NC(=O)CNC2=O)C(=O)NCC(=O)NC(CCC(O)=O)C(=O)NC(CCCNC(N)=N)C(=O)NCC(=O)NC(CC=3C=CC=CC=3)C(=O)NC(CC=3C=CC=CC=3)C(=O)NC(CC=3C=CC(O)=CC=3)C(=O)NC(C(C)O)C(=O)N3C(CCC3)C(=O)NC(CCCCN)C(=O)NC(C)C(O)=O)C(=O)NC(CC(N)=O)C(O)=O)=O)NC(=O)C(C(C)CC)NC(=O)C(CO)NC(=O)C(C(C)O)NC(=O)C1CSSCC2NC(=O)C(CC(C)C)NC(=O)C(NC(=O)C(CCC(N)=O)NC(=O)C(CC(N)=O)NC(=O)C(NC(=O)C(N)CC=1C=CC=CC=1)C(C)C)CC1=CN=CN1 NOESYZHRGYRDHS-UHFFFAOYSA-N 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 230000000399 orthopedic effect Effects 0.000 description 4
- 238000004873 anchoring Methods 0.000 description 3
- 206010006451 bronchitis Diseases 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 239000003814 drug Substances 0.000 description 3
- 230000003676 hair loss Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 230000014616 translation Effects 0.000 description 3
- 102000004877 Insulin Human genes 0.000 description 2
- 108090001061 Insulin Proteins 0.000 description 2
- 208000024780 Urticaria Diseases 0.000 description 2
- 206010047513 Vision blurred Diseases 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000010485 coping Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 229940079593 drug Drugs 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 229940125396 insulin Drugs 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 206010036067 polydipsia Diseases 0.000 description 2
- 230000002265 prevention Effects 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 206010006895 Cachexia Diseases 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 208000006083 Hypokinesia Diseases 0.000 description 1
- 208000002193 Pain Diseases 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 229940035676 analgesics Drugs 0.000 description 1
- 208000007502 anemia Diseases 0.000 description 1
- 239000000730 antalgic agent Substances 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000002775 capsule Substances 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 208000002925 dental caries Diseases 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 208000002173 dizziness Diseases 0.000 description 1
- 229940072185 drug for treatment of tuberculosis Drugs 0.000 description 1
- 208000026500 emaciation Diseases 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 210000003743 erythrocyte Anatomy 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 239000008187 granular material Substances 0.000 description 1
- 208000024963 hair loss Diseases 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000035939 shock Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 208000004371 toothache Diseases 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 210000001835 viscera Anatomy 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Machine Translation (AREA)
Abstract
本申请公开了一种语句处理的方法、装置、设备、介质及计算机程序产品,涉及人工智能领域。该方法包括:获取目标提问语句和目标文本;对目标提问语句进行意图和实体分析,得到语句特征;对目标文本中的语句进行语义分析,得到语句对应的语义信息;基于语句特征与语义信息,对目标文本进行语句分析,得到目标文本中的目标语句,目标语句用于作为目标提问语句的解答语句。通过对目标提问语句进行意图和实体分析,能够使得语句特征更具有针对性,通过对目标文本中进行语义分析,可以更深度地融合目标文本的语义信息,使得获取得到解答信息的过程效率更高、得到的解答信息的准确率更高。本申请可应用于云技术、人工智能、智慧交通等各种场景。
Description
技术领域
本申请涉及人工智能领域,特别涉及一种语句处理的方法、装置、设备、介质及计算机程序产品。
背景技术
机器阅读理解是人工智能领域中一项复杂的任务,任务的主要内容是根据给定文本回答与文本相关的问题,提高阅读理解的效率既是自然语言处理领域的研究热点之一,也是人工智能在处理和理解人类语言进程中的一个长期目标。
相关技术中,对于文本进行问题回答主要通过阅读理解模型从预设的知识库中随机选取文本知识,计算问题与该文本知识的相似性,通过相似性选取候选文本知识,再将问题与候选文本知识进行语义匹配,从候选文本知识中抽取与该问题语义相似的文本内容作为回答。
然而,在上述方法过程中,随机选取文本知识的稳定性较差,如果选取到不相关的知识,会因为引入的噪音导致问题回答的准确率下降,使得机器阅读理解很难输出准确的回答实体,容易出现答非所问的情况,影响机器阅读理解的效果。
发明内容
本申请实施例提供了一种语句处理的方法、装置、设备、介质及计算机程序产品,能够根据目标提问语句从目标文本中获取得到更准确的解答信息。所述技术方案如下。
一方面,提供了一种语句处理方法,所述方法包括:
获取目标提问语句和目标文本,所述目标文本的文本内容与所述目标提问语句相关;
对所述目标提问语句进行意图和实体分析,得到语句特征,所述语句特征用于指示所述目标提问语句中的意图和实体之间的关联关系;
对所述目标文本中的语句进行语义分析,得到所述语句对应的语义信息,所述语义信息用于指示所述语句的话题信息;
基于所述语句特征与所述语义信息,对所述目标文本进行语句分析,得到所述目标文本中的目标语句,所述目标语句用于作为所述目标提问语句的解答语句。
另一方面,提供了一种语句处理装置,所述装置包括:
获取模块,用于获取目标提问语句和目标文本,所述目标文本的文本内容与所述目标提问语句相关;
提问语句分析模块,用于对所述目标提问语句进行意图和实体分析,得到语句特征,所述语句特征用于指示所述目标提问语句中的意图和实体之间的关联关系;
文本语义分析模块,用于对所述目标文本中的语句进行语义分析,得到所述语句对应的语义信息,所述语义信息用于指示所述语句的话题信息;
文本语句分析模块,用于基于所述语句特征与所述语义信息,对所述目标文本进行语句分析,得到所述目标文本中的目标语句,所述目标语句用于作为所述目标提问语句的解答语句。
另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中任一所述语句处理方法。
另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述本申请实施例中任一所述的语句处理方法。
另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中任一所述的语句处理方法。
本申请实施例提供的技术方案带来的有益效果至少包括:
根据获取得到的目标提问语句和目标文本对二者分别进行分析,其中,对目标提问语句进行意图和实体分析,得到能够表示目标提问语句中意图和实体之间关联关系的语句特征;对目标文本中的语句进行语义分析,得到能够指示目标文本不同语句所包含主题的语义信息。基于得到的语句特征和语义信息,对目标文本进行语句分析,从而确定能够解答目标提问语句的目标语句。通过以上方法,能够使获取到的语句特征更具有针对性,也可以更深度地融合目标文本的语义信息,避免语义信息和其他无关信息进行匹配所引起的效率低下的问题,使得从目标文本中获取得到目标语句的过程效率更高、得到的目标语句的准确率更高。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个示例性实施例提供的实施环境示意图;
图2是本申请一个示例性实施例提供的语句处理方法的流程图;
图3是本申请另一个示例性实施例提供的语句处理方法的流程图;
图4是本申请一个示例性实施例提供的基于医疗知识图谱进行语句处理方法的示意图;
图5是本申请一个示例性实施例提供的三元组向量示意图;
图6是本申请另一个示例性实施例提供的语句处理方法的流程图;
图7是本申请另一个示例性实施例提供的语句处理方法的流程图;
图8是本申请一个示例性实施例提供的多任务识别模型进行语句处理方法的示意图;
图9是本申请一个示例性实施例提供的语句处理模型进行语句处理方法的示意图;
图10是本申请另一个示例性实施例提供的语句处理模型进行语句处理方法的示意图;
图11是本申请一个示例性实施例提供的语句处理方法的界面示意图;
图12是本申请另一个示例性实施例提供的语句处理方法的界面示意图;
图13是本申请一个示例性实施例提供的语句处理装置的结构框图;
图14是本申请另一个示例性实施例提供的语句处理装置的结构框图;
图15是本申请一个示例性实施例提供的服务器的结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
首先,针对本申请实施例中涉及的名词进行简单介绍。
人工智能(Artificial Intelligence,AI):是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
自然语言处理(Nature Language Processing,NLP):是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML):是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
相关技术中,对于文本进行问题回答主要通过预先训练得到的阅读理解模型从预设的知识库中随机选取文本知识,计算问题与该文本知识的相似性,通过相似性选取候选文本知识,再将问题与候选文本知识进行语义匹配,从候选文本知识中抽取与该问题语义相似的文本内容作为回答。然而,在上述方法过程中,随机选取文本知识的稳定性较差,如果选取到不相关的知识,会因为引入的噪音导致问题回答的准确率下降,使得机器阅读理解很难输出准确的回答实体,容易出现答非所问的情况,影响机器阅读理解的效果。
本申请实施例中,提供了一种语句处理方法,使得根据目标提问语句从目标文本中获取得到解答信息的过程效率更高、得到的解答信息的准确率更高。针对本申请训练得到的语句处理方法,在应用时包括如下场景中的至少一种。
1.应用于问题解答中。
示意性的,用户在搜索引擎的输入框中输入的目标提问语句为“如何预防脱发”,基于目标提问语句,搜索引擎所在终端获取与目标提问语句相关的至少一个目标文本,如:获取得到的目标文本为一篇关于治疗脱发小妙招的文章。对目标提问语句进行实体和意图识别得到语句特征,缩小了文本显示的范围,更加针对性地显示关于脱发、预防的内容信息;对目标文本进行语义分析得到语义信息,能够从该治疗脱发小妙招的文章中得到更多有关于预防脱发的语义信息,之后,基于语句特征和语义信息,对目标文本进行语句分析,从而实现在目标提问语句的基础上,提取目标文本中的解答语句作为目标提问语句对应的答案。例如:对目标文本进行语句分析后,定位到目标文本中后3段的语句内容,均是对预防脱发提出的可行性建议,即目标文本中后3段的语句内容为目标提问语句对应的答案。
2.应用于快速定位文本信息场景中。
示意性的,用户预先给定一则目标文本,并同时给定至少一条目标提问语句。当目标提问语句中没有语句与目标文本相关时,终端或者服务器提示用户无法进行文本信息定位;当有至少一条目标提问语句与目标文本相关时,终端或者服务器对目标提问语句进行意图和实体识别、对目标文本的语句进行语义分析,进而基于目标提问语句对目标文本中的内容进行识别,定位目标文本中能够解答目标提问语句的文本内容,实现语句处理过程。
3.应用于场景问答环境中。
示意性的,用户在驾驶车辆时,可以通过语音的方式与车载终端进行互动。例如:在驾驶车辆过程中车辆发生故障,用户需要了解车辆当前状况的应急处理方法,通过唤醒车载终端,语音输入目标提问语句“车辆抛锚怎么办”,基于目标提问语句,目标文本被匹配为一篇与车辆抛锚相关的网页文本,对目标提问语句进行实体和意图识别得到语句特征,更加针对性地围绕“车辆抛锚”进行搜索;对目标文本进行语义分析得到语义信息,能够基于车辆抛锚的应急措施确定较小的搜索范围。之后,基于语句特征和语义信息,对目标文本进行语句分析,从而实现在目标提问语句的基础上,将目标文本中车辆抛锚的应急措施以语音方式播报给用户,使得用户知悉最近的服务站的地理位置信息,实现对于目标提问语句的解答过程。
值得注意的是,上述应用场景仅为示意性的举例,本实施例提供的语句处理方法还可以应用于其他场景中,本申请实施例对此不加以限定。
其次,对本申请实施例中涉及的实施环境进行说明,示意性的,请参考图1,该实施环境中涉及终端110、服务器120,终端110和服务器120之间通过通信网络130连接,服务器120中还包括语句处理模型140。
在一些实施例中,终端110用于向服务器120发送目标提问语句和目标文本。示意性的,终端110具有文本搜索功能,服务器120具有意图识别功能、实体识别功能、语义分析功能等。
服务器120中包括语句处理模型140,通过语句处理模型140对目标提问语句和目标文本进行分析后,输出针对目标提问语句的解答结果,即目标文本中的目标语句,并将目标语句反馈至终端110。可选地,终端110可以以文本显示或者语音播报呈现给用户。
首先终端110获取目标提问语句和目标文本,并向服务器120发送目标提问语句和目标文本,服务器120中的语句处理模型140对目标提问语句进行意图和实体分析,得到目标提问语句对应的语句特征,同时,语句处理模型140对目标文本进行语义分析,得到目标文本中语句对应的语义信息。之后,基于语句特征和语义信息,对目标文本进行语句分析,语句处理模型140基于语句分析的分析结果,确定目标语句,目标语句即是针对目标提问语句的解答信息。可选地,服务器120将得到的目标语句发送给终端110,终端110显示目标语句。
值得注意的是,上述终端包括但不限于手机、平板电脑、便携式膝上笔记本电脑、智能语音交互设备、智能家电、车载终端等移动终端,也可以实现为台式电脑等;上述服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
其中,云技术(Cloud technology)是指在广域网或局域网内将硬件、应用程序、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
在一些实施例中,上述服务器还可以实现为区块链系统中的节点。区块链(Blockchain)是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链,本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
结合上述名词简介和应用场景,对本申请提供的语句处理方法进行说明,以该方法应用于服务器为例,如图2所示,该方法包括如下步骤。
步骤210,获取目标提问语句和目标文本。
其中,目标文本的文本内容与目标提问语句相关。
示意性的,提问语句是以疑问形式存在的语句,例如:今天的天气怎么样、或者今天的午餐是什么,目标提问语句的获取方式包括以下至少一种。
1.根据用户的输入文本获取目标提问语句。
示意性的,用户需要了解A地点的景点信息,在搜索引擎中输入“A地点的景点有哪些”的文本内容,搜索引擎将该文本内容作为目标提问语句,实现获取目标提问语句的目的。
2.根据用户对提问语句的选择确定目标提问语句。
示意性的,一款应用程序具有问题搜索功能,用户在使用该款应用程序时,该款应用程序向用户推送至少一个提问语句,用户可以从至少一个提问语句中选择目标提问语句。例如:一款应用程序为问题解答应用程序,用户在使用该款应用程序时,该款应用程序可以基于其他网络用户的搜索情况,向用户推送热度较高的至少一个提问语句,如:“ZZ电影什么时候上映”、“长期熬夜有什么害处”以及“如何治疗脱发”等,用户可以从以上提问语句中选择至少一个提问语句作为目标提问语句,如选择提问语句“ZZ电影什么时候上映”作为目标提问语句,实现目标提问语句的获取。
3.对用户的输入文本进行关键信息提取,获取得到目标提问语句。
示意性的,用户采用语音输入的方式输入一段提问语句,终端或者服务器在获取到该语音输入的提问语句时,为避免语音输入的文本可能存在的语序颠倒问题,首先对提问语句进行处理,得到提问语句中至少一条关键信息。之后,终端或者服务器基于提取到的关键信息,将提问语句转化为可以进行语句处理的目标提问语句,得到目标提问语句。
以上仅为示意性的举例,本申请实施例对此不加以限定。
在一个可选的实施例中,目标文本的获取方式包括以下至少一种。
1.在获取目标提问语句的同时,获取目标文本。
示意性的,对目标提问语句进行解答是基于目标文本进行的,目标文本为一篇阅读理解习题,目标提问语句为基于该目标文本提出的至少一个提问语句,目的是基于目标文本,通过阅读理解模型对目标提问语句进行解答,如:用户在将目标提问语句输入阅读理解模型的同时,将该目标文本输入到该阅读理解模型中,实现获取目标提问语句的同时,获取目标文本的过程。
2.基于目标提问语句获取目标文本。
考虑到在部分应用场景下,获取目标提问语句的同时无法获取目标文本,实现对目标提问语句的解答,故可以首先获取目标提问语句,基于对目标提问语句的分析,获取目标文本。可选地,用户使用搜索引擎时,基于目标提问语句获取目标文本的过程包括如下步骤。
(1)获取目标提问语句。
示意性的,用户在搜索引擎的输入框中输入目标提问语句,或者从搜索引擎的候选输入栏中选择至少一个提问语句作为目标提问语句。如:用户在搜索引擎的输入框中输入“隐私开销的含义是什么”,用于对“隐私开销”的概念进行查询,该输入内容即为目标提问语句,实现对目标提问语句的获取。
(2)将目标提问语句输入预先训练得到的文本获取模型中,得到至少一个文本。
其中,文本获取模型是预先训练得到的模型,用于从目标文本库中获取文本。可选地,目标文本库中存储有众多文本,文本既可以是已经发表的专业论文,也可以是网页信息,还可以是新闻报道等,例如:当用户从互联网上获取文本时,目标文本库可以包括互联网上的所有文本,也可以是互联网上可以被公众下载的部分文本。
示意性的,基于目标提问语句——“隐私开销的含义是什么”,将目标提问语句输入预先训练得到的文本获取模型中,文本获取模型会从目标文本库(如:互联网上的所有文本)中获取与“隐私开销的含义”相关的至少一个文本,例如,文本包括论文M和网页信息N。
(3)从至少一个文本中确定目标文本。
示意性的,在获取得到论文M和网页信息N之后,既可以将论文M作为目标文本,也可以将网页信息N作为目标文本,还可以将论文M和网页信息N同时作为目标文本,即在进行语句处理时,对论文M和网页信息N同时进行分析。
以上仅为示意性的举例,本申请实施例对此不加以限定。
可选地,目标文本的文本内容与目标提问语句相关,既包括从目标文本中提取到与目标提问语句相关的文本内容,也包括基于目标提问语句从目标文本中推导得到文本内容。
步骤220,对目标提问语句进行意图和实体分析,得到语句特征。
其中,语句特征用于指示目标提问语句中的意图和实体之间的关联关系。
对目标提问语句进行意图和实体分析的目的在于理解目标提问语句中包含的实体和意图。实体可以是目标提问语句中的字符、分词词汇或者短句,即实体的存在形式并不固定,一般是从目标提问语句中获取得到的;意图既可以是目标提问语句中的字符、分词词汇或者短句,也可以是根据目标提问语句中的语义内容概括得到的字符、分词词汇或者短句,即意图既可以通过从目标提问语句中直接获取得到,也可以通过对目标提问语句进行分析得到,如:经过预先训练好的意图提取模型提取得到目标提问语句的意图。
示意性的,目标提问语句为“支气管炎如何根治”,对该目标提问语句进行意图和实体分析,得到的意图为“如何应对”,得到的实体为“支气管炎”。通过得到的意图和实体,能够较为准确的得到目标提问语句中意图和实体之间的关联关系,即语句特征。
步骤230,对目标文本中的语句进行语义分析,得到语句对应的语义信息。
其中,语义信息用于指示语句的话题信息。
示意性的,目标文本中包括至少一个语句,当目标文本为一篇论文时,对目标文本中的语句进行分析,即对该论文的若干论文语句分别进行分析;当目标文本为两篇网页新闻时,对目标文本中的语句进行分析,即对两篇网页新闻中的若干新闻语句分别进行分析,基于对目标文本中若干语句分别进行分析,得到若干语句对应的语义信息。通过语义信息,可以对语义信息对应的语句的话题内容进行确定,例如:语句为“目前常用的治疗感冒的药物包括X冲剂、Y胶囊”,通过对该语句进行语义分析,得到的语义信息为“疾病治疗方法”,该语义信息指示了该语句的主题围绕“疾病治疗”展开。
在一个可选的实施例中,对目标文本中的语句进行话题识别,得到语句对应的至少一个话题表示;对至少一个话题表示进行向量映射,得到至少一个话题特征;对至少一个话题特征进行特征融合,得到语句对应的语义信息。
其中,话题表示用于指示语句的主题。
话题识别是通过对语句进行分析,获取语句中所表达的话题信息的一种分析方式。可选地,话题识别采用预先训练好的话题识别模型,将目标文本输入预先训练好的模型中,模型对目标文本进行分句处理后得到至少一条语句,再对至少一条语句进行话题识别,得到的识别结果即为至少一条语句对应的话题表示;或者,对目标文本中对语句进行分词处理,得到至少一个分词词汇,根据分词词汇的出现频率或者在语句中权重比例,得到话题表示。对于不同的语句,话题识别后得到的话题表示也会存在差异,根据话题表示的不同,语句对应的语义信息至少包括以下几种情况。
1.对语句进行话题识别后,得到一个话题表示。
示意性的,对目标文本中的语句进行分词处理后,根据分词词汇在语句中的权重比例确定话题表示。例如:目标文本为一则包括3条诊疗语句的诊疗文本,其中一条诊疗语句为“建议患者去骨科专科就诊”,通过对该诊疗语句进行分词处理,得到四个分词词汇分别为:建议、患者、骨科专科、就诊,分词词汇中权重比例符合话题表示标准的分词只有“骨科专科”,故可以将“骨科专科”作为话题表示,对唯一的话题表示进行向量映射,得到唯一的话题特征后,将该话题特征作为语句对应的语义信息。
2.对语句进行话题识别后,得到至少两个话题表示。
可选地,将目标文本输入预先训练得到的话题预测模型中,得到目标文本中语句对应的至少一个候选话题表示,至少一个候选话题表示对应一个话题预测概率;基于话题预测概率,从至少一个候选话题表示中确定至少一个话题表示。
示意性的,在得到目标文本后,将目标文本输入话题预测模型中(如BERT模型,Bidirectional Encoder Representation from Transformers),其中,话题预测模型为预先训练好的模型,话题预测模型对目标文本进行分句处理后,对语句进行话题识别,得到多个候选话题表示。根据候选话题表示得到语义信息包括如下至少一种方法。
(1)对所有候选话题表示进行向量映射和特征融合,得到语句对应的语义信息。
示意性的,当对目标文本中的语句进行话题识别后,得到多个候选话题表示,将每一个候选话题表示都作为话题表示,对每一个话题表示进行向量映射,得到每一个话题表示对应的话题向量,对每一个话题向量进行特征融合,得到语句对应的语义信息。
(2)基于话题预测概率,从至少两个候选话题表示中确定话题表示,对所有话题表示进行向量映射和特征融合得到语句对应的语义信息。
其中,话题预测概率用于指示候选话题表示可以作为话题表示的条件,既可以是预先设定的话题预测概率的数值标准(如:预先设定将话题预测概率超过0.6的候选话题表示作为话题表示),也可以选择话题预测概率中数值较高的至少一个候选话题表示(如:选择话题预测概率中数值最高的候选话题表示作为话题表示;或者,选择话题预测概率中数值最大的三个候选话题表示作为话题表示等)。基于确定的话题表示,对确定的话题表示进行向量映射,得到话题表示对应的话题向量,再对话题向量进行特征融合,得到语句对应的语义信息。
示意性的,当对目标文本中的语句进行话题分析后,得到多个候选话题表示以及每一个候选话题表示对应的话题预测概率,之后,对话题预测概率进行降序排序得到排序结果,预先设定选择排序结果中位于前三个的话题预测概率对应的候选话题表示,将三个候选话题表示作为话题表示,再对每一个话题表示进行向量映射,得到三个话题向量,对三个话题向量进行特征融合,得到语句对应的语义信息。例如:目标文本为一篇医学杂志上的文章,文章中包括多条医学语句,其中一条医学语句为“红细胞容量较少的贫血患者应当多食用蛋白质含量较高的食物,以防止头晕、乏力甚至休克的情况发生”,通过原先训练得到的话题预测模型对该医学语句进行话题识别,得到的识别结果中包含四条候选话题表示,分别为:病因、疾病名称、应对方法、症状内容描述,以及四条候选话题表示分别对应的话题预测概率,话题预测概率分别为:0.32、0.77、0.81、0.68。对话题预测概率进行降序排序,基于降序排序结果,选择话题预测概率最高的三个候选话题表示作为话题表示,即将“应对方法”、“疾病名称”以及“症状内容”作为话题表示,再对每一个话题表示进行向量映射,得到三个话题向量,对三个话题向量进行特征融合,得到语句对应的语义信息。
以上仅为示意性的举例,本申请实施例对此不加以限定。
在一个可选的实施例中,将话题表示编码为固定维数的话题向量,采用将话题向量输入模型中的方式,得到语句对应的语义信息。
其中,模型既可以是预先训练得到的,也可以是在输入候选语义向量的过程中训练得到的。示意性的,话题向量最开始以初始化形式表示,随着话题向量的输入,模型的参数实现更新,并最终通过话题向量学习到语句对应的语义信息。
步骤240,基于语句特征与语义信息,对目标文本进行语句分析,得到目标文本中的目标语句。
其中,目标语句用于作为目标提问语句的解答语句。
语句特征用于指示意图和实体之间的关系,语义信息用于指示目标文本中语句的语义信息,结合语句特征和语义信息对目标文本进行分析,是在充分分析目标提问语句的基础上,对目标文本进行更全面分析的过程。
示意性的,目标语句是从目标文本中提取得到的。对目标文本进行语句分析的目的在于从目标文本中提取与目标提问语句相关的短语、语句或者段落等文本内容,通过单独提取或者汇总提取的方法得到目标语句,目标语句中可以包括多条目标文本中的语句。
可选地,对目标文本进行语句分析,得到语句分析结果,语句分析结果中包括目标文本中的语句属于解答语句开始位置的第一概率或结束位置的第二概率;获取第一概率和第二概率符合概率要求的语句,作为目标文本的目标语句。
其中,语句分析结果用于指示被分析的语句是针对目标提问语句的解答语句的概率。示意性的,对目标文本中的每个语句进行语句分析时,计算当前被分析的语句与目标提问语句之间的关系(如:相似度关系、上下位关系、权重比例关系等),根据计算结果,确定每条语句是解答语句的概率,解答语句即针对目标提问语句的回答。
可选的,设定解答语句中只包括一条语句时,直接将最大概率对应的语句确定为解答语句;或者,设定解答语句中语句的数量不固定,既可以选择将概率超过预设的概率阈值的语句确定为解答语句,也可以在计算每条语句是解答语句的概率时,结合其他语句的分析结果,确定当前分析语句是开始位置的第一概率以及当前分析语句是结束位置的第二概率,基于第一概率与第二概率的计算结果,可以将第一概率最大的语句确定为解答语句的开始位置,并将第二概率最大的语句确定为解答语句的结束位置,从而确定解答语句。
示意性的,目标文本为一份包括四条语句的病例,目标提问语句为“脱发会遗传吗”,基于对目标提问语句进行分析得到的意图信息为“遗传性”,实体信息为“脱发”,对该病例进行语义分析得到的该病历对应的语义信息,对该病历中对四条语句分别进行语句分析,预先设定选择概率最大的语句为解答语句,得到第一条至第四条语句是解答语句的概率分别为0.51、0.68、0.32、0.66,将概率0.68对应的第二条语句作为解答语句;或者,预先设定选择开始位置与结束位置概率最大的语句作为解答语句,第一条至第四条语句是开始位置的概率分别为0.12、0.34、0.66、0.21,第一条至第四条语句是结束位置的概率分别为0.28、0.52、0.35、0.81,则将第三条和第四条语句作为目标提问语句的解答语句。
可选地,根据最大第一概率和最大第二概率判断解答语句的开始位置和结束位置时,可能存在开始位置位于结束位置之后的情况,基于此种情况的发生,既可以重新对语句进行语句分析,也可以基于最大第一概率寻找在当前位置之后的最大第二概率,还可以基于最大第二概率寻找在当前位置之前的最大第一概率等,以上仅为示意性的举例,本申请实施例对此不加以限定。
综上所述,本实施例提供的方法中,首先获取目标提问语句和目标文本,之后分别对目标提问语句和目标文本进行分析,分析方式包括:对目标提问语句进行意图和实体分析,得到能够表示目标提问语句中意图和实体之间关联关系的语句特征;对目标文本中的语句进行语义分析,得到能够指示目标文本不同语句所包含主题的语义信息。最后,基于得到的语句特征和语义信息,对目标文本进行语句分析,从而确定目标文本中能够解答目标提问语句的解答信息,即目标语句。通过以上方法,能够使获取到的语句特征更具有针对性,也可以更深度地融合目标文本的语义信息,避免语义信息和其他无关信息进行匹配所引起的效率低下的问题,使得从目标文本中获取得到目标语句的过程效率更高、得到的目标语句的准确率更高。
在一个可选的实施例中,通过知识图谱的方式实现对目标提问语句进行意图和实体分析的过程。示意性的,如图3所示,上述图2所示出的实施例中的步骤220还可以实现为如下步骤310至步骤330。
步骤310,对目标提问语句进行意图分析,得到目标提问语句对应的意图信息。
在一个可选的实施例中,将目标提问语句与意图信息表进行匹配,得到匹配结果,匹配结果用于指示目标提问语句与意图信息表的对应关系;基于匹配结果,将意图信息表中的至少一个参考意图信息作为目标提问语句对应的意图信息。
其中,意图信息表中包括标注有意图标签的参考意图信息。意图分析的目的在于获取得到目标提问语句中意图信息,示意性的,可以采用将目标提问语句与意图信息表进行比对的方式获得意图信息。可选地,意图信息表是对已有数据库中的多个数据分析得到的参考意图信息;或者,意图信息表是根据网络上多个用户的搜索历史汇总得到的参考意图信息,其中包括多个用户的搜索历史等。可选地,意图信息表可以根据搜索历史的领域不同,划分为多个领域,例如:教育领域、游戏领域、娱乐领域、医疗领域等,多个领域之间可能存在交叉,如:一条搜索历史为“哪所大学的医学院最好”,该搜索历史既可以被纳入教育领域,也可以被纳入医疗领域,还可以同时纳入教育领域和医疗领域。在意图分析时,既可以采用汇总得到的意图信息表(即:不区分意图信息表中参考意图信息的领域),也可以对目标提问语句进行预分析,确定目标提问语句的领域后,选择与目标提问语句领域相同的意图信息表,如教育意图信息表、医疗意图信息表等。
在对目标提问语句进行意图分析后,得到意图信息包括至少以下几种方法。
1.将目标提问语句与意图信息表进行匹配,得到意图信息。
示意性的,将目标提问语句直接与意图信息表进行匹配,根据意图信息表中与目标提问语句相同或者相似的参考意图信息,确定目标提问语句的意图信息。例如:目标提问语句为“XX人民医院在哪里”,将该目标提问语句与意图信息表进行匹配,得到的参考意图信息为“医院位置信息”,将“医院位置信息”作为意图信息。
2.根据目标提问语句与意图信息表的匹配结果差异,细化匹配结果,得到意图信息。
示意性的,在得到意图信息表时,根据意图信息表中内容的差异,对意图信息表进行不同程度的划分。例如:意图信息表为参考意图信息的集合,针对医疗意图信息表,设定参考意图信息中存在意图级别关系,如:设定参考意图信息中包括一级意图和二级意图,一级意图与二级意图呈现包含关系,即当目标提问语句符合一级意图时,确定目标提问语句符合一级意图下的某个二级意图,如:参考意图信息为“糖尿病是什么引起的”,意图信息表中该参考意图信息对应的一级意图为“疾病”,一级意图“疾病”下还包括如“内容描述”、“如何应对”、“病因”等二级意图,当A用户提出的目标提问语句为“糖尿病是什么引起的”,首先将目标提问语句与意图信息表进行匹配,得到的匹配结果为一级意图“疾病”,之后,将目标提问语句与一级意图“疾病”下多个二级意图进行匹配,得到的匹配结果为“病因”,将“病因”作为目标提问语句“糖尿病是什么引起的”对应的意图信息。
可选地,在将目标提问语句与意图信息表进行匹配时,既可以按照一级意图到二级意图的顺序进行依次判断,也可以根据目标提问语句直接确定二级意图,进而得到意图信息。其中,对意图信息表进行一级意图与二级意图划分的目的在于细化匹配结果,使得得到的匹配结果能够更准确地体现意图信息,一级意图与二级意图的设定并非固定不变的,可以只设定一级意图,也可以继续设定三级意图、四级意图等。可选地,既可以对所有的参考意图信息进行意图级别划分,也可以只对部分参考意图信息进行意图级别划分,即可以存在只有一级意图,没有二级意图的情况。
示意性的,如表1所示,为医疗意图信息表的部分截取,表1中的“示例”为参考意图信息中的部分文本信息,同一个参考意图信息可能对应一个或者多个一级意图。表1中的一级意图下的“其他”用于涵盖与医学知识不相关或者关联度不高的参考意图信息。
表1
可选地,设定医疗意图信息表时,只有当一级意图为“疾病”或者“症状”时,才设定参考意图信息的二级意图。当一级意图为“疾病”时,“疾病”的二级意图如表2所示。表2中的一级意图下的“无意图”用于指示该参考意图信息并没有着重强调用户的需求,可以是不具有情感倾向但与一级意图“疾病”相关的分词词汇,如“糖尿病”;表2中的一级意图下的“其他”用于涵盖与一级意图“疾病”相关但无法准确划分“二级意图”的参考意图信息。
表2
步骤320,对目标提问语句进行实体抽取,得到目标提问语句对应的第一实体信息。
实体抽取是将目标提问语句中具体的某一实体抽取出来。示意性的,当目标提问语句为一则医疗提问语句时,经过实体抽取后得到的实体可能包括:疾病、症状、药品、检查检验、科室、部位等。
在一个可选的实施例中,对目标提问语句进行分词处理,得到至少一个分词词汇;通过预先训练的实体抽取模型对分词词汇进行实体分析,得到第一实体信息。
其中,实体抽取模型中包括标注有实体标签的至少一个实体词。
示意性的,对目标提问语句进行实体抽取是通过对目标提问语句进行分词处理的方式实现的。分词处理是对目标文本中的字符进行处理,使得至少一个字符组成具有一定含义的分词词汇形式。示意性的,目标文本为一篇小说,可以采用字符划分方法对目标文本中的字符进行分词处理,即依照字符在目标文本中出现的顺序,将至少一个字符组合成分词词汇。例如:预设两个字符为一个分词词汇的组成方式,对目标文本中的字符进行分词处理。可选地,在进行分词处理时,可以将字符依照目标文本中出现的顺序输入到已经训练好的模型中进行分词处理,如词典分词模型、隐马尔科夫模型(Hidden Markov Model,HMM)、长短时记忆模型(Long Short-Term Memory,LSTM)等,得到词汇表意更清楚的分词词汇。
可选地,在得到分词词汇后,可以将多个分词词汇输入预先训练的实体抽取模型中,得到第一实体信息。得到第一实体信息包括如下至少一种方法。
1.根据实体提取模型中的实体标签,确定第一实体信息。
示意性的,实体抽取模型中预先存储多个实体词,每一个实体词上标注有实体标签,将得到的分词词汇与实体抽取模型中的多个实体词进行匹配,根据实体提取模型中的实体标签,将与实体词匹配成功的分词词汇确定为第一实体信息。
2.对每个分词词汇在目标提问语句中的权重进行分析。例如:目标提问语句为“荨麻疹要注意什么”,将该目标提问语句进行分词处理后得到的分词词汇包括“荨麻疹”、“要”、“注意”、“什么”,之后,将分词词汇输入预先训练的实体抽取模型中,得到每个分词词汇在目标提问语句中的权重结果,分别为0.92、0.18、0.66、0.32,根据权重结果,可以确定目标提问语句中的第一实体信息。一条目标提问语句的第一实体信息既可以只有一个,也可以包括多个。此外,既可以将权重结果超过预先设定的权重阈值的分词词汇作为第一实体信息,也可以将权重结果最高的至少一个分词词汇作为第一实体信息。
步骤330,基于意图信息和第一实体信息,得到语句特征。
其中,语句特征用于指示目标提问语句中的意图和实体之间的关联关系。
在一个可选的实施例中,将意图信息和第一实体信息与知识图谱进行匹配,得到知识图谱中与意图信息和第一实体信息对应的第二实体信息;基于意图信息、第一实体信息和第二实体信息,确定语句特征。
其中,知识图谱是结构化的语义知识库,用于描述某一领域的知识或者所有领域的知识之间的概念及其相互关系。根据知识图谱的应用深度,可以将知识图谱分成两大类,如:通用知识图谱,用于解决科普类、常识类的问题;或者行业知识图谱,用于针对某个行业或者细化领域的深入研究而定制的版本,主要解决当前行业或细分领域的专业问题。可选地,知识图谱可以采用思维导图或者树状图代替。
知识图谱以节点和关系的形式呈现,其中节点代表了实体信息,关系代表了意图信息。示意性的,知识图谱中相同的意图信息可能存在多种不同的对应关系,以医疗知识图谱为例,医疗知识图谱中的实体信息和意图信息可以从医疗百科、医疗网站等挖掘得到。如表3所示,是意图与对应关系的“意图—关系映射表”。如图所示,相同的意图信息可能存在多种不同的对应关系,如:当一级意图为“疾病”、二级意图为“如何应对”时,对应关系既可以是“治疗”,也可以是“检查检验”,还可以是“别名”。
表3
在一个可选的实施例中,知识图谱采用三元组形式描述实体信息之间以及实体信息与意图信息之间的关系,实体信息包括第一实体信息与第二实体信息。第二实体信息为与第一实体信息存在意图关系的实体信息,意图关系为意图信息所指示的关系。
示意性的,三元组形式表现为:第一实体信息——意图信息——第二实体信息,以医疗知识图谱为例,实体信息与意图信息的关系如图4所示。
在图4中,关系(边)代表意图信息,在对目标提问语句410进行意图分析和实体抽取后得到分析结果420,分析结果420中包括第一实体信息和意图信息,第一实体信息为“糖尿病”,意图信息为“症状”。之后,基于医疗知识图谱430上的节点“糖尿”以及关系“症状”(图中用节点表示),获得第二实体信息,第二实体信息包括:“消瘦、多饮、乏力、视物不清”。通过三元组形式获取得到的信息可以用于表示:糖尿病的症状包括消瘦、多饮、乏力和视物不清。
可选地,从知识图谱中获取得到的实体信息(包括第一实体信息和第二实体信息)和意图信息表现为离散化的节点形式,为了便于进行意图识别和实体抽取的分析过程,可以将离散化的实体信息和意图信息进行编码。
在一个可选的实施例中,将意图信息、第一实体信息和与意图信息对应的第二实体信息组成至少两组候选三元组;获取意图信息的意图向量、第一实体信息的第一实体向量以及第二实体信息的第二实体向量;从至少两组候选三元组中确定目标三元组,目标三元组对应的意图向量、第一实体向量和第二实体向量符合向量拼接要求;基于目标三元组对应的意图向量、第一实体向量和第二实体向量之间的拼接关系,得到语句特征。
其中,拼接要求是指意图向量、第一实体向量和第二实体向量之间符合拼接标准。示意性的,采用TransE(Translating Embeddings)知识表示模型对意图向量、第一实体向量和第二实体向量进行分析,第一实体向量采用h表示,意图向量采用r表示,第二实体向量采用t表示,由于第一实体向量h、意图向量r和第二实体向量t之间存在关联关系,可以将意图向量r看做是第一实体向量h到第二实体向量t的翻译,如图5所示,尽可能使得h+r与t相等,即符合拼接要求,将该三元组视为一个正确的三元组。
综上所述,获取目标提问语句和目标文本后对目标提问语句进行意图和实体分析,得到语句特征,对目标文本中的语句进行语义分析,得到语义信息,基于得到的语句特征和语义信息,对目标文本进行语句分析,从而确定包含解答信息的目标语句。通过对目标提问语句进行意图和实体分析,能够使得语句特征更具有针对性,通过对目标文本中进行语义分析,可以更深度地融合目标文本的语义信息,使得获取得到解答信息的过程效率更高、得到的解答信息的准确率更高。
本实施例提供的方法中,通过将目标提问语句和预先整理得到的意图信息表进行匹配,可以更快速地得到目标提问语句对应的意图信息,其中涉及的意图级别(一级意图、二级意图)也有助于更精准地体现目标提问语句与意图信息表之间的关系;通过对目标提问语句进行实体抽取,可以得到目标提问语句中包含的第一实体信息,基于第一实体信息、意图信息以及知识图谱得到第二实体信息,之后基于三元组(第一实体信息、意图信息、第二实体信息)之间的关系得到语句特征,可以在对目标文本进行分析时获得相对较小的比较范围,避免了随机选取文本知识稳定性较差的问题,提高语句处理的准确率。
在一个可选的实施例中,对目标文本的文本信息进行获取,将全文的文本信息应用于语句处理方法中,会得到更好的语句处理效果。示意性的,如图6所示,上述图2所示出的实施例中的步骤240还可以实现为如下步骤640至步骤650。
步骤610,获取目标提问语句和目标文本。
其中,目标文本的文本内容与目标提问语句相关。
步骤610中关于获取目标提问语句和目标文本的描述已在上述步骤210中进行详细说明,此处不再赘述。
步骤620,对目标提问语句进行意图和实体分析,得到语句特征。
其中,语句特征用于指示目标提问语句中的意图和实体之间的关联关系。
步骤620中关于对目标提问语句进行意图和实体分析的描述已在上述步骤220以及步骤310至步骤320中进行了详细说明,此处不再赘述。
步骤630,对目标文本中的语句进行语义分析,得到语句对应的语义信息。
其中,语义信息用于指示语句的话题信息。
可选地,步骤630中关于对目标文本中的语句进行语义分析得到语义信息的描述,已在上述步骤230中进行详细说明,此处不再赘述。
步骤640,对目标文本进行文本特征提取,得到目标文本的文本信息,文本信息用于指示目标文本的信息。
示意性的,采用预先训练的BERT模型,基于目标提问语句对目标文本进行文本特征提取,例如:对目标文本进行文本特征提取是通过向量编码的方式实现的,将目标文本和目标提问语句输入预先训练的BERT模型中,经过三个嵌入层得到目标文本的文本信息。其中,三个嵌入层分别为将词向量编码层(tokenembedding)、段编码层(segmentembedding)以及位置编码层(positionembedding),tokenembedding用于将目标文本中的各个分词词汇转换成固定维度的向量;segmentembedding用于判断目标文本中的句子对的语义是否相似;positionembedding用于确定目标文本中不同序列的位置信息。经过预先训练的BERT模型后得到的文本信息更加详细,更适合终端、服务器等进行语句处理的分析过程。
步骤650,基于语句特征、文本信息和语义信息对目标文本进行语句分析,得到目标文本中的目标语句。
其中,语句特征在对目标提问语句进行意图和实体分析得到的分析结果;文本信息是对目标文本进行文本特征提取得到的分析结果;语义信息是对目标文本中的语句进行语义分析得到的分析结果。基于上述分析过程,能够从目标文本与目标提问语句得到更精准的信息。
在一个可选的实施例中,对语句特征与文本信息进行融合,得到融合特征;将融合特征和语义信息进行拼接,得到拼接特征;基于拼接特征对目标文本进行语句分析,得到目标文本中的目标语句。
示意性的,用户在搜索引擎中输入目标提问语句,搜索引擎基于目标提问语句在文本库中选择了一篇与目标提问语句高度相关的文本作为目标文本,基于对目标提问语句进行意图分析和实体抽取后得到语句特征,通过语句特征可以知悉用户的潜在意图(即:意图信息)以及实体信息(既包括直接从目标提问语句中获取得到的第一实体信息,也包括基于第一实体信息和意图信息间接获取的第二实体信息);基于对目标文本进行文本特征提取,得到目标文本的文本信息,通过文本信息可以对目标文本进行更详细的分析。将语句特征和文本信息进行融合得到的融合特征,是在对目标文本进行分析的基础上,结合语句特征中包含的众多相关领域的知识信息得到的。例如:目标提问语句为“哪些人比较容易感冒”,将检索得到一篇有关感冒的医学文章作为目标文本。对目标提问依据经过意图分析得到的意图信息为“易感人群”,经过实体抽取得到的第一实体信息为“感冒”,基于意图信息和第一实体信息,得到的第二实体信息包括“老年人”、“孕妇”、“小孩”等,基于意图信息、第一实体信息以及第二实体信息,也得到多个语句特征。将语句特征与目标文本对应的文本信息进行融合,是为了利用语句特征对应的背景信息对目标文本中所包含的文本信息进行进一步丰富。
语义信息是对目标文本中的语句进行语义分析得到的分析结果,可以更简要地概括语句对应的话题信息。可选地,在得到融合特征后,将融合特征与语义信息进行拼接,既可以将语义信息拼接在融合特征之后,也可以将语义信息拼接在融合特征之前,得到的拼接特征。示意性的,对拼接特征进行自注意力匹配,使得拼接特征进一步融合目标文本和与目标提问语句相关的背景信息,之后对目标文本的语句分析过程,确定目标语句的开始位置与结束位置,从而得到目标文本中的目标语句,实现对目标提问语句的解答过程。
综上所述,获取目标提问语句和目标文本后对目标提问语句进行意图和实体分析,得到能够表示目标提问语句中意图和实体之间关联关系的语句特征,对目标文本中的语句进行语义分析,得到能够指示目标文本不同语句所包含主题的语义信息,基于得到的语句特征和语义信息,对目标文本进行语句分析,从而确定包含解答信息的目标语句。通过对目标提问语句进行意图和实体分析,能够使得语句特征更具有针对性,通过对目标文本中进行语义分析,可以更深度地融合目标文本的语义信息,使得获取得到解答信息的过程效率更高、得到的解答信息的准确率更高。
本实施例提供的方法中,通过对目标文本进行文本特征提取得到目标文本对应的文本信息,可以更全面地分析目标文本全文的语义关系,在对目标文本进行语句分析时,不仅考虑目标提问语句的语句特征和目标文本中语句的语义特征,更将目标文本的文本信息融入语句分析过程中,实现在充分考虑目标文本全文语义的基础上,根据目标提问语句和目标文本确定目标语句的过程,有效提高通过语句分析得到目标提问语句对应回答的过程。
在一个可选的实施例中,将语句处理方法应用于医疗领域,采用两部分内容对语句处理方法进行实现,两部分内容包括:一、基于医疗知识对目标提问语句及目标文本进行分析;二、对目标文本的语句进行话题分析。将上述两部分内容融入对医疗领域的目标提问语句进行分析的分析模型中,在对分析模型进行优化训练的同时得到针对目标提问语句的解答语句。如图7所示。
一、基于医疗知识对问题及给定文本进行分析。
其中,医疗知识既可以从医疗知识库中获取,也可以基于树状医疗知识结构图获取,还可以通过医疗知识图谱进行获取。可选地,将医疗知识图谱融入分析模型中,实现对分析模型对优化。
在一个可选的实施例中,基于医疗知识对目标提问语句及目标文本进行分析的方案包括如下五个步骤。
步骤710,问题理解(包括:意图识别和实体抽取)。
问题理解的目标是理解用户的需求,找到用户所提出问题的核心思想。可选地,对用户的问题进行结构化理解,提取出问题中涉及的实体以及潜在的意图。其中,实体抽取是对问题中提到的某一个或者几个具体实体进行抽取,示意性的,实体可细分为疾病、症状、药品、检查检验、科室、部位等类别。而意图识别的目标是根据识别得到的用户需求,更有目的查找用户需要的信息。可选地,根据医疗意图信息表定义的意图信息表(如表1或表2中指示的内容),对用户提出的问题进行理解分类,映射到具体的意图上,即得到用户的意图。比如“糖尿病怎么治疗”,用户想查找的实体是“糖尿病”,意图是“疾病/治疗方法”。
在一个可选的实施例中,实体抽取属于序列标注问题,意图识别属于分类问题,上述意图识别和实体抽取的过程可以通过已经训练好的多任务识别模型实现,如图8所示,是BERT多任务识别模型进行识别过程的示意图。其中,输入问题810为“糖尿病是什么引起的”,CLS820是单词分类(Classification)的缩写,默认位于句子的首尾,用于聚集所有的分类信息,E1、E2、EN等用于指示对问题进行识别后得到的向量,经过BERT模型830后,得到对意图和实体识别的结果,其中,意图识别的结果840为“疾病、病因”,实体识别的结果850为“糖尿病”(采用黑色加粗字体与其他非实体文本进行区别)。
步骤720,图谱边映射。
在一个可选的实施例中,医疗知识图谱是从医疗百科,医疗网站挖掘得到的信息总和,其中包含了6万多个实体,可以组成40万个以上的三元组,三元组中包括实体1、关系,实体2。其中,主要有6类关系类型,分别是别名(alternateName)、症状(symptom)、治疗(usedToTreat)、检查检验(diseasemedicalExamination)、科室(diseasedepartment)、病因(cause)。实体在图谱中是以节点形式存储,每种关系则是以边的形式存储。根据意图信息辅助确定三元组的范围,进而确定问题对应的答案。例如:医疗知识图谱中有三元组(糖尿病,usedToTreat,胰岛素),当用户问题为糖尿病的治疗方法时,文本片段若包含“胰岛素”,则该文本片段为答案的可能性更大。基于这种假设,每种意图可以明确对应到一些图谱关系,可选地,采用None表示无对应关系。因此,人工定义了意图与图谱边的映射关系表,即意图—关系映射表(如表3所示)。在意图识别时可以通过查询意图—关系映射表,得到每种意图对应的图谱边,方便根据实体1和意图确定对应的实体2。
步骤730,实体关联。
在解析出问题的意图和实体1后,从医疗知识图谱上寻找实体1对应的节点,以及意图对应的边(或采用节点表示意图),把医疗知识图谱中其他与实体1相关联的,关系为意图的实体2筛选出来,作为问题中与实体1关联的候选实体,用于后续引入模型的知识。比如问题为“糖尿病晚期症状是什么”,解析得到的实体1为“糖尿病”,意图为“疾病/症状”(对应图谱中的边),因此,将医疗知识图谱中与“糖尿病”相邻且关系为意图的节点筛选出来,作为实体编码过程的输入。示意性的,如图4所示,即为图谱中实体关联的示意图。
步骤740,向量转换。
从医疗知识图谱中关联得到的实体是离散化的节点,无法直接引入模型。参考word2vec模型的方式,采用知识表示模型对实体进行编码,使用分布式向量(实体embedding)来表示实体。可选地,采用了TransE知识表示模型的训练方式,将医疗知识图谱中的实体和关系转化为分布式向量表示,将每个三元组实例(实体1、意图、实体2)中的关系看做从实体1到实体2的翻译,通过训练使得训练出来的向量,尽可能满足实体1对应的向量和意图对应的向量之和,与实体2对应的向量相等,实体1采用h(head)表示;意图采用r(relation)表示;实体2采用t(tail)表示,即满足h+r≈t的关系,如图6所示。
步骤750,模型融入。
示意性的,如图9所示,是进行语句处理方法的一种可选的语句处理模型。编码层910用于通过原先训练好的语言表示模型中(如:BERT模型)捕捉问题和给定文本的上下文信息;背景知识KB(Knowledge Background)920是对问题进行意图识别和实体抽取后得到的三元组向量,是基于问题从医疗知识图谱中提取得到的三元组向量集合,可以视为基于问题得到的背景信息,这部分信息不仅与问题高度相关,还在一定程度上辅助对目标文本的分析过程;知识融合层930用于将KB中三元组向量集合与BERT模型输入的上下文语义进行融合,使得预训练模型不仅掌握给定文本和问题的上下文信息,还具有一定的背景知识,如图9中虚线框所示,哨兵向量是指不引入外部知识的一个空白向量,目的是与KB向量进行区别,同时,将BERT向量输入激活函数931中(如:softmax函数),使得BERT向量归一化,之后将归一化的BERT向量和KB向量通过注意力机制932进行融合,得到新向量,作为自注意力匹配层940的输入之一;自注意力匹配层940用于进一步融合给定文本的上下文信息和背景知识;输出层950用于提取给定文本中的语句并确定被提取语句的开始位置和结束位置,从而更准确地通过模型输出问题对应的解答语句,解答语句属于目标文本。
在一个可选的实施例中,针对给定的阅读内容和结构化知识(上述过程中的实体1与实体2),分别利用语言表示模型(BERT)和知识表示模型(TransE)对两者进行编码,得到相应的文本表示和知识表示。接下来,利用注意力机制从知识图谱中自动筛选并整合与阅读内容高度相关的知识。最后,通过双层自注意力匹配,实现文本表示和知识表示的深度融合,提升答案边界预测的准确性。
二、对给定文本的语句进行话题分析。
在构建语句处理模型前,通过对数据进行统计分析,发现给定文本中的句子话题与用户问题的意图存在较为直接的映射关联,示意性的,通过对给定文本中句子的话题进行识别,得到不同句子的话题表示,把句子话题对应的语义知识融入到语句处理模型中可以提高答案的匹配效果。可选地,在图9的基础上,将句子话题对应的语义知识融入到语句处理模型中,得到另一种可选的语句处理模型,如图10所示,将句子话题对应的语义知识融入到另一种可选的语句处理模型中,主要包括以下3个步骤。
步骤760,话题识别。
话题识别1010的目标是用话题表示句子所表达的语义内容,辅助确定问题对应的解答信息。示意性的,采用BERT模型进行话题分类,将给定文本的每个句子打上话题信息,由于每个句子可能有多个话题,可以选取模型预测的前三个话题类别作为句子的话题。比如“引起牙疼痛可能是龋病,可服用止疼药暂时缓解疼痛”的话题为“疾病症状应对方法”和“疾病症状病因”;或者“目前常用的抗结核药物包括……”的话题为“疾病症状应对方法”。
步骤770,话题知识表示。
对于每个句子识别出来的句子话题,通过话题矩阵1020将话题编码成固定维数的话题向量,加入到模型中。每个话题的向量表示一开始是随机初始化,随着模型训练改变,最终通过数据学习到句子对应的语义表示。
步骤780,话题知识融合过程。
示意性的,在得到句子对应的语义表示后,确定唯一的句子话题1030,将句子话题1030拼接在经过知识融合层得到的实体向量之后,同时,基于句子话题与问题意图之间存在较为直接的映射关系,将问题意图1040拼接在实体向量之后,并将上述拼接结果均输入至自注意力匹配层,进一步融合给定文本的上下文信息、背景知识以及句子的话题信息,最后提取给定文本中的语句并确定被提取语句的开始位置和结束位置,从而更准确地通过模型输出问题对应的解答语句。
在一个可选的实施例中,针对给定的阅读内容和结构化知识(上述过程关联的话题),分别利用语言表示模型(BERT)和话题知识表示对两者进行编码,得到相应的文本表示和知识表示。之后,利用注意力机制从知识图谱中自动筛选并整合与阅读内容高度相关的话题,拼接在实体embedding之后。最后,通过双层自注意力匹配,实现文本表示和话题向量的深度融合。
基于语句处理模型训练完毕后,可以将上述至少一种语句处理模型应用于搜索引擎、小程序、应用程序等应用场景中。示意性的,将上述语句处理模型应用于一款医学知识搜索小程序中,如图11和图12所示,用户在搜索栏1110中输入问题并触发搜索控件,终端基于用户的触发操作搜索与问题相关的医学知识。
可选地,医学知识搜索小程序既可以在连接网络时使用,也可以在离线状态下使用。不仅可以在线上问答栏1120中显示提取到的与问题相关的文本整体信息,也可以在线上问答栏1120中展示更精确的文本信息,或者利用是否有答案这一相关性因子调整文章展示结果,提升用户体验。
如图11所示,用户在搜索栏1110中输入的问题为“什么样的人不能吃内脏”,用户既可以选择“综合”,即以文本、视频、医生等形式进行综合显示,也可以选择“视频”、“医生”、“医院”等,即:答案中只显示已经选中的固定形式的内容(包括文字、视频等)。图11中线上问答栏1120显示的是原始搜索结果1121,即将检索到的文本进行整体显示;图12中线上问答栏1120显示的是摘要结果1122,即将检索到的文本进行提炼后显示,可以把文本中与问题最接近的语句精简为摘要,显示给用户,即:当搜索展示的文本标题不满足解答信息要求,但文本正文有符合的解答信息片段的情况下,可以自动提取文本正文中与问题意图相关的文本部分进行展示,将有答案片段的文本展示在搜索结果页的前面,极大提高了用户信息的获取率和搜索知识的体验良好度。
综上所述,获取目标提问语句和目标文本后对目标提问语句进行意图和实体分析,得到能够表示目标提问语句中意图和实体之间关联关系的语句特征,对目标文本中的语句进行语义分析,得到能够指示目标文本不同语句所包含主题的语义信息,基于得到的语句特征和语义信息,对目标文本进行语句分析,从而确定包含解答信息的目标语句。通过对目标提问语句进行意图和实体分析,能够使得语句特征更具有针对性,通过对目标文本中进行语义分析,可以更深度地融合目标文本的语义信息,使得获取得到解答信息的过程效率更高、得到的解答信息的准确率更高。
本实施例提供的方法中,将语句处理方法应用于医疗领域。在医疗场景下,大量权威和海量的医疗知识出现在医学期刊、指南、百科等各种不同的来源中,且在提取医疗知识时,较少存在唯一客观答案(例如:是或否、能治愈或不能治愈),通常要综合考虑病人情况、病情发展等情况,给出建议或治疗方案。因此,答案往往包含较为详细的上下文背景信息,以段落或句子连续片段形式出现。通过本申请实施例中的语句处理方法,可以有效限制医疗领域内与实体和意图无关或关联性较差的文本信息的干扰,从文本中提取与问题高度相关的答案信息,提高答案匹配查找的效果。
图13是本申请一个示例性实施例提供的语句处理装置的结构框图,如图13所示,该装置包括如下部分:
获取模块1310,用于获取目标提问语句和目标文本,所述目标文本的文本内容与所述目标提问语句相关;
提问语句分析模块1320,用于对所述目标提问语句进行意图和实体分析,得到语句特征,所述语句特征用于指示所述目标提问语句中的意图和实体之间的关联关系;
文本语义分析模块1330,用于对所述目标文本中的语句进行语义分析,得到所述语句对应的语义信息,所述语义信息用于指示所述语句的话题信息;
文本语句分析模块1340,用于基于所述语句特征与所述语义信息,对所述目标文本进行语句分析,得到所述目标文本中的目标语句,所述目标语句用于作为所述目标提问语句的解答语句。
如图14所示,在一个可选的实施例中,所述提问语句分析模块1320包括:
意图分析单元1321,用于对所述目标提问语句进行意图分析,得到所述目标提问语句对应的意图信息;
实体抽取单元1322,用于对所述目标提问语句进行实体抽取,得到所述目标提问语句对应的第一实体信息;
获取单元1323,用于基于所述意图信息和所述第一实体信息,得到所述语句特征。
在一个可选的实施例中,所述获取单元1323还用于将所述意图信息和所述第一实体信息与知识图谱进行匹配,得到所述知识图谱中与所述意图信息和所述第一实体信息对应的第二实体信息,所述第二实体信息为与所述第一实体信息存在意图关系的实体信息,所述意图关系为所述意图信息所指示的关系;基于所述意图信息、所述第一实体信息和所述第二实体信息,确定所述语句特征。
所述知识图谱采用三元组形式描述实体信息之间以及实体信息与意图信息之间的关系,所述实体信息包括所述第一实体信息与所述第二实体信息。
在一个可选的实施例中,所述获取单元1323还用于将所述意图信息、所述第一实体信息和与所述意图信息对应的第二实体信息组成至少两组候选三元组;获取所述意图信息的意图向量、所述第一实体信息的第一实体向量以及所述第二实体信息的第二实体向量;从所述至少两组候选三元组中确定目标三元组,所述目标三元组对应的所述意图向量、所述第一实体向量和所述第二实体向量符合向量拼接要求;基于目标三元组对应的所述意图向量、所述第一实体向量和所述第二实体向量之间的拼接关系,得到所述语句特征。
在一个可选的实施例中,所述文本语句分析模块1340还用于对所述目标文本进行文本特征提取,得到所述目标文本的文本信息,所述文本信息用于指示所述目标文本的信息;基于所述语句特征、所述文本信息和所述语义信息对所述目标文本进行语句分析,得到所述目标文本中的目标语句。
在一个可选的实施例中,所述文本语句分析模块1340还用于对所述语句特征与所述文本信息进行融合,得到融合特征;将所述融合特征和所述语义信息进行拼接,得到拼接特征;基于所述拼接特征对所述目标文本进行语句分析,得到所述目标文本中的目标语句。
在一个可选的实施例中,所述文本语句分析模块1340还用于对所述目标文本进行语句分析,得到语句分析结果,所述语句分析结果中包括所述目标文本中的语句属于解答语句开始位置的第一概率或结束位置的第二概率;获取所述第一概率和所述第二概率符合概率要求的语句,作为所述目标文本的所述目标语句。
在一个可选的实施例中,所述意图分析单元1321还用于将所述目标提问语句与意图信息表进行匹配,得到匹配结果,所述匹配结果用于指示所述目标提问语句与所述意图信息表的对应关系,所述意图信息表中包括标注有意图标签的参考意图信息;基于所述匹配结果,将所述意图信息表中的至少一个参考意图信息作为所述目标提问语句对应的意图信息。
在一个可选的实施例中,所述文本语义分析模块1330还用于对所述目标提问语句进行分词处理,得到至少一个分词词汇;通过预先训练的实体抽取模型对所述分词词汇进行实体分析,得到所述第一实体信息,所述实体抽取模型中包括标注有实体标签的至少一个实体词。
在一个可选的实施例中,所述文本语义分析模块1330还用于对所述目标文本中的语句进行话题识别,得到语句对应的至少一个话题表示,所述话题表示用于指示语句的主题;对所述至少一个话题表示进行向量映射,得到至少一个话题特征;对所述至少一个话题特征进行特征融合,得到语句对应的语义信息。
在一个可选的实施例中,所述文本语义分析模块1330还用于将所述目标文本输入预先训练得到的话题预测模型中,得到目标文本中语句对应的至少一个候选话题表示,所述至少一个候选话题表示分别对应一个话题预测概率;基于所述话题预测概率,从所述至少一个候选话题表示中确定至少一个话题表示。
在一个可选的实施例中,所述获取模块1310还用于获取所述目标提问语句;将所述目标提问语句输入预先训练得到的文本获取模型中,得到至少一个文本;从所述至少一个文本中确定所述目标文本。
需要说明的是:上述实施例提供的语句处理装置,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的语句处理装置与语句处理方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图15示出了本申请一个示例性实施例提供的服务器的结构示意图。该服务器1500包括中央处理单元(Central Processing Unit,CPU)1501、包括随机存取存储器(RandomAccess Memory,RAM)1502和只读存储器(Read Only Memory,ROM)1503的系统存储器1504,以及连接系统存储器1504和中央处理单元1501的系统总线1505。服务器1500还包括用于存储操作系统1513、应用程序1514和其他程序模块1515的大容量存储设备1506。
大容量存储设备1506通过连接到系统总线1505的大容量存储控制器(未示出)连接到中央处理单元1501。大容量存储设备1506及其相关联的计算机可读介质为服务器1500提供非易失性存储。也就是说,大容量存储设备1506可以包括诸如硬盘或者紧凑型光盘只读存储器(Compact Disc Read Only Memory,CD-ROM)驱动器之类的计算机可读介质(未示出)。
不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、带电可擦可编程只读存储器(Electrically Erasable Programmable Read Only Memory,EEPROM)、闪存或其他固态存储其技术,CD-ROM、数字通用光盘(Digital Versatile Disc,DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1504和大容量存储设备1506可以统称为存储器。
根据本申请的各种实施例,服务器1500还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1500可以通过连接在系统总线1505上的网络接口单元1511连接到网络1512,或者说,也可以使用网络接口单元1511来连接到其他类型的网络或远程计算机系统(未示出)。
上述存储器还包括一个或者一个以上的程序,一个或者一个以上程序存储于存储器中,被配置由CPU执行。
本申请的实施例还提供了一种计算机设备,该计算机设备包括处理器和存储器,该存储器中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的语句处理方法。
本申请的实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行,以实现上述各方法实施例提供的语句处理方法。
本申请的实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中任一所述的语句处理方法。
可选地,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、固态硬盘(SSD,Solid State Drives)或光盘等。其中,随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM,Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (17)
1.一种语句处理方法,其特征在于,所述方法包括:
获取目标提问语句和目标文本,所述目标文本的文本内容与所述目标提问语句相关;
对所述目标提问语句进行意图和实体分析,得到语句特征,所述语句特征用于指示所述目标提问语句中的意图和实体之间的关联关系;
对所述目标文本中的语句进行语义分析,得到所述语句对应的语义信息,所述语义信息用于指示所述语句的话题信息;
基于所述语句特征与所述语义信息,对所述目标文本进行语句分析,得到所述目标文本中的目标语句,所述目标语句用于作为所述目标提问语句的解答语句。
2.根据权利要求1所述的方法,其特征在于,所述对所述目标提问语句进行意图和实体分析,得到语句特征,包括:
对所述目标提问语句进行意图分析,得到所述目标提问语句对应的意图信息;
对所述目标提问语句进行实体抽取,得到所述目标提问语句对应的第一实体信息;
基于所述意图信息和所述第一实体信息,得到所述语句特征。
3.根据权利要求2所述的方法,其特征在于,所述基于所述意图信息和所述第一实体信息,得到所述语句特征,包括:
将所述意图信息和所述第一实体信息与知识图谱进行匹配,得到所述知识图谱中与所述意图信息和所述第一实体信息对应的第二实体信息,所述第二实体信息为与所述第一实体信息存在意图关系的实体信息,所述意图关系为所述意图信息所指示的关系;
基于所述意图信息、所述第一实体信息和所述第二实体信息,确定所述语句特征。
4.根据权利要求3所述的方法,其特征在于,
所述知识图谱采用三元组形式描述实体信息之间以及实体信息与意图信息之间的关系,所述实体信息包括所述第一实体信息与所述第二实体信息。
5.根据权利要求4所述的方法,其特征在于,所述基于所述意图信息、所述第一实体信息和所述第二实体信息,确定所述语句特征,包括:
将所述意图信息、所述第一实体信息和与所述意图信息对应的第二实体信息组成至少两组候选三元组;
获取所述意图信息的意图向量、所述第一实体信息的第一实体向量以及所述第二实体信息的第二实体向量;
从所述至少两组候选三元组中确定目标三元组,所述目标三元组对应的所述意图向量、所述第一实体向量和所述第二实体向量符合向量拼接要求;
基于目标三元组对应的所述意图向量、所述第一实体向量和所述第二实体向量之间的拼接关系,得到所述语句特征。
6.根据权利要求1至5任一所述的方法,其特征在于,所述基于所述语句特征与所述语义信息,对所述目标文本进行语句分析,得到所述目标文本中的目标语句,包括:
对所述目标文本进行文本特征提取,得到所述目标文本的文本信息,所述文本信息用于指示所述目标文本的信息;
基于所述语句特征、所述文本信息和所述语义信息对所述目标文本进行语句分析,得到所述目标文本中的目标语句。
7.根据权利要求6所述的方法,其特征在于,所述基于所述语句特征、所述文本信息和所述语义信息对所述目标文本进行语句分析,得到所述目标文本中的目标语句,包括:
对所述语句特征与所述文本信息进行融合,得到融合特征;
将所述融合特征和所述语义信息进行拼接,得到拼接特征;
基于所述拼接特征对所述目标文本进行语句分析,得到所述目标文本中的目标语句。
8.根据权利要求1至5任一所述的方法,其特征在于,所述对所述目标文本进行语句分析,得到所述目标文本中的目标语句,包括:
对所述目标文本进行语句分析,得到语句分析结果,所述语句分析结果中包括所述目标文本中的语句属于解答语句开始位置的第一概率或结束位置的第二概率;
获取所述第一概率和所述第二概率符合概率要求的语句,作为所述目标文本的所述目标语句。
9.根据权利要求2至5任一所述的方法,其特征在于,所述对所述目标提问语句进行意图分析,得到所述目标提问语句对应的意图信息,包括:
将所述目标提问语句与意图信息表进行匹配,得到匹配结果,所述匹配结果用于指示所述目标提问语句与所述意图信息表的对应关系,所述意图信息表中包括标注有意图标签的参考意图信息;
基于所述匹配结果,将所述意图信息表中的至少一个参考意图信息作为所述目标提问语句对应的意图信息。
10.根据权利要求2至5任一所述的方法,其特征在于,所述对所述目标提问语句进行实体抽取,得到所述目标提问语句对应的第一实体信息,包括:
对所述目标提问语句进行分词处理,得到至少一个分词词汇;
通过预先训练的实体抽取模型对所述分词词汇进行实体分析,得到所述第一实体信息,所述实体抽取模型中包括标注有实体标签的至少一个实体词。
11.根据权利要求1至5任一所述的方法,其特征在于,所述对所述目标文本中的语句进行语义分析,得到所述语句对应的语义信息,包括:
对所述目标文本中的语句进行话题识别,得到语句对应的至少一个话题表示,所述话题表示用于指示语句的主题;
对所述至少一个话题表示进行向量映射,得到至少一个话题特征;
对所述至少一个话题特征进行特征融合,得到语句对应的语义信息。
12.根据权利要求11所述的方法,其特征在于,所述对所述目标文本中的语句进行话题识别,得到语句对应的至少一个话题表示,包括:
将所述目标文本输入预先训练得到的话题预测模型中,得到目标文本中语句对应的至少一个候选话题表示,所述至少一个候选话题表示分别对应一个话题预测概率;
基于所述话题预测概率,从所述至少一个候选话题表示中确定至少一个话题表示。
13.根据权利要求1至5任一所述的方法,其特征在于,所述获取目标提问语句和目标文本,包括:
获取所述目标提问语句;
将所述目标提问语句输入预先训练得到的文本获取模型中,得到至少一个文本;
从所述至少一个文本中确定所述目标文本。
14.一种语句处理的装置,其特征在于,所述装置包括:
获取模块,用于获取目标提问语句和目标文本,所述目标文本的文本内容与所述目标提问语句相关;
提问语句分析模块,用于对所述目标提问语句进行意图和实体分析,得到语句特征,所述语句特征用于指示所述目标提问语句中的意图和实体之间的关联关系;
文本语义分析模块,用于对所述目标文本中的语句进行语义分析,得到所述语句对应的语义信息,所述语义信息用于指示所述语句的话题信息;
文本语句分析模块,用于基于所述语句特征与所述语义信息,对所述目标文本进行语句分析,得到所述目标文本中的目标语句,所述目标语句用于作为所述目标提问语句的解答语句。
15.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至13任一所述的语句处理方法。
16.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至13任一所述的语句处理方法。
17.一种计算机程序产品,其特征在于,包括计算机程序或指令,所述计算机程序或指令被处理器执行时实现如权利要求1至13任一所述的语句处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111253286.0A CN114281959B (zh) | 2021-10-27 | 2021-10-27 | 语句处理的方法、装置、设备、介质及计算机程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111253286.0A CN114281959B (zh) | 2021-10-27 | 2021-10-27 | 语句处理的方法、装置、设备、介质及计算机程序产品 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114281959A true CN114281959A (zh) | 2022-04-05 |
CN114281959B CN114281959B (zh) | 2024-03-19 |
Family
ID=80868737
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111253286.0A Active CN114281959B (zh) | 2021-10-27 | 2021-10-27 | 语句处理的方法、装置、设备、介质及计算机程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114281959B (zh) |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170091313A1 (en) * | 2015-09-28 | 2017-03-30 | Microsoft Technology Licensing, Llc | Domain-specific unstructured text retrieval |
CN108959627A (zh) * | 2018-07-23 | 2018-12-07 | 北京光年无限科技有限公司 | 基于智能机器人的问答交互方法及系统 |
CN111026842A (zh) * | 2019-11-29 | 2020-04-17 | 微民保险代理有限公司 | 自然语言处理方法、自然语言处理装置及智能问答系统 |
CN111125331A (zh) * | 2019-12-20 | 2020-05-08 | 京东方科技集团股份有限公司 | 语义识别方法、装置、电子设备及计算机可读存储介质 |
US20200242486A1 (en) * | 2019-01-29 | 2020-07-30 | Ricoh Company, Ltd. | Method and apparatus for recognizing intention, and non-transitory computer-readable recording medium |
CN111538894A (zh) * | 2020-06-19 | 2020-08-14 | 腾讯科技(深圳)有限公司 | 查询反馈方法、装置、计算机设备及存储介质 |
CN111553162A (zh) * | 2020-04-28 | 2020-08-18 | 腾讯科技(深圳)有限公司 | 一种意图识别的方法以及相关装置 |
CN111708874A (zh) * | 2020-08-24 | 2020-09-25 | 湖南大学 | 基于复杂意图智能识别的人机交互问答方法与系统 |
CN111930906A (zh) * | 2020-07-29 | 2020-11-13 | 北京北大软件工程股份有限公司 | 基于语义块的知识图谱问答方法及装置 |
CN112035672A (zh) * | 2020-07-23 | 2020-12-04 | 深圳技术大学 | 一种知识图谱补全方法、装置、设备以及存储介质 |
CN112131883A (zh) * | 2020-09-30 | 2020-12-25 | 腾讯科技(深圳)有限公司 | 语言模型训练方法、装置、计算机设备和存储介质 |
CN112380870A (zh) * | 2020-11-19 | 2021-02-19 | 平安科技(深圳)有限公司 | 用户意图分析方法、装置、电子设备及计算机存储介质 |
US20210110814A1 (en) * | 2017-11-02 | 2021-04-15 | Sony Corporation | Information processing device and information processing method |
WO2021139283A1 (zh) * | 2020-06-16 | 2021-07-15 | 平安科技(深圳)有限公司 | 基于深度学习技术的知识图谱问答方法、装置及设备 |
CN113254613A (zh) * | 2021-05-24 | 2021-08-13 | 深圳壹账通智能科技有限公司 | 对话问答方法、装置、设备及存储介质 |
CN113360616A (zh) * | 2021-06-04 | 2021-09-07 | 科大讯飞股份有限公司 | 自动问答处理方法、装置、设备及存储介质 |
-
2021
- 2021-10-27 CN CN202111253286.0A patent/CN114281959B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170091313A1 (en) * | 2015-09-28 | 2017-03-30 | Microsoft Technology Licensing, Llc | Domain-specific unstructured text retrieval |
US20210110814A1 (en) * | 2017-11-02 | 2021-04-15 | Sony Corporation | Information processing device and information processing method |
CN108959627A (zh) * | 2018-07-23 | 2018-12-07 | 北京光年无限科技有限公司 | 基于智能机器人的问答交互方法及系统 |
US20200242486A1 (en) * | 2019-01-29 | 2020-07-30 | Ricoh Company, Ltd. | Method and apparatus for recognizing intention, and non-transitory computer-readable recording medium |
CN111026842A (zh) * | 2019-11-29 | 2020-04-17 | 微民保险代理有限公司 | 自然语言处理方法、自然语言处理装置及智能问答系统 |
CN111125331A (zh) * | 2019-12-20 | 2020-05-08 | 京东方科技集团股份有限公司 | 语义识别方法、装置、电子设备及计算机可读存储介质 |
CN111553162A (zh) * | 2020-04-28 | 2020-08-18 | 腾讯科技(深圳)有限公司 | 一种意图识别的方法以及相关装置 |
WO2021139283A1 (zh) * | 2020-06-16 | 2021-07-15 | 平安科技(深圳)有限公司 | 基于深度学习技术的知识图谱问答方法、装置及设备 |
CN111538894A (zh) * | 2020-06-19 | 2020-08-14 | 腾讯科技(深圳)有限公司 | 查询反馈方法、装置、计算机设备及存储介质 |
CN112035672A (zh) * | 2020-07-23 | 2020-12-04 | 深圳技术大学 | 一种知识图谱补全方法、装置、设备以及存储介质 |
CN111930906A (zh) * | 2020-07-29 | 2020-11-13 | 北京北大软件工程股份有限公司 | 基于语义块的知识图谱问答方法及装置 |
CN111708874A (zh) * | 2020-08-24 | 2020-09-25 | 湖南大学 | 基于复杂意图智能识别的人机交互问答方法与系统 |
CN112131883A (zh) * | 2020-09-30 | 2020-12-25 | 腾讯科技(深圳)有限公司 | 语言模型训练方法、装置、计算机设备和存储介质 |
CN112380870A (zh) * | 2020-11-19 | 2021-02-19 | 平安科技(深圳)有限公司 | 用户意图分析方法、装置、电子设备及计算机存储介质 |
CN113254613A (zh) * | 2021-05-24 | 2021-08-13 | 深圳壹账通智能科技有限公司 | 对话问答方法、装置、设备及存储介质 |
CN113360616A (zh) * | 2021-06-04 | 2021-09-07 | 科大讯飞股份有限公司 | 自动问答处理方法、装置、设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
LU MA: ""Answer Graph-based Interactive Attention Network for Question Answering over Knowledge Base"", 《2020 IEEE INTL CONF ON PARALLEL & DISTRIBUTED PROCESSING WITH APPLICATIONS, BIG DATA & CLOUD COMPUTING, SUSTAINABLE COMPUTING & COMMUNICATIONS, SOCIAL COMPUTING & NETWORKING》, pages 521 - 528 * |
袁博 等: ""基于知识图谱的问答系统研究与应用"", 《计算机技术与发展》, pages 134 - 140 * |
Also Published As
Publication number | Publication date |
---|---|
CN114281959B (zh) | 2024-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112131350B (zh) | 文本标签确定方法、装置、终端及可读存储介质 | |
CN111708873A (zh) | 智能问答方法、装置、计算机设备和存储介质 | |
CN114565104A (zh) | 语言模型的预训练方法、结果推荐方法及相关装置 | |
CN112069815B (zh) | 成语填空题的答案选择方法、装置和计算机设备 | |
CN113282711B (zh) | 一种车联网文本匹配方法、装置、电子设备及存储介质 | |
CN114722069A (zh) | 语言转换方法和装置、电子设备及存储介质 | |
US20220358280A1 (en) | Context-aware font recommendation from text | |
WO2023029501A1 (zh) | 智能问诊方法、装置、电子设备及存储介质 | |
CN113343108B (zh) | 推荐信息处理方法、装置、设备及存储介质 | |
CN113656561A (zh) | 实体词识别方法、装置、设备、存储介质及程序产品 | |
US20200311345A1 (en) | System and method for language-independent contextual embedding | |
CN113705191A (zh) | 样本语句的生成方法、装置、设备及存储介质 | |
CN113657105A (zh) | 基于词汇增强的医学实体抽取方法、装置、设备及介质 | |
CN116467417A (zh) | 问题答案的生成方法、装置、设备及存储介质 | |
CN115878752A (zh) | 文本情感的分析方法、装置、设备、介质及程序产品 | |
Wu et al. | Inferring users' emotions for human-mobile voice dialogue applications | |
CN117992594A (zh) | 基于生成式ai的用户陪伴方法、系统、设备及存储介质 | |
CN111783425B (zh) | 基于句法分析模型的意图识别方法及相关装置 | |
CN117373591A (zh) | 电子病历的疾病识别方法和装置、电子设备及存储介质 | |
CN117349515A (zh) | 搜索处理方法、电子设备和存储介质 | |
CN116628207A (zh) | 文本分类模型的训练方法和装置、电子设备及存储介质 | |
CN116702743A (zh) | 文本相似度检测方法和装置、电子设备及存储介质 | |
CN116595023A (zh) | 地址信息的更新方法和装置、电子设备及存储介质 | |
Shen et al. | A general approach to multimodal document quality assessment | |
KR102455747B1 (ko) | 딥러닝 알고리즘을 이용한 가짜 뉴스 탐지 모델 제공 시스템 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40069954 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |