CN112035610B - 医疗领域问答对的生成方法、装置、计算机设备和介质 - Google Patents
医疗领域问答对的生成方法、装置、计算机设备和介质 Download PDFInfo
- Publication number
- CN112035610B CN112035610B CN202010886227.6A CN202010886227A CN112035610B CN 112035610 B CN112035610 B CN 112035610B CN 202010886227 A CN202010886227 A CN 202010886227A CN 112035610 B CN112035610 B CN 112035610B
- Authority
- CN
- China
- Prior art keywords
- question
- answer
- sentence
- sentences
- intention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Pathology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Human Computer Interaction (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请设计人工智能技术领域,特别是涉及一种医疗领域问答对的生成方法、装置、计算机设备和介质,包括:基于获取问诊记录数据中的各对象标识,对问诊记录数据中的各问答句分别进行意图识别,得到对应的意图标识序列;根据多个问诊记录数据对应的意图标识序列,确定意图标识序列中各问句的问句意图标识所对应的多个初始答句的答句识别标识;从多个初始答句的答句识别标识中确定对应问句的目标答句意图标识,并基于各问句意图标识以及对应的目标答句意图标识,生成各目标问答对。采用本方法能够提升线上问答系统的问答对的覆盖率以及准确性。此外,本发明还涉及区块链技术,问诊记录数据、意图标识序列以及目标问答对均可以存储于区块链中。
Description
技术领域
本申请涉及人工智能技术领域,特别是涉及一种医疗领域问答对的生成方法、装置、计算机设备和介质。
背景技术
随着互联网的飞速发展,在健康相关的医疗领域,出现了许多在线疾病问答网站,通过线上问答系统可以为患者初期提供有建设性的疾病诊断建议。
对于线上问诊系统而言,海量优质的问答对可以提升线上问答系统的覆盖率与准确率,如何提升线上问答系统的问答对的覆盖率以及准确性成为亟待解决的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提升线上问答系统的问答对的覆盖率以及准确性的医疗领域问答对的生成方法、装置、设备和介质。
一种医疗领域问答对的生成方法,所述方法包括:
获取问诊记录数据,问诊记录数据中包括多个问答句以及对应各问答句的对象的对象标识;
基于各对象标识,对问诊记录数据中的各问答句分别进行意图识别,得到对应问诊记录数据的意图标识序列;
根据多个问诊记录数据对应的意图标识序列,确定意图标识序列中各问句的问句意图标识所对应的多个初始答句的答句识别标识;
从多个初始答句的答句识别标识中确定对应问句的目标答句意图标识,并基于各问句意图标识以及对应的目标答句意图标识,生成各目标问答对。
在其中一个实施例中,基于各对象标识,对问诊记录数据中的各问答句分别进行意图识别,得到对应问诊记录数据的意图标识序列,包括:
根据各对象标识,确定问诊记录数据中对应各对象的各问答句;
对各对象的各问答句分别进行识别,确定各问答句为对应对象的问句或者对应对象的答句;
对各对象的问句或者各对象的答句分别进行意图识别,得到对应的意图标识;
根据所得到的意图标识,得到对应问诊记录数据的意图标识序列。
在其中一个实施例中,对各对象的各问答句分别进行识别,确定各问答句为对应对象的问句或者对应对象的答句,包括:
识别各对象的各问答句中的关键字符,并基于识别的各关键字符确定各问答句为问句的概率指标;
判断概率指标是否大于或等于预设指标阈值;
当概率指标大于或等于预设指标阈值时,则确定问答句为问句;
当概率指标小于预设指标阈值时,则确定问答句为答句。
在其中一个实施例中,对各对象的问句或者各对象的答句分别进行意图识别,得到各意图标识,包括:
通过预先训练完成的对应各对象的问句或者各对象的答句的意图识别模型分别进行意图识别,得到各意图标识;
意图识别模型的训练方式包括:
获取多个历史问诊记录数据;
基于各历史问诊记录数据中的角色标识,对各问诊记录数据中的各问答句进行识别并进行分类,得到分别对应各对象的问句以及各答句的分类结果,各分类结果中包括第一数量的问答句;
对分类结果中的问答句进行聚类,生成对应分类结果的各问答句聚类集合;
根据各分类结果的问答句聚类集合,对各意图识别模型进行分别训练,得到训练后的各意图识别模型。
在其中一个实施例中,对分类结果中的问答句进行聚类,生成对应分类结果的各问答句聚类集合,包括:
对分类结果中的问答句进行分组,得到第二数量的问答句集合;
根据问答句的文本组成以及句子长度,确定各问答句集合中任意两个问答句的句子相似度,并基于确定的句子相似度生成对应分类结果的第三数量的相似数据集合;
根据各相似数据集合中问答句的数量以及相似数据集合之间问答句的句子相似度,确定各相似数据集合之间的集合相似度,并将集合相似度大于阈值的相似数据集合进行合并,得到对应分类结果的第四数量的问答句聚类集合;
第一数量大于第二数量,第二数量大于第三数量,第三数量大于第四数量。
在其中一个实施例中,根据问答句的文本组成以及句子长度,确定各问答句集合中任意两个问答句的句子相似度,并基于确定的句子相似度生成对应分类结果的第三数量的相似数据集合,包括:
根据各问答句集合内任意两个问答句的文本组成以及问答句的句子长度,确定任意两个问答句的句子相似度;
判断句子相似度是否大于或等于预设句子相似度阈值;
当句子相似度大于或等于预设句子相似度阈值时,确定句子相似度对应的问答句相似,并将对应的问答句添加至同一相似数据集合中;
遍历各问答句集合,得到对应分类结果的第三数量的相似数据集合。
在其中一个实施例中,根据各相似数据集合中问答句的数量以及相似数据集合之间问答句的句子相似度,确定各相似数据集合之间的集合相似度,并将集合相似度大于阈值的相似数据集合进行合并,得到对应分类结果的第四数量的问答句聚类集合,包括:
确定各相似数据集合中问答句的数量,并确定各相似数据集合中问答句的数量满足预设句子数量阈值的相似数据集合为待处理相似数据集合;
根据待处理相似数据集合之间预设数量的问答句之间的句子相似度,确定各相似数据集合之间的集合相似度,并将集合相似度大于预设集合相似度阈值的待处理相似数据集合进行合并,得到对应分类结果的第四数量的问答句聚类集合。
一种医疗领域问答对的生成装置,所述装置包括:
问诊记录数据获取模块,用于获取问诊记录数据,问诊记录数据中包括多个问答句以及对应各问答句的对象的对象标识;
意图标识序列生成模块,用于基于各对象标识,对问诊记录数据中的各问答句分别进行意图识别,得到对应问诊记录数据的意图标识序列;
意图标识确定模块,用于根据多个问诊记录数据对应的意图标识序列,确定意图标识序列中各问句的问句意图标识所对应的多个初始答句的答句识别标识;
目标问答对生成模块,用于从多个初始答句的答句识别标识中确定对应问句的目标答句意图标识,并基于各问句意图标识以及对应的目标答句意图标识,生成各目标问答对。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一实施例所述方法的步骤。
一种计算机可读存储介质,其上存储程序区存储有计算机程序,所述计算机程序被处理器执行时实现上述任一实施例所述的方法的步骤。
上述医疗领域问答对的生成方法、装置、计算机设备和介质,通过获取问诊记录数据,问诊记录数据中包括多个问答句以及对应各问答句的对象的对象标识,基于各对象标识,对问诊记录数据中的各问答句分别进行意图识别,得到对应问诊记录数据的意图标识序列,然后根据多个问诊记录数据对应的意图标识序列,确定意图标识序列中各问句的问句意图标识所对应的多个初始答句的答句识别标识,进一步,从各多个初始答句的答句识别标识中确定对应各问句的目标答句意图标识,并基于各问句意图标识以及对应的目标答句意图标识,生成各目标问答对。从而,从而,可以使得目标问答对是通过对多个问诊记录数据的问答句的意图识别处理后生成确定的,使得目标问答对的生成可以覆盖多个不同形式的问答句,提升目标问答对的覆盖率以及准确性。
附图说明
图1为一个实施例中医疗领域问答对的生成方法的应用场景图;
图2为一个实施例中医疗领域问答对的生成方法的流程示意图;
图3为另一个实施例中医疗领域问答对的生成方法的流程示意图;
图4为一个实施例中待计算集合相似度计算步骤的流程示意图;
图5为一个实施例中医疗领域问答对的生成装置的结构框图;
图6为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的医疗领域问答对的生成方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。用户通过终端102进行线上问诊咨询,并生成问诊记录数据发送至服务器104,问诊记录数据中包括多个问答句以及对应各问答句的对象的对象标识。服务器104获取到问诊记录数据后,可以基于各对象标识,对问诊记录数据中的各问答句分别进行意图识别,得到对应问诊记录数据的意图标识序列。然后服务器104根据多个问诊记录数据对应的意图标识序列,确定意图标识序列中各问句的问句意图标识所对应的多个初始答句的答句识别标识。进一步,服务器104从多个初始答句的答句识别标识中确定对应问句的目标答句意图标识,并基于各问句意图标识以及对应的目标答句意图标识,生成各目标问答对。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种医疗领域问答对的生成方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤S202,获取问诊记录数据,问诊记录数据中包括多个问答句以及对应各问答句的对象的对象标识。
其中,问诊记录数据是指医生与病人的线上问诊记录,可以包括医生与病人的多个问答句,即可以包括对应医生或者是病人的问句或者答句。问答句是医生与病人的对话中对应医生或者是病人每一次对话的句子。
在本实施例中,对象标识是用于区分问诊记录数据中医生以及病人的标识,可以包括医生标识以及病人标识。其中,医生标识可以是指适用于所有问诊记录数据中统一医生标识指示,例如病人标识是指适用于所有问诊记录数据中统一病人标识指示。
在本实施例中,终端可以接收医生与病人的问诊对话,并生成问诊记录数据,以存储至线上问答系统的数据库中。
在本实施例中,服务器可以直接从线上问诊系统的数据库中获取医生以及病人的问诊记录数据,并进行后续的数据处理。
步骤S204,基于各对象标识,对问诊记录数据中的各问答句分别进行意图识别,得到对应问诊记录数据的意图标识序列。
其中,意图标识是指标识各问答句的意图的标识,例如,用药询问、挂号询问、用药应答、挂号应答等。在本实施例中,病人问句的意图标识可以通过P1~Pn表示,病人回答的意图标识通过PA表示,医生问句的意图标识记为D1~Dn,医生回答的意图标识记为DA1~DAn。
意图标识序列是指由多个意图标识组成的序列,例如,P1DA1DA1P2P2DA2等。
在本实施例中,服务器可以根据各问答句对应的对象标识,对各问答句进行意图识别,并生成对应的各意图标识。
进一步,服务器基于得到的各意图标识以及对应的问诊记录数据,生成对应的意图识别序列。
步骤S206,根据多个问诊记录数据对应的意图标识序列,确定意图标识序列中各问句的问句意图标识所对应的多个初始答句的答句识别标识。
具体地,服务器可以根据多个问诊记录数据,以得到对应各问诊记录数据的各意图标识序列。
在本实施例中,服务器在获取到对应多个问诊记录数据的意图识别序列后,可以通过对多个意图识别序列中问句与答句之间的相邻关系,确定对应各问句对应的问句意图标识的各初始答句的答句意图标识。例如,对于某一病人问句意图标识P1,在不同的意图识别序列中,对应的医生答句意图标识可能为PA1,也可能为PA2。
步骤S208,从多个初始答句的答句识别标识中确定对应问句的目标答句意图标识,并基于各问句意图标识以及对应的目标答句意图标识,生成各目标问答对。
在本实施例中,服务器可以统计多个意图标识序列中,各问句意图标识对应的各初始答句的答句意图标识的数量,并基于各数量确定对应各问句意图标识对应的目标答句意图标识。
进一步,服务器在确定各问句意图标识以及对应的目标答句意图标识后,可以根据问句意图标识以及对应的目标答句意图标识生成对应的目标问答对。
例如,服务器确定对应问句意图标识P1对应目标答句意图标识为DA1,则服务器可以生成目标问答对为P1DA1。
在本实施例中,目标问答对也并不仅限于一个问句意图标识以及一个目标答句意图标识构成的二元组合关系,也可以是三元组合关系,例如,P1DA1PA构成的三元组合关系。
上述医疗领域问答对的生成方法中,通过获取问诊记录数据,问诊记录数据中包括多个问答句以及对应各问答句的对象的对象标识,基于各对象标识,对问诊记录数据中的各问答句分别进行意图识别,得到对应问诊记录数据的意图标识序列,然后根据多个问诊记录数据对应的意图标识序列,确定意图标识序列中各问句的问句意图标识所对应的多个初始答句的答句识别标识,进一步,从各多个初始答句的答句识别标识中确定对应各问句的目标答句意图标识,并基于各问句意图标识以及对应的目标答句意图标识,生成各目标问答对。从而,从而,可以使得目标问答对是通过对多个问诊记录数据的问答句的意图识别处理后生成确定的,使得目标问答对的生成可以覆盖多个不同形式的问答句,提升目标问答对的覆盖率以及准确性。
在其中一个实施例中,基于各对象标识,对问诊记录数据中的各问答句分别进行意图识别,得到对应问诊记录数据的意图标识序列,可以包括:根据各对象标识,确定问诊记录数据中对应各对象的各问答句;对各对象的各问答句分别进行识别,确定各问答句为对应对象的问句或者对应对象的答句;对各对象的问句或者各对象的答句分别进行意图识别,得到对应的意图标识;根据所得到的意图标识,得到对应问诊记录数据的意图标识序列。
如前所述,问诊记录数据中可以包括医生与病人的多个问答句,各问答句包括对应的对象标识,如医生标识,或者是病人标识等。
在本实施例中,参考图3,服务器可以基于问诊记录数据中的对象标识,对问诊记录数据中的问答句进行分类,以确定各问答句为对应医生的问答句或者是对应病人的问答句。例如,当位于问答句最前面的对象标识为医生标识时,则可以确定对应的问答句为对应医生的问答句,当问答句最前面的对象标识为病人标识时,则可以确定对应的问答句为对应病人的问答句,以得到对应的分类结果。
进一步,服务器可以分别对各分类结果中的各问答句分别进行识别,确定各问答句为对应对象的问句或者对应对象的答句,即服务器分别对医生和病人的问答句分别进行识别,以确定各问答句为问句或者是答句。例如,对于句子“现在有什么症状呢?”“应该挂什么科室呢?”等,可以识别为问句,“好的,我知道了”等,可以识别为答句。
在本实施例中,服务器对医生和病人的问答句分别进行识别可以是分线程并行同时进行,例如,服务器通过一个线程对医生对应的问答句为问句或者是答句进行识别,通过另一个线程对病人的问答句为问句或者是答句进行识别,从而通过两个线程并行进行以提升数据处理的效率。
在本实施例中,服务器可以分别对各对象的各问句或者是答句分别进行意图识别,以生成对应各句子的意图标识,即对医生的问句、医生的答句、病人的问句以及病人的答句分别进行意图识别,并生成对应各问句和各答句的意图标识。
在本实施例中,服务器可以基于对应各对象的问句和答句对应的意图识别模型分别进行对应问句或者是答句的意图识别,例如,通过医生问句意图识别模型对医生的问句进行意图识别,通过医生答句意图识别模型对医生的答句进行意图识别,通过病人问句意图识别模型对病人的问句进行意图识别,以及通过病人答句意图识别模型对病人的答句进行意图识别,以分别得到各意图标识。
在本实施例中,对应各意图标识的问答句可以是多种形式,例如,病人某一疾病问诊的意图标识为P1,其对应的问答句可以是“头晕,得了什么病”,或者是“头有点晕,想要知道得了什么病”,或者也可以是“突然有点晕,不知道得了什么病”等。
在本实施例中,服务器可以根据问诊记录数据中各问答句的顺序,基于各意图标识,生成对应问诊记录数据的意图标识序列,例如前文所述的P1DA1DA1P2P2DA2。
上述实施例中,通过根据各对象标识,确定问诊记录数据中对应各对象的各问答句,然后对各对象的各问答句分别进行识别,确定各问答句为对应对象的问句或者对应对象的答句,进一步对各对象的问句或者各对象的答句分别进行意图识别,得到对应的意图标识。从而通过两层分类,得到对应各对象的问句以及答句的分类结果,然后在进行意图识别,减少数据干扰,提升意图识别的准确性。
在其中一个实施例中,对各对象的各问答句分别进行识别,确定各问答句为对应对象的问句或者对应对象的答句,可以包括:识别各对象的各问答句中的关键字符,并基于识别的各关键字符确定各问答句为问句的概率指标;判断概率指标是否大于或等于预设指标阈值;当概率指标大于或等于预设指标阈值时,则确定问答句为问句;当概率指标小于预设指标阈值时,则确定问答句为答句。
在本实施例中,服务器可以通过疑问句识别模型,对问答句中的关键字进行识别,并输出问答句为问句的概率指标。
在本实施例中,疑问句识别模型主要采用疑问词(什么、是不是、有没有等)、标点符号(?)以及疑问助词(呢、嘛、吗等)作为特征,输出对应各问答句的为问句的概率指标score,模型表达式如公式(1)所示。
其中,wi每为问答句中疑问字,P(wi)为问答句中各子为疑问字的概率值。
进一步,服务器可以预先通过统计问句和非问句的score,找到一个区分度最好的score作为预设指标阈值,以对计算得到的各问答句的概率指标进行判定,例如,预设指标阈值为0.7。
在本实施例中,当服务器确定概率指标大于或等于预设指标阈值0.7时,则确定问答句为问句,小于预设指标阈值0.7时,则确定问答句为答句。
上述实施例中,通过分别对医生或者是病人对应的各问答句是否为问句的概率进行计算,并通过预设阈值进行分类,可以使得问句以及答句的分类更加准确,可以提升后续目标问答对生成的准确性。
在其中一个实施例中,对各对象的问句或者各对象的答句分别进行意图识别,得到各意图标识,可以包括:通过预先训练完成的对应各对象的问句或者各对象的答句的意图识别模型分别进行意图识别,得到各意图标识。
具体地,继续参考图3,服务器可以通过对应各对象的问句或者各对象的答句的意图识别模型分别进行意图识别,即服务器通过医生问句意图识别模型对医生问句进行意图识别,通过医生答句意图识别模型对医生答句进行意图识别,通过病人问句意图识别模型对病人问句进行意图识别,以及通过病人答句意图识别模型对病人答句进行意图识别,以生成对应的各意图标识。
在本实施例中,意图识别模型的训练方式可以包括:获取多个历史问诊记录数据;基于各历史问诊记录数据中的角色标识,对各问诊记录数据中的各问答句进行识别并进行分类,得到分别对应各对象的问句以及各答句的分类结果,各分类结果中包括第一数量的问答句;对分类结果中的问答句进行聚类,生成对应分类结果的各问答句聚类集合;根据各分类结果的问答句聚类集合,对各意图识别模型进行分别训练,得到训练后的各意图识别模型。
在本实施例中,各意图识别模型可以通过结合人工智能预先训练生成。
具体地,服务器可以根据获取的历史问诊记录数据,生成分别对应各模型的训练集数据,并进行模型训练。
本领域技术人员可以理解的是,此处训练过程为并列独立的训练,各模型的训练互不干扰,互不影响。
具体地,服务器可以从线上问诊系统中获取多个历史问诊记录数据,然后基于历史问诊记录数据中的各角色标识,对各历史问诊记录数据中各问答句进行识别分类,以分别得到多个历史问诊记录数据中对应医生的问答句以及对应病人的问答句。
进一步,服务器可以基于疑问句识别模型对各问答句进行识别判定,判断各问答句为问句或者是答句,具体判断方式可以参见前文所述,此处不再赘述。
进一步,服务器可以分别对各分类结果进行聚类,以得到分别对应各问诊类别的问答句聚类集合,例如,分别对应用药询问,疾病问诊,挂号咨询等的问答句聚类集合等。
进一步,服务器在得到各聚类集合后,可以分别对各聚类集合进行标注,例如,分别标注为用药询问,疾病问诊,挂号咨询等,然后输入对应的意图识别模型中,以分别进行各意图识别模型的训练。
在本实施例中,服务器可以对做好标注的各训练数据进行分词处理,得到对应各问答句的特征字集合,例如,记为A={c1,...,ci},ci标识问答句中的各特征字,得到问答句的长度记为Alen。其中,问答句的长度Alen表示句子中特征字的数量。
在本实例中,分词工具可以使用开源的Jieba分类器等,或者也可以是其他的分词工具,本申请对此不作限制。
在本实施例中,对于分词后的词语,服务器可以通过同义词词典进行词语归一化,例如,“头疼”和“头痛”为同义词,服务器可以将这两个同义词归一化为“头痛”。
进一步,服务器可以使用支持向量机(support vector machine,SVM)分类器训练各意图识别模型,模型训练参数分别为C-SVC、径向基(Radial Basis Function,RBF)核函数、cost为3000等。
在本实施例中,服务器可以根据各意图识别模型的输出结果与标注的结果,对各意图识别模型进行损失值的计算,并基于计算的损失值,对模型参数进行更新,并对参数更新后的意图识别模型继续进行迭代训练,以得到训练好的各意图识别模型。
在本实施例中,多个意图识别模型的训练可以并行进行,即服务器可以通过并行线程同时对医生问句意图识别模型、医生答句意图识别模型、病人问句意图识别模型以及病人答句意图识别模型分别进行训练,以提升训练的效率。
上述实施例中,通过对模型进行训练,并基于各模型分别对各问答句进行意图识别,并生成对应各问答句的意图标识,从而可以提升意图识别的准确性,进而可以提升生成的目标问答对准确性。
在其中一个实施例中,对分类结果中的问答句进行聚类,生成对应分类结果的各问答句聚类集合,可以包括:对分类结果中的问答句进行分组,得到第二数量的问答句集合;根据问答句的文本组成以及句子长度,确定各问答句集合中任意两个问答句的句子相似度,并基于确定的句子相似度生成对应分类结果的第三数量的相似数据集合;根据各相似数据集合中问答句的数量以及相似数据集合之间问答句的句子相似度,确定各相似数据集合之间的集合相似度,并将集合相似度大于阈值的相似数据集合进行合并,得到对应分类结果的第四数量的问答句聚类集合;第一数量大于第二数量,第二数量大于第三数量,第三数量大于第四数量。
具体地,服务器可以同一分类结果中所有的句子随机划分为n个独立的问答句集合,记为bi,其中,i=1,2,3,…,n。
在本实施例中,针对每个问答句集合bi,在集合内部的每一个问答句都和其他问答句进行句子相似度的计算。
在本实施例中,当句子相似度大于预设句子相似度阈值时,则确定对应的问答句为相似句子,并合并为相似数据集合Si,i=1,2,3,…,m,其中,m<n。
在本实施例中,服务器通过遍历分类结果的各问答句集合,以得到对应所述分类结果的第三数量的相似数据集合。
进一步,服务器可以计算任意两个相似数据集合的集合相似度,并基于集合相似度大于阈值的相似数据集合进行合并,以得到对应分类结果的第四数量的问答句聚类集合。
上述实施例中,通过对问答句进行句子相似度的计算,生成相似数据集合,然后对相似数据集合进行集合相似度的计算,并进行合并,得到问答句聚类集合,从而,可以对相似的问答句进行聚类分组,使得在模型训练的时候,可以尽可能学习到同一分类的特征,提升模型训练的准确性。
在其中一个实施例中,根据问答句的文本组成以及句子长度,确定各问答句集合中任意两个问答句的句子相似度,并基于确定的句子相似度生成对应分类结果的第三数量的相似数据集合,可以包括:根据各问答句集合内任意两个问答句的文本组成以及问答句的句子长度,确定任意两个问答句的句子相似度;判断句子相似度是否大于或等于预设句子相似度阈值;当句子相似度大于或等于预设句子相似度阈值时,确定句子相似度对应的问答句相似,并将对应的问答句添加至同一相似数据集合中;遍历各问答句集合,得到对应分类结果的第三数量的相似数据集合。
如前文所述,服务器可以对标注后的各分类结果中的各问答句进行分字,得到对应各问答句的特征字集合。
在本实施例中,服务器在计算两个问答句的句子相似度的时候,可以通过计算两个句子中各特征字集合之间的相似度以及句子长度上的相似度得到。
具体地,两个特征字集合的相似度计算方式采用Jaccard相似系数的方式进行计算,例如,架设两个问答句的特征字集合为A和B,则服务器可以通过公式(2)计算两个问答句的特征字集合的相似度。
本领域技术人员可以理解的是,Jaccard系数越大,说明两个问答句中的特征字越相似。
在本实施例中,两个问答句的句子相似度最终可通过公式(3)进行计算。
进一步,服务器可以通过预设句子相似度阈值对计算的各句子相似度进行判定,例如0.7,当句子相似度大于或等于预设句子相似度阈值时,则服务器可以确定对应的两个问答句为相似问答句,则可以将对应的问答句添加至同一相似数据集合中,若小于预设句子相似度阈值,则可以确定不相似。
在本实施例中,服务器可以遍历各问答句集合,以得到对应该分类结果的第三数量的相似数据集合。
上述实施例中,通过根据各问答句集合内任意两个问答句的文本成以及问答句的句子长度,计算任意两个问答句的句子相似度,并将相似的问答句添加至同一相似数据集合中,从而,使得问答句的句子相似度计算包含了句子的文本字以及句子长度,相比于传统的仅根据文本字进行句子相似度的计算,可以提升句子相似度计算的准确性。
在其中一个实施例中,根据各相似数据集合中问答句的数量以及相似数据集合之间问答句的句子相似度,确定各相似数据集合之间的集合相似度,并将集合相似度大于阈值的相似数据集合进行合并,得到对应分类结果的第四数量的问答句聚类集合,可以包括:确定各相似数据集合中问答句的数量,并确定各相似数据集合中问答句的数量满足预设句子数量阈值的相似数据集合为待处理相似数据集合;根据待处理相似数据集合之间预设数量的问答句之间的句子相似度,确定各相似数据集合之间的集合相似度,并将集合相似度大于预设集合相似度阈值的待处理相似数据集合进行合并,得到对应分类结果的第四数量的问答句聚类集合。
具体地,对于每个相似数据集合Si,服务器可以先判断相似数据集合中问答句的数量是否大于预设句子数量阈值K。
在本实施例中,当服务器确定相似数据集合中问答句的数量大于预设句子数量阈值时,即|Si|>K,则服务器可以确定该相似数据集合为待处理相似数据集合。
在本实施例中,服务器可以对每一个相似数据集合进行计算并进行判断,以确定各分类结果的多个待处理相似数据集合。
进一步,服务器可以对任意两个待处理相似数据集合进行集合相似度的计算,当集合相似度大于预设集合相似阈值,则将对应的待处理相似数据集合进行合并,得到问答句聚类集合。
在本实施例中,集合相似度的计算可以包括如下流程:首先,服务器在每个待处理相似数据集合中随机取s个元素,参考图4,得到对应各待处理相似数据集合的待计算集合。对于每一个待计算集合中的元素,随机匹配另一个待计算集合的元素,通过前述公式(3)分别计算句子相似度,得到两个待计算集合中S个句子的句子相似度。
进一步,服务器对S个句子相似度求平均值,得到两个待计算集合的平均相似度scoreavg,并将该平均相似度scoreavg作为对应的两个待处理相似数据集合平均相似度。
进一步,服务器通过预设集合相似阈值进行判定,例如,0.7,当平均相似度大于或等于0.7,则可以确定两个待处理相似数据集合相似,则将两个待处理相似数据集合进行合并,得到问答句聚类集合。
对于|Si|≤K的相似数据集合,服务器可以通过k-means聚类将其与其他相似数据集合进行聚类。
在本实施例中,服务器通过遍历分类结果的各相似数据集合,得到对应分类结果的第四数量的问答句聚类集合。
上述实施例中,通过对各相似数据集合中句子的数量进行判定,然后进行集合相似度的计算并进行合并,可以使得在进行问答句聚类的时候,将相似的问答句尽可能的归为同一类,从而,可以提升聚类的准确性,进而可以提升模型训练的准确性。
在其中一个实施例中,根据多个问诊记录数据对应的意图标识序列,确定意图标识序列中各问句的问句意图标识所对应的多个初始答句的答句识别标识之前,还可以包括:对各意图标识序列中连续重复的意图标识进行去重处理,得到去重处理后的各意图标识序列。
在本实施例中,对于某一问诊记录数据对应的意图识别序列中,意图标识序列中可能存在重复的意图标识,例如P1DA1DA1P2P2DA2,则服务器可以对连续性重复的意图标识进行去重处理,得到去重处理后的意图标识序列,即得到P1DA1P2DA2。
在本实施例中,根据多个问诊记录数据对应的意图标识序列,确定意图标识序列中各问句的问句意图标识所对应的多个初始答句的答句识别标识,可以包括:根据多个问诊记录数据对应的去重处理后的意图标识序列,确定意图标识序列中各问句的问句意图标识所对应的多个初始答句的答句识别标识。
在本实例总,服务器可以基于去重后的意图识别序列,确定意图标识序列中对应的问句意图标识,例如,P1以及P2等,然后确定对应各问句意图识别标识的初始答句意图标识,如,在意图标识序列P1DA1P2DA2中,问句意图标识P1对应的初始答句意图标识为DA1,在意图标识序列P1DA3P5DA7中,问句意图标识P1对应的初始答句意图标识为DA3,则基于多个意图标识序列,服务器可以确定问句意图标识P1对应的初始答句意图标识可以包括DA1以及DA3。然后服务器可以统计在多个意图标识序列中同一问句意图标识对应的各初始答句意图标识的数量,例如,对于问句意图标识P1,其对应的初始答句意图标识DA1对应的数量为20,初始答句意图标识DA3的数量为50,则服务器通过统计的数量,确定初始答句意图标识DA3为对应问句意图标识P1的目标答句意图标识。
上述实施例中,通过对各意图标识序列进行去重处理,然后在进行目标答句意图标识的确定,可以去除意图标识序列中重复无效的数据,减少数据干扰,提升目标答句意图标识确定的准确性。
在其中一个实施例中,上述方法还可以包括:将问诊记录数据、意图标识序列以及目标问答对中的至少一个上传至区块链节点中进行存储。
其中,区块链是指分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Block chain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。
具体地,区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
在本实施例中,服务器可以将问诊记录数据、意图标识序列以及目标问答对中的一个或者多个数据上传并存储于区块链的节点中,以保证数据的私密性和安全性。
上述实施例中,通过将问诊记录数据、意图标识序列以及目标问答对中至少一个上传至区块链并存储于区块链的节点中,从而可以保障存储至区块链节点中数据的私密性,可以提升数据的安全性。
应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图5所示,提供了一种医疗领域问答对的生成装置,包括:问诊记录数据获取模块100、意图标识序列生成模块200、意图标识确定模块300和目标问答对生成模块400,其中:
问诊记录数据获取模块100,用于获取问诊记录数据,问诊记录数据中包括多个问答句以及对应各问答句的对象的对象标识。
意图标识序列生成模块200,用于基于各对象标识,对问诊记录数据中的各问答句分别进行意图识别,得到对应问诊记录数据的意图标识序列。
意图标识确定模块300,用于根据多个问诊记录数据对应的意图标识序列,确定意图标识序列中各问句的问句意图标识所对应的多个初始答句的答句识别标识。
目标问答对生成模块400,用于从多个初始答句的答句识别标识中确定对应问句的目标答句意图标识,并基于各问句意图标识以及对应的目标答句意图标识,生成各目标问答对。
在其中一个实施例中,意图标识序列生成模块200可以包括:
问答句确定子模块,用于根据各对象标识,确定问诊记录数据中对应各对象的各问答句。
问答句识别子模块,用于对各对象的各问答句分别进行识别,确定各问答句为对应对象的问句或者对应对象的答句。
意图标识得到子模块,用于对各对象的问句或者各对象的答句分别进行意图识别,得到对应的意图标识。
意图标识序列确定子模块,用于根据所得到的意图标识,得到对应问诊记录数据的意图标识序列。
在其中一个实施例中,问答句识别子模块可以包括:
关键字符识别单元,用于识别各对象的各问答句中的关键字符,并基于识别的各关键字符确定各问答句为问句的概率指标。
判断单元,用于判断概率指标是否大于或等于预设指标阈值。
第一确定单元,用于当概率指标大于或等于预设指标阈值时,则确定问答句为问句。
第二确定单元,用于当概率指标小于预设指标阈值时,则确定问答句为答句。
在其中一个实施例中,意图标识得到子模块用于通过预先训练完成的对应各对象的问句或者各对象的答句的意图识别模型分别进行意图识别,得到各意图标识。
在本实施例中,上述装置可以包括:
训练模块,用于训练意图识别模型。
在本实施例中,训练模块可以包括:
历史问诊记录数据获取子模块,用于获取多个历史问诊记录数据。
分类结果确定子模块,用于基于各历史问诊记录数据中的角色标识,对各问诊记录数据中的各问答句进行识别并进行分类,得到分别对应各对象的问句以及各答句的分类结果,各分类结果中包括第一数量的问答句。
问答句聚类集合确定子模块,用于对分类结果中的问答句进行聚类,生成对应分类结果的各问答句聚类集合。
训练子模块,用于根据各分类结果的问答句聚类集合,对各意图识别模型进行分别训练,得到训练后的各意图识别模型。
在其中一个实施例中,问答句聚类集合确定子模块可以包括:
问答句集合单元,用于对分类结果中的问答句进行分组,得到第二数量的问答句集合。
相似数据集合确定单元,用于根据问答句的文本组成以及句子长度,确定各问答句集合中任意两个问答句的句子相似度,并基于确定的句子相似度生成对应分类结果的第三数量的相似数据集合。
问答句聚类集合确定单元,用于根据各相似数据集合中问答句的数量以及相似数据集合之间问答句的句子相似度,确定各相似数据集合之间的集合相似度,并将集合相似度大于阈值的相似数据集合进行合并,得到对应分类结果的第四数量的问答句聚类集合。
在本实施例中,第一数量大于第二数量,第二数量大于第三数量,第三数量大于第四数量。
在其中一个实施例中,相似数据集合确定单元可以包括:
句子相似度确定子单元,用于根据各问答句集合内任意两个问答句的文本组成以及问答句的句子长度,确定任意两个问答句的句子相似度。
判断子单元,用于判断句子相似度是否大于或等于预设句子相似度阈值。
添加子单元,用于当句子相似度大于或等于预设句子相似度阈值时,确定句子相似度对应的问答句相似,并将对应的问答句添加至同一相似数据集合中。
遍历确定子单元,用于遍历各问答句集合,得到对应分类结果的第三数量的相似数据集合。
在其中一个实施例中,问答句聚类集合确定单元可以包括:
待处理相似数据集合确定子单元,用于确定各相似数据集合中问答句的数量,并确定各相似数据集合中问答句的数量满足预设句子数量阈值的相似数据集合为待处理相似数据集合。
问答句聚类集合确定子单元,用于根据待处理相似数据集合之间预设数量的问答句之间的句子相似度,确定各相似数据集合之间的集合相似度,并将集合相似度大于预设集合相似度阈值的待处理相似数据集合进行合并,得到对应分类结果的第四数量的问答句聚类集合。
关于医疗领域问答对的生成装置的具体限定可以参见上文中对于医疗领域问答对的生成方法的限定,在此不再赘述。上述医疗领域问答对的生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储问诊记录数据、意图标识序列以及目标问答对等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种医疗领域问答对的生成方法。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:获取问诊记录数据,问诊记录数据中包括多个问答句以及对应各问答句的对象的对象标识;基于各对象标识,对问诊记录数据中的各问答句分别进行意图识别,得到对应问诊记录数据的意图标识序列;根据多个问诊记录数据对应的意图标识序列,确定意图标识序列中各问句的问句意图标识所对应的多个初始答句的答句识别标识;从多个初始答句的答句识别标识中确定对应问句的目标答句意图标识,并基于各问句意图标识以及对应的目标答句意图标识,生成各目标问答对。
在其中一个实施例中,处理器执行计算机程序时实现基于各对象标识,对问诊记录数据中的各问答句分别进行意图识别,得到对应问诊记录数据的意图标识序列,可以包括:根据各对象标识,确定问诊记录数据中对应各对象的各问答句;对各对象的各问答句分别进行识别,确定各问答句为对应对象的问句或者对应对象的答句;对各对象的问句或者各对象的答句分别进行意图识别,得到对应的意图标识;根据所得到的意图标识,得到对应问诊记录数据的意图标识序列。
在其中一个实施例中,处理器执行计算机程序时实现对各对象的各问答句分别进行识别,确定各问答句为对应对象的问句或者对应对象的答句,可以包括:识别各对象的各问答句中的关键字符,并基于识别的各关键字符确定各问答句为问句的概率指标;判断概率指标是否大于或等于预设指标阈值;当概率指标大于或等于预设指标阈值时,则确定问答句为问句;当概率指标小于预设指标阈值时,则确定问答句为答句。
在其中一个实施例中,处理器执行计算机程序时实现对各对象的问句或者各对象的答句分别进行意图识别,得到各意图标识,可以包括:通过预先训练完成的对应各对象的问句或者各对象的答句的意图识别模型分别进行意图识别,得到各意图标识。
在本实施例中,处理器执行计算机程序时实现意图识别模型的训练方式可以包括:获取多个历史问诊记录数据;基于各历史问诊记录数据中的角色标识,对各问诊记录数据中的各问答句进行识别并进行分类,得到分别对应各对象的问句以及各答句的分类结果,各分类结果中包括第一数量的问答句;对分类结果中的问答句进行聚类,生成对应分类结果的各问答句聚类集合;根据各分类结果的问答句聚类集合,对各意图识别模型进行分别训练,得到训练后的各意图识别模型。
在其中一个实施例中,处理器执行计算机程序时实现对分类结果中的问答句进行聚类,生成对应分类结果的各问答句聚类集合,可以包括:对分类结果中的问答句进行分组,得到第二数量的问答句集合;根据问答句的文本组成以及句子长度,确定各问答句集合中任意两个问答句的句子相似度,并基于确定的句子相似度生成对应分类结果的第三数量的相似数据集合;根据各相似数据集合中问答句的数量以及相似数据集合之间问答句的句子相似度,确定各相似数据集合之间的集合相似度,并将集合相似度大于阈值的相似数据集合进行合并,得到对应分类结果的第四数量的问答句聚类集合;第一数量大于第二数量,第二数量大于第三数量,第三数量大于第四数量。
在其中一个实施例中,处理器执行计算机程序时实现根据问答句的文本组成以及句子长度,确定各问答句集合中任意两个问答句的句子相似度,并基于确定的句子相似度生成对应分类结果的第三数量的相似数据集合,可以包括:根据各问答句集合内任意两个问答句的文本组成以及问答句的句子长度,确定任意两个问答句的句子相似度;判断句子相似度是否大于或等于预设句子相似度阈值;当句子相似度大于或等于预设句子相似度阈值时,确定句子相似度对应的问答句相似,并将对应的问答句添加至同一相似数据集合中;遍历各问答句集合,得到对应分类结果的第三数量的相似数据集合。
在其中一个实施例中,处理器执行计算机程序时实现根据各相似数据集合中问答句的数量以及相似数据集合之间问答句的句子相似度,确定各相似数据集合之间的集合相似度,并将集合相似度大于阈值的相似数据集合进行合并,得到对应分类结果的第四数量的问答句聚类集合,可以包括:确定各相似数据集合中问答句的数量,并确定各相似数据集合中问答句的数量满足预设句子数量阈值的相似数据集合为待处理相似数据集合;根据待处理相似数据集合之间预设数量的问答句之间的句子相似度,确定各相似数据集合之间的集合相似度,并将集合相似度大于预设集合相似度阈值的待处理相似数据集合进行合并,得到对应分类结果的第四数量的问答句聚类集合。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取问诊记录数据,问诊记录数据中包括多个问答句以及对应各问答句的对象的对象标识;基于各对象标识,对问诊记录数据中的各问答句分别进行意图识别,得到对应问诊记录数据的意图标识序列;根据多个问诊记录数据对应的意图标识序列,确定意图标识序列中各问句的问句意图标识所对应的多个初始答句的答句识别标识;从多个初始答句的答句识别标识中确定对应问句的目标答句意图标识,并基于各问句意图标识以及对应的目标答句意图标识,生成各目标问答对。
在其中一个实施例中,计算机程序被处理器执行时实现基于各对象标识,对问诊记录数据中的各问答句分别进行意图识别,得到对应问诊记录数据的意图标识序列,可以包括:根据各对象标识,确定问诊记录数据中对应各对象的各问答句;对各对象的各问答句分别进行识别,确定各问答句为对应对象的问句或者对应对象的答句;对各对象的问句或者各对象的答句分别进行意图识别,得到对应的意图标识;根据所得到的意图标识,得到对应问诊记录数据的意图标识序列。
在其中一个实施例中,计算机程序被处理器执行时实现对各对象的各问答句分别进行识别,确定各问答句为对应对象的问句或者对应对象的答句,可以包括:识别各对象的各问答句中的关键字符,并基于识别的各关键字符确定各问答句为问句的概率指标;判断概率指标是否大于或等于预设指标阈值;当概率指标大于或等于预设指标阈值时,则确定问答句为问句;当概率指标小于预设指标阈值时,则确定问答句为答句。
在其中一个实施例中,计算机程序被处理器执行时实现对各对象的问句或者各对象的答句分别进行意图识别,得到各意图标识,可以包括:通过预先训练完成的对应各对象的问句或者各对象的答句的意图识别模型分别进行意图识别,得到各意图标识。
在本实施例中,计算机程序被处理器执行时实现意图识别模型的训练方式可以包括:获取多个历史问诊记录数据;基于各历史问诊记录数据中的角色标识,对各问诊记录数据中的各问答句进行识别并进行分类,得到分别对应各对象的问句以及各答句的分类结果,各分类结果中包括第一数量的问答句;对分类结果中的问答句进行聚类,生成对应分类结果的各问答句聚类集合;根据各分类结果的问答句聚类集合,对各意图识别模型进行分别训练,得到训练后的各意图识别模型。
在其中一个实施例中,计算机程序被处理器执行时实现对分类结果中的问答句进行聚类,生成对应分类结果的各问答句聚类集合,可以包括:对分类结果中的问答句进行分组,得到第二数量的问答句集合;根据问答句的文本组成以及句子长度,确定各问答句集合中任意两个问答句的句子相似度,并基于确定的句子相似度生成对应分类结果的第三数量的相似数据集合;根据各相似数据集合中问答句的数量以及相似数据集合之间问答句的句子相似度,确定各相似数据集合之间的集合相似度,并将集合相似度大于阈值的相似数据集合进行合并,得到对应分类结果的第四数量的问答句聚类集合;第一数量大于第二数量,第二数量大于第三数量,第三数量大于第四数量。
在其中一个实施例中,计算机程序被处理器执行时实现根据问答句的文本组成以及句子长度,确定各问答句集合中任意两个问答句的句子相似度,并基于确定的句子相似度生成对应分类结果的第三数量的相似数据集合,可以包括:根据各问答句集合内任意两个问答句的文本组成以及问答句的句子长度,确定任意两个问答句的句子相似度;判断句子相似度是否大于或等于预设句子相似度阈值;当句子相似度大于或等于预设句子相似度阈值时,确定句子相似度对应的问答句相似,并将对应的问答句添加至同一相似数据集合中;遍历各问答句集合,得到对应分类结果的第三数量的相似数据集合。
在其中一个实施例中,计算机程序被处理器执行时实现根据各相似数据集合中问答句的数量以及相似数据集合之间问答句的句子相似度,确定各相似数据集合之间的集合相似度,并将集合相似度大于阈值的相似数据集合进行合并,得到对应分类结果的第四数量的问答句聚类集合,可以包括:确定各相似数据集合中问答句的数量,并确定各相似数据集合中问答句的数量满足预设句子数量阈值的相似数据集合为待处理相似数据集合;根据待处理相似数据集合之间预设数量的问答句之间的句子相似度,确定各相似数据集合之间的集合相似度,并将集合相似度大于预设集合相似度阈值的待处理相似数据集合进行合并,得到对应分类结果的第四数量的问答句聚类集合。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种医疗领域问答对的生成方法,其特征在于,所述方法包括:
获取问诊记录数据,所述问诊记录数据中包括多个问答句以及对应各问答句的对象的对象标识;
基于各所述对象标识,对所述问诊记录数据中的各问答句分别进行意图识别,得到对应所述问诊记录数据的意图标识序列;
根据多个问诊记录数据对应的意图标识序列,确定意图标识序列中各问句的问句意图标识所对应的多个初始答句的答句识别标识;
从所述多个初始答句的答句识别标识中确定对应所述问句的目标答句意图标识,并基于各问句意图标识以及对应的目标答句意图标识,生成各目标问答对;
所述基于各所述对象标识,对所述问诊记录数据中的各问答句分别进行意图识别,得到对应所述问诊记录数据的意图标识序列包括:
根据各所述对象标识,确定所述问诊记录数据中对应各对象的各问答句;
对各对象的各问答句分别进行识别,确定各所述问答句为对应对象的问句或者对应对象的答句;
通过所述对应对象的问句或者所述对应对象的答句对应的意图识别模型对各所述对象的问句或者各对象的答句分别进行意图识别,得到对应的意图标识;
根据所得到的所述意图标识,得到对应所述问诊记录数据的意图标识序列;所述对各所述对象的问句或者各对象的答句分别进行意图识别,得到各意图标识,包括:
通过预先训练完成的对应各所述对象的问句或者各对象的答句的意图识别模型分别进行意图识别,得到各意图标识;
所述意图识别模型的训练方式包括:
获取多个历史问诊记录数据;
基于各所述历史问诊记录数据中的角色标识,对各所述问诊记录数据中的各问答句进行识别并进行分类,得到分别对应各对象的问句以及各答句的分类结果,各分类结果中包括第一数量的问答句;
对所述分类结果中的问答句进行聚类,生成对应所述分类结果的各问答句聚类集合;
根据各所述分类结果的问答句聚类集合,对各意图识别模型进行分别训练,得到训练后的各意图识别模型;其中,所述对所述分类结果中的问答句进行聚类,生成对应所述分类结果的各问答句聚类集合,包括:
对所述分类结果中的问答句进行分组,得到第二数量的问答句集合;
根据问答句的文本组成以及句子长度,确定各问答句集合中任意两个问答句的句子相似度,并基于确定的句子相似度生成对应所述分类结果的第三数量的相似数据集合;
根据各相似数据集合中问答句的数量以及相似数据集合之间问答句的句子相似度,确定各相似数据集合之间的集合相似度,并将集合相似度大于阈值的相似数据集合进行合并,得到对应所述分类结果的第四数量的问答句聚类集合;所述第一数量大于所述第二数量,所述第二数量大于所述第三数量,所述第三数量大于所述第四数量。
2.根据权利要求1所述的方法,其特征在于,所述对各对象的各问答句分别进行识别,确定各所述问答句为对应对象的问句或者对应对象的答句,包括:
识别各对象的各问答句中的关键字符,并基于识别的各关键字符确定各问答句为问句的概率指标;
判断所述概率指标是否大于或等于预设指标阈值;
当所述概率指标大于或等于所述预设指标阈值时,则确定所述问答句为问句;
当所述概率指标小于所述预设指标阈值时,则确定所述问答句为答句。
3.根据权利要求1所述的方法,其特征在于,所述根据问答句的文本组成以及句子长度,确定各问答句集合中任意两个问答句的句子相似度,并基于确定的句子相似度生成对应所述分类结果的第三数量的相似数据集合,包括:
根据各所述问答句集合内任意两个问答句的文本组成以及问答句的句子长度,确定所述任意两个问答句的句子相似度;
判断所述句子相似度是否大于或等于预设句子相似度阈值;
当所述句子相似度大于或等于预设句子相似度阈值时,确定所述句子相似度对应的问答句相似,并将对应的问答句添加至同一相似数据集合中;
遍历各所述问答句集合,得到对应所述分类结果的第三数量的相似数据集合。
4.根据权利要求1所述的方法,其特征在于,所述根据各相似数据集合中问答句的数量以及相似数据集合之间问答句的句子相似度,确定各相似数据集合之间的集合相似度,并将集合相似度大于阈值的相似数据集合进行合并,得到对应所述分类结果的第四数量的问答句聚类集合,包括:
确定各相似数据集合中问答句的数量,并确定各相似数据集合中问答句的数量满足预设句子数量阈值的相似数据集合为待处理相似数据集合;
根据待处理相似数据集合之间预设数量的问答句之间的句子相似度,确定各相似数据集合之间的集合相似度,并将集合相似度大于预设集合相似度阈值的待处理相似数据集合进行合并,得到对应所述分类结果的第四数量的问答句聚类集合。
5.一种医疗领域问答对的生成装置,其特征在于,所述装置包括:
问诊记录数据获取模块,用于获取问诊记录数据,所述问诊记录数据中包括多个问答句以及对应各问答句的对象的对象标识;
意图标识序列生成模块,用于基于各所述对象标识,对所述问诊记录数据中的各问答句分别进行意图识别,得到对应所述问诊记录数据的意图标识序列;其中,所述意图标识序列生成模块包括:问答句确定子模块,用于根据各所述对象标识,确定所述问诊记录数据中对应各对象的各问答句;问答句识别子模块,用于对各对象的各问答句分别进行识别,确定各所述问答句为对应对象的问句或者对应对象的答句;意图标识得到子模块,用于通过所述对应对象的问句或者所述对应对象的答句对应的意图识别模型对各所述对象的问句或者各对象的答句分别进行意图识别,得到对应的意图标识;意图标识序列确定子模块,用于根据所得到的所述意图标识,得到对应所述问诊记录数据的意图标识序列;
意图标识确定模块,用于根据多个问诊记录数据对应的意图标识序列,确定意图标识序列中各问句的问句意图标识所对应的多个初始答句的答句识别标识;
目标问答对生成模块,用于从所述多个初始答句的答句识别标识中确定对应所述问句的目标答句意图标识,并基于各问句意图标识以及对应的目标答句意图标识,生成各目标问答对;
训练模块,用于训练意图识别模型;
其中,所述训练模块包括:
历史问诊记录数据获取子模块,用于获取多个历史问诊记录数据;
分类结果确定子模块,用于基于各所述历史问诊记录数据中的角色标识,对各所述问诊记录数据中的各问答句进行识别并进行分类,得到分别对应各对象的问句以及各答句的分类结果,各分类结果中包括第一数量的问答句;
问答句聚类集合确定子模块,用于对所述分类结果中的问答句进行聚类,生成对应所述分类结果的各问答句聚类集合;
训练子模块,用于根据各所述分类结果的问答句聚类集合,对各意图识别模型进行分别训练,得到训练后的各意图识别模型;
其中,问答句集合单元,用于对所述分类结果中的问答句进行分组,得到第二数量的问答句集合;
相似数据集合确定单元,用于根据问答句的文本组成以及句子长度,确定各问答句集合中任意两个问答句的句子相似度,并基于确定的句子相似度生成对应所述分类结果的第三数量的相似数据集合;
问答句聚类集合确定单元,用于根据各相似数据集合中问答句的数量以及相似数据集合之间问答句的句子相似度,确定各相似数据集合之间的集合相似度,并将集合相似度大于阈值的相似数据集合进行合并,得到对应所述分类结果的第四数量的问答句聚类集合。
6.根据权利要求5所述的装置,其特征在于,所述问答句识别子模块包括:
关键字符识别单元,用于识别各对象的各问答句中的关键字符,并基于识别的各关键字符确定各问答句为问句的概率指标;
判断单元,用于判断所述概率指标是否大于或等于预设指标阈值;
第一确定单元,用于当所述概率指标大于或等于所述预设指标阈值时,则确定所述问答句为问句;
第二确定单元,用于根据所得到的所述意图标识,得到对应所述问诊记录数据的意图标识序列。
7.根据权利要求5所述的装置,其特征在于,所述相似数据集合确定单元,包括:
句子相似度确定子单元,用于根据各所述问答句集合内任意两个问答句的文本组成以及问答句的句子长度,确定所述任意两个问答句的句子相似度;
判断子单元,用于判断所述句子相似度是否大于或等于预设句子相似度阈值;
添加子单元,用于当所述句子相似度大于或等于预设句子相似度阈值时,确定所述句子相似度对应的问答句相似,并将对应的问答句添加至同一相似数据集合中;
遍历确定子单元,用于遍历各所述问答句集合,得到对应所述分类结果的第三数量的相似数据集合。
8.根据权利要求5所述的装置,其特征在于,所述问答句聚类集合确定单元,包括:
待处理相似数据集合确定子单元,用于确定各相似数据集合中问答句的数量,并确定各相似数据集合中问答句的数量满足预设句子数量阈值的相似数据集合为待处理相似数据集合;
问答句聚类集合确定子单元,用于根据待处理相似数据集合之间预设数量的问答句之间的句子相似度,确定各相似数据集合之间的集合相似度,并将集合相似度大于预设集合相似度阈值的待处理相似数据集合进行合并,得到对应所述分类结果的第四数量的问答句聚类集合。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010886227.6A CN112035610B (zh) | 2020-08-28 | 2020-08-28 | 医疗领域问答对的生成方法、装置、计算机设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010886227.6A CN112035610B (zh) | 2020-08-28 | 2020-08-28 | 医疗领域问答对的生成方法、装置、计算机设备和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112035610A CN112035610A (zh) | 2020-12-04 |
CN112035610B true CN112035610B (zh) | 2023-04-07 |
Family
ID=73587067
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010886227.6A Active CN112035610B (zh) | 2020-08-28 | 2020-08-28 | 医疗领域问答对的生成方法、装置、计算机设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112035610B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112650846B (zh) * | 2021-01-13 | 2024-08-23 | 北京智通云联科技有限公司 | 一种基于问句框架的问答意图知识库构建系统及方法 |
CN113223735B (zh) * | 2021-04-30 | 2024-08-20 | 平安科技(深圳)有限公司 | 基于对话表征的分诊方法、装置、设备及存储介质 |
CN114595321A (zh) * | 2022-03-23 | 2022-06-07 | 康键信息技术(深圳)有限公司 | 问题标注方法、装置、电子设备及存储介质 |
CN117556906B (zh) * | 2024-01-11 | 2024-04-05 | 卓世智星(天津)科技有限公司 | 问答数据集生成方法、装置、电子设备及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109783626A (zh) * | 2018-12-29 | 2019-05-21 | 联想(北京)有限公司 | 问题生成方法、智能问答系统、介质以及计算机系统 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2586249C2 (ru) * | 2014-06-24 | 2016-06-10 | Общество С Ограниченной Ответственностью "Яндекс" | Способ обработки поискового запроса и сервер |
CN105335400B (zh) * | 2014-07-22 | 2018-11-23 | 阿里巴巴集团控股有限公司 | 针对用户的提问意图获取答案信息的方法及装置 |
TWI562000B (en) * | 2015-12-09 | 2016-12-11 | Ind Tech Res Inst | Internet question answering system and method, and computer readable recording media |
US11288566B2 (en) * | 2018-05-31 | 2022-03-29 | International Business Machines Corporation | Building a gossip group of domain-specific chatbots |
CN108897867B (zh) * | 2018-06-29 | 2021-02-09 | 北京百度网讯科技有限公司 | 用于知识问答的数据处理方法、装置、服务器和介质 |
CN110175241B (zh) * | 2019-05-23 | 2021-08-03 | 腾讯科技(深圳)有限公司 | 问答库构建方法、装置、电子设备及计算机可读介质 |
CN111415740B (zh) * | 2020-02-12 | 2024-04-19 | 东北大学 | 问诊信息的处理方法、装置、存储介质及计算机设备 |
-
2020
- 2020-08-28 CN CN202010886227.6A patent/CN112035610B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109783626A (zh) * | 2018-12-29 | 2019-05-21 | 联想(北京)有限公司 | 问题生成方法、智能问答系统、介质以及计算机系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112035610A (zh) | 2020-12-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112035610B (zh) | 医疗领域问答对的生成方法、装置、计算机设备和介质 | |
Boenninghoff et al. | Explainable authorship verification in social media via attention-based similarity learning | |
CN109446302B (zh) | 基于机器学习的问答数据处理方法、装置和计算机设备 | |
WO2020135337A1 (zh) | 实体语义关系分类 | |
CN110765275A (zh) | 搜索方法、装置、计算机设备和存储介质 | |
Lin et al. | Cross-view retrieval via probability-based semantics-preserving hashing | |
CN110674319B (zh) | 标签确定方法、装置、计算机设备及存储介质 | |
CN113707300B (zh) | 基于人工智能的搜索意图识别方法、装置、设备及介质 | |
WO2020114100A1 (zh) | 一种信息处理方法、装置和计算机存储介质 | |
WO2020198855A1 (en) | Method and system for mapping text phrases to a taxonomy | |
Altheneyan et al. | Big data ML-based fake news detection using distributed learning | |
CN113707303A (zh) | 基于知识图谱的医疗问题解答方法、装置、设备及介质 | |
CN110808095B (zh) | 诊断结果识别、模型训练的方法、计算机设备及存储介质 | |
US20180113950A1 (en) | Queryng graph topologies | |
CN109189892B (zh) | 一种基于文章评论的推荐方法及装置 | |
CN113094478B (zh) | 表情回复方法、装置、设备及存储介质 | |
CN113204942A (zh) | 病案编码方法、装置、终端设备及可读存储介质 | |
Traina et al. | Querying on large and complex databases by content: Challenges on variety and veracity regarding real applications | |
CN110377618B (zh) | 裁决结果分析方法、装置、计算机设备和存储介质 | |
CN114493902A (zh) | 多模态信息异常监控方法、装置、计算机设备及存储介质 | |
CN113241193A (zh) | 药物推荐模型训练方法、推荐方法、装置、设备及介质 | |
CN117648916A (zh) | 文本相似度识别模型训练方法和文本相关信息获取方法 | |
CN117350291A (zh) | 一种电子病历命名实体识别方法、装置、设备及存储介质 | |
Mu et al. | Deep hashing: A joint approach for image signature learning | |
Zhao et al. | Multi-view dimensionality reduction via subspace structure agreement |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |