CN115238679A - 同义词的挖掘方法、装置、计算机可读介质及电子设备 - Google Patents
同义词的挖掘方法、装置、计算机可读介质及电子设备 Download PDFInfo
- Publication number
- CN115238679A CN115238679A CN202210827670.5A CN202210827670A CN115238679A CN 115238679 A CN115238679 A CN 115238679A CN 202210827670 A CN202210827670 A CN 202210827670A CN 115238679 A CN115238679 A CN 115238679A
- Authority
- CN
- China
- Prior art keywords
- question
- answer
- entity word
- corpus
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000005065 mining Methods 0.000 title claims abstract description 71
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000013528 artificial neural network Methods 0.000 claims abstract description 57
- 238000012549 training Methods 0.000 claims abstract description 17
- 238000012545 processing Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 14
- 239000000463 material Substances 0.000 claims description 8
- 201000010099 disease Diseases 0.000 claims description 7
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 7
- 230000008030 elimination Effects 0.000 claims description 4
- 238000003379 elimination reaction Methods 0.000 claims description 4
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 25
- 230000006870 function Effects 0.000 description 13
- 238000004891 communication Methods 0.000 description 7
- 239000003814 drug Substances 0.000 description 6
- 206010012735 Diarrhoea Diseases 0.000 description 5
- 239000000047 product Substances 0.000 description 5
- 201000004384 Alopecia Diseases 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 210000004251 human milk Anatomy 0.000 description 4
- 235000020256 human milk Nutrition 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 239000007787 solid Substances 0.000 description 4
- 210000001015 abdomen Anatomy 0.000 description 3
- 201000006549 dyspepsia Diseases 0.000 description 3
- 208000024963 hair loss Diseases 0.000 description 3
- 230000003676 hair loss Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 208000008035 Back Pain Diseases 0.000 description 2
- 208000004232 Enteritis Diseases 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 208000024891 symptom Diseases 0.000 description 2
- 208000004998 Abdominal Pain Diseases 0.000 description 1
- 206010019468 Hemiplegia Diseases 0.000 description 1
- 208000008930 Low Back Pain Diseases 0.000 description 1
- 206010033799 Paralysis Diseases 0.000 description 1
- 241001482237 Pica Species 0.000 description 1
- 206010044565 Tremor Diseases 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 231100000360 alopecia Toxicity 0.000 description 1
- 208000019804 backache Diseases 0.000 description 1
- 210000000481 breast Anatomy 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 206010013781 dry mouth Diseases 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000027939 micturition Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 206010029864 nystagmus Diseases 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Probability & Statistics with Applications (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请的实施例提供了一种同义词的挖掘方法、装置、计算机可读介质及电子设备,该方法包括:获取问答语料和问答语料中包含的实体词,并确定问答语料所属的类别;生成与问答语料对应的问答语料节点以及与实体词对应的实体词节点;在多个节点之间添加具有权值的边,得到第一问答实体词图;根据第一问答实体词图和各问答语料所属的类别对原始图神经网络进行训练,得到目标图神经网络;基于目标图神经网络提取第二问答实体词图中各实体词节点对应的向量表示,并根据向量表示挖掘出同义词。本申请实施例可以提高同义词挖掘的高效性、准确性和覆盖的全面性。本申请实施例可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。
Description
技术领域
本申请涉及机器学习技术领域,具体而言,涉及一种同义词的挖掘方法、装置、计算机可读介质及电子设备。
背景技术
目前,随着信息时代的进步,很多文本处理场景需要使用到同义词。
然而,现有的挖掘同义词的方法大都是通过人工方式收集同义词,这种方式不仅效率低,成本高,而且过于依赖收集人员的专业能力,同时,收集的同义词覆盖不是很全面。
发明内容
本申请的实施例提供了一种同义词的挖掘方法、装置、计算机可读介质及电子设备,进而至少在一定程度上可以在保证同义词挖掘的高效性和准确性的同时,进一步提高同义词覆盖的全面性。
本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
根据本申请实施例的一个方面,提供了一种同义词的挖掘方法,所述方法包括:获取多个问答语料和各问答语料中包含的实体词,并确定各问答语料所属的类别;生成与每个问答语料对应的问答语料节点以及与每个实体词对应的实体词节点;在多个所述节点之间添加具有权值的边,得到第一问答实体词图,所述权值用于衡量具有所述权值的边所连接的两个节点之间的相关性;根据所述第一问答实体词图和各问答语料所属的类别对用于文本分类的原始图神经网络进行训练,得到用于文本分类的目标图神经网络;基于所述用于文本分类的目标图神经网络提取第二问答实体词图中各实体词节点对应的向量表示,并根据各实体词节点对应的向量表示挖掘出同义词。
根据本申请实施例的一个方面,提供了一种同义词的挖掘装置,所述装置包括:获取和确定单元,用于获取多个问答语料和各问答语料中包含的实体词,并确定各问答语料所属的类别;生成单元,用于生成与每个问答语料对应的问答语料节点以及与每个实体词对应的实体词节点;添加单元,用于在多个所述节点之间添加具有权值的边,得到第一问答实体词图,所述权值用于衡量具有所述权值的边所连接的两个节点之间的相关性;训练单元,用于根据所述第一问答实体词图和各问答语料所属的类别对用于文本分类的原始图神经网络进行训练,得到用于文本分类的目标图神经网络;提取和挖掘单元,用于基于所述用于文本分类的目标图神经网络提取第二问答实体词图中各实体词节点对应的向量表示,并根据各实体词节点对应的向量表示挖掘出同义词。
在本申请的一些实施例中,基于前述方案,所述提取和挖掘单元配置为:确定各实体词节点对应的向量表示之间的语义距离;根据所述语义距离在各实体词节点对应的实体词中确定出同义词。
在本申请的一些实施例中,基于前述方案,所述添加单元配置为:根据目标实体词属于目标问答语料,在所述目标实体词对应的实体词节点与所述目标问答语料对应的问答语料节点之间添加边;根据第一实体词所属的第一问答语料和第二实体词所属的第二问答语料属于同一类别,在所述第一实体词对应的实体词节点和所述第二实体词对应的实体词节点之间添加边;确定各节点之间的相关性作为各节点之间的边的权值。
在本申请的一些实施例中,基于前述方案,所述添加单元配置为:确定目标实体词和目标问答语料之间的词频-逆文档频率,作为所述目标实体词对应的实体词节点与所述目标问答语料对应的问答语料节点之间的边的权值;确定第一实体词和第二实体词之间的逐点互信息,作为所述第一实体词对应的实体词节点和所述第二实体词对应的实体词节点之间的边的权值。
在本申请的一些实施例中,基于前述方案,所述获取和确定单元配置为:获取问答平台上的若干问答语料;从所述若干问答语料中去除总浏览次数小于预定数目次或者问答语料的文本长度小于预定长度阈值的问答语料,得到多个问答语料;从各所述问答语料中提取出实体词。
在本申请的一些实施例中,基于前述方案,所述生成单元配置为:为每个问答语料生成相应的问答语料节点;对所有实体词进行去重处理,得到去重处理后的实体词;为各去重处理后的实体词生成相应的实体词节点。
在本申请的一些实施例中,基于前述方案,所述训练单元配置为:将所述第一问答实体词图输入至用于文本分类的原始图神经网络,得到所述用于文本分类的原始图神经网络对所述第一问答实体词图中问答语料节点对应的问答语料的分类结果;根据各所述问答语料所属的类别和各问答语料对应的分类结果,对所述用于文本分类的原始图神经网络的参数进行更新,得到用于文本分类的目标图神经网络。
在本申请的一些实施例中,基于前述方案,在根据各实体词节点对应的向量表示挖掘出同义词之后,所述提取和挖掘单元还用于:当接收到查询信息,在挖掘出的同义词中确定出与所述查询信息中的词匹配的目标同义词;确定包含所述目标同义词的目标语料,并将所述目标语料返回给所述查询信息的发送方。
在本申请的一些实施例中,基于前述方案,所述问答语料为医疗问答语料,所述问答语料所属的类别为医疗问答语料所属的科室或疾病。
根据本申请实施例的一个方面,提供了一种计算机可读介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述实施例中所述的同义词的挖掘方法。
根据本申请实施例的一个方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述实施例中所述的同义词的挖掘方法。
根据本申请实施例的一个方面,提供了一种计算机程序产品,所述计算机程序产品包括计算机指令,所述计算机指令存储在计算机可读存储介质中,计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令,所述处理器执行所述计算机指令,使得所述计算机设备执行如上述实施例中所述的同义词的挖掘方法。
在本申请的一些实施例所提供的技术方案中,通过先获取问答语料和问答语料中包含的实体词,并确定各问答语料所属的类别,然后生成与每个问答语料对应的问答语料节点以及与每个实体词对应的实体词节点,并通过在节点之间添加具有权值的边来得到第一问答实体词图,由于权值用于衡量节点之间的相关性,因此,第一问答实体词图是表达实体词之间或者实体词与问答语料之间的共现关系的共现图;在此基础上,通过根据第一问答实体词图和各问答语料所属的类别对用于文本分类的原始图神经网络进行训练,得到用于文本分类的目标图神经网络,并通过目标图神经网络提取实体词对应的向量表示来进行同义词挖掘,由于各问答语料所属的类别是额外提供的监督信息,因此,通过同时根据第一问答实体词图和各问答语料所属的类别进行神经网络训练,可以使得训练而成的用于文本分类的目标图神经网络能够更准确地提取实体词对应的向量表示,从而提高了同义词挖掘的效率和准确性,同时,由于问答语料中包含的实体词是预先设置的,因此,可以自由定义实体词,因此在同义词挖掘时可以覆盖口语化的实体词,能够提高同义词覆盖的全面性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示出了可以应用本申请实施例的技术方案的示例性应用场景的示意图;
图2示出了根据本申请的一个实施例的同义词的挖掘方法的流程图;
图3示出了根据本申请的一个实施例的图2实施例中步骤210的细节的流程图;
图4示出了根据本申请的一个实施例的包含问答语料的页面的示意图;
图5示出了根据本申请的另一个实施例的包含问答语料的页面的示意图;
图6示出了根据本申请的一个实施例的图2实施例中步骤220的细节的流程图;
图7示出了根据本申请的一个实施例的医疗领域中的共现网络示意图;
图8示出了根据本申请的一个实施例的在多个节点之间添加具有权值的边的流程图;
图9示出了根据本申请的一个实施例的图8实施例中步骤830的细节的流程图;
图10示出了根据本申请的一个实施例的图2实施例中步骤240的细节的流程图;
图11示出了根据本申请的一个实施例的对用于文本分类的原始图神经网络进行训练的原理示意图;
图12示出了根据本申请的一个实施例的图2实施例中步骤250的细节的流程图;
图13示出了根据本申请的一个实施例的图2实施例中步骤250之后步骤的流程图;
图14示出了根据本申请的一个实施例的产品效果示意图;
图15示出了根据本申请的一个实施例的同义词的挖掘装置的框图;
图16示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本申请将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本申请的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
在相关技术中的同义词挖掘方法主要有两种:
方法一、通过专业人士人工收集、整理、标注专业的同义词词典。
方法二、采用一些机器学习或深度学习方法通过海量问答语料进行自动挖掘,例如,基于问答语料构建实体共现图,进而采用无监督的图挖掘算法,如deepwalk来学习这些实体的图嵌入表示,最终通过计算不同医疗实体的嵌入表示相似度大小来判定不同的实体对是否是候选的同义词对。
然而,上述两种同义词挖掘方法均存在一定的缺陷,无法满足当前对同义词挖掘的需求。
对于方法一,通过人工整理同义词词典的方法虽然可以获得较高准确率的同义词对,但也存在着明显的人工标注成本过高,效率较低且过于专业化的问题,而且,往往只能覆盖如腰痛->腰疼、眼颤->眼球震颤等书面语同义词,无法覆盖丰富多样的用户化口语表达相关的同义词对,例如,总是想小便->尿频、掉头发->脱发、嘴巴好渴->口干等口语化表达的同义词对无法被现有技术覆盖。基于之前传统人工词典的医疗同义词,发明人在现网医疗搜索系统中统计的覆盖情况如表1所示:
表1
可以看到,query即为查询,召回摸底结果显示,对于向现网医疗搜索系统请求的265项查询,总共会涉及332个同义词对,然而,覆盖到的同义词对仅有132,即现网医疗搜索系统基于传统人工词典进行结果返回时,返回的结果仅涉及到所有同义词对中的40%左右,未覆盖的同义词对达到200,即现网医疗搜索系统返回的结果未能够覆盖所有同义词对中的60%左右。因而,当前大量的医疗同义词、尤其是口语化医疗同义词在医疗问答文本搜索中尚未覆盖。
对于方法二,基于图游走deepWalk图嵌入挖掘方法是无监督的,且仅仅利用了图的结构信息学习结点的向量表示,这就导致其图游走路径是随机的,缺乏有监督信号约束,最终无法得到更高的向量表示准确度和迭代效率,这会直接导致同义词挖掘的准确性依然不高。
为此,本申请首先提供了一种同义词的挖掘方法。基于本申请实施例提供的同义词的挖掘方法可以克服上述缺陷,该同义词的挖掘方法不仅能够提高同义词挖掘的高效性和准确性,还可以进一步挖掘传统人工整理方式难以覆盖的以口语化形式表达的同义词,从而进一步提高同义词覆盖的全面性,进而从整体上提升同义词的挖掘的性能。
图1示出了可以应用本申请实施例的技术方案的示例性应用场景的示意图。如图1所示,该系统架构100包括管理终端110、服务器120、多个用户终端130、云端150以及数据库140,多个用户终端130具体包括第一用户终端131、第二用户终端132以及第三用户终端133,各用户终端与云端150之间、数据库140及服务器120与云端之间均通过通信链路链接,管理终端110和服务器120之间也建立了通信连接,云端150上部署有医疗信息检索系统的服务端,各用户终端上具有医疗信息检索系统的客户端,这里的客户端可以是小程序、App、应用程序、Web页面等,服务器120上则部署有用于文本分类的原始图神经网络。在本申请实施例中,服务器120为实施终端,当本申请实施例提供的一种同义词的挖掘方法应用于图1所示的系统架构中时,一个过程可以是这样的:首先,管理终端110将预先由人工收集好的医疗实体词典发送至服务器120;然后,服务器120会检索出由其索引的所有医疗问答文本数据,并根据医疗实体词典从各医疗问答文本数据中提取出医疗实体词,另外,服务器120还会自动根据医疗问答文本数据的组织形式得到医疗问答文本数据所属的类别;接着,服务器120通过生成与医疗问答文本数据对应的问答语料节点及与医疗实体词对应的实体词节点,并在节点之间添加具有权值的边,从而得到问答实体词图;接下来,服务器120将问答实体词图输入至用于文本分类的原始图神经网络,根据医疗问答文本数据所属的类别对用于文本分类的原始图神经网络进行有监督地训练,得到用于文本分类的目标图神经网络;下一步,服务器120将问答实体词图输入至用于文本分类的目标图神经网络,得到用于文本分类的目标图神经网络输出的与每个医疗实体词对应的向量表示,并根据各个医疗实体词对应的向量表示确定出同义词对;接下来,服务器120将挖掘出的同义词对发送至云端150,云端150将这些同义词对存储至数据库140中;最后,当某一用户终端的用户使用其用户终端上的客户端向服务器120发送了医疗问答请求后,服务器120会找到医疗问答请求中携带的医疗实体词,通过检索数据库140找到医疗实体词的同义词,最终向该用户终端返回包含医疗实体词和/或医疗实体词的同义词的医疗问答信息。
在本申请的一些实施例中,服务器120是根据医疗实体词对应的向量表示之间的相似度来确定出同义词对的。
在本申请的一些实施例中,从医疗问答文本数据中提取出的医疗实体词包括口语化的医疗实体词。
应该理解,图1中的管理终端、服务器、用户终端、云端及数据库的数目仅仅是示意性的。根据实现需要,可以具有任意数目的管理终端、服务器、用户终端、云端及数据库,例如,用户终端的数量也可以超过三个,管理终端、服务器以及数据库的数量也均可以为多个,服务器、数据库以及云端均可以为多个服务器组成的服务器集群等。
需要说明的是,图1示出的仅为本申请的一个实施例。虽然在图1实施例的方案用于在医疗领域进行同义词的提取,并向用户提供医疗问答信息,但在本申请的其他实施例中,该方案还可以应用于各种其他领域中,例如可以应用于电子商务领域,提取产品同义词,向用户提供产品问答信息,也可以应用于法律领域,向用户提供法律知识问答信息等;虽然图1实施例的方案具体应用于服务器上,但在本申请的其他实施例中,同义词的挖掘方法还可以应用在智能手机、台式计算机、工作站、平板电脑、车载终端等各种类型的终端设备上;虽然在图1实施例的方案中,用于文本分类的目标图神经网络是在服务器上训练得到的,而基于用于文本分类的目标图神经网络挖掘出的同义词是在云端进行利用的,但在本申请的其他实施例中,无论是用于文本分类的目标图神经网络的部署还是对挖掘出的同义词进一步进行利用,还可以在同一个终端设备上实现;虽然在图1实施例的方案中,医疗实体词是服务器自动从各医疗问答文本数据中提取出医疗实体词出来的,但在本申请的其他实施例中,医疗实体词还可以由人工提取出来,例如,可以由人手动在医疗问答文本数据中标注出医疗实体词。本申请实施例对此不作任何限定,本申请的保护范围也不应因此而受到任何限制。
易于理解,本申请实施例所提供的同义词的挖掘方法一般由服务器执行,相应地,同义词的挖掘装置一般设置于服务器中。但是,在本申请的其它实施例中,终端设备也可以与服务器具有相似的功能,从而执行本申请实施例所提供的同义词的挖掘方案。
因此,本申请实施例可以应用于终端或服务器中。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
以下对本申请实施例的技术方案的实现细节进行详细阐述:
图2示出了根据本申请的一个实施例的同义词的挖掘方法的流程图,该同义词的挖掘方法可以由各种能够计算和处理的设备来执行,比如可以是用户终端或云服务器,用户终端包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器、便携式设备等。本申请实施例可应用于各种场景,包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。请参照图2所示,该同义词的挖掘方法至少包括以下步骤:
在步骤210中,获取多个问答语料和各问答语料中包含的实体词,并确定各问答语料所属的类别。
问答语料也可以称为文档,问答语料可以是包含各种问答内容的文本数据,问答语料可以属于各种具体领域,例如可以是医疗领域中的医疗问答信息,也可以是科普领域中的科普知识问答信息。问答语料可以是预先设置的,例如可以是由人工编写的;当然问答语料也可以是从互联网上爬取或检索到的。问答语料中包含的实体词可以是描述各种对象的词语或短语,例如,在医疗领域中,实体词可以是疾病的名称、药品的名称、症状的名称、检查手段的描述信息、治疗措施的描述信息等。
在本申请的一个实施例中,问答语料中包含的实体词包括口语化的实体词。
具体地,口语化的实体词是对书面语的实体词所对应的口语化表达,例如,书面语的实体词可以是“消化不良”,与之相对应的口语化的实体词可以是“拉肚子”。
在本申请的一个实施例中,问答语料包括问题语料以及解决该问题语料的答案语料。
可以从问题语料和答案语料中分别提取出实体词,在问答语料中,问题语料通常是以标题的形式存在的,答案语料则往往是以正文的形式存在的。
图3示出了根据本申请的一个实施例的图2实施例中步骤210的细节的流程图。如图3所示,获取多个问答语料和各问答语料中包含的实体词具体可以包括以下步骤:
在步骤211中,获取问答平台上的若干问答语料。
问答平台例如可以是医疗信息搜索平台,可以获取医疗信息搜索平台索引的所有医疗问答语料数据。医疗信息搜索平台可以作为一个医疗信息搜索引擎,索引和聚合各种其他网站上的医疗问答语料数据,当用户在医疗信息搜索平台上搜索问题时,医疗信息搜索平台可以返回与该问题匹配的医疗问答语料数据。医疗问答语料数据是医疗问答页面中的内容。
在步骤212中,从若干问答语料中去除总浏览次数小于预定数目次或者问答语料的文本长度小于预定长度阈值的问答语料,得到多个问答语料。
预定数目次和预定长度阈值可以根据实际需要和经验进行设置。总浏览次数可以是对包含着问答语料的页面的浏览次数。
具体地,可以在医疗信息搜索平台索引的所有医疗问答语料数据中去除总浏览次数小于5次,或者包含的问题语料的长度小于问题语料长度阈值,或者包含的答案语料的长度小于答案语料长度阈值的医疗问答语料数据。
图4示出了根据本申请的一个实施例的包含问答语料的页面的示意图。图5示出了根据本申请的另一个实施例的包含问答语料的页面的示意图。
请参见图4所示,该页面中的内容即为问答语料,该问答语料具体包括“26天新生儿吃母乳拉肚子”这一问题语料以及医生提供的解决该问题语料的答案语料,答案语料包括病情分析、指导意见等。对于图5所示页面,该页面中的内容为另一个问答语料,该问答语料具体包括“母乳性腹泻的宝宝应该怎么治疗谢谢”这一问题语料以及医生回复的解决该问题语料的答案语料。
在步骤213中,从各问答语料中提取出实体词。
可以从每个问答语料中提取出一个或多个实体词,从不同问答语料中提取出的实体词可以相同,因此,在提取出实体词之后,可以对所有实体词进行去重,去掉重复的实体词,将每个实体词仅保留一个。
可以根据人工收集的医疗实体词典来从问答语料中提取出实体词。具体而言,医疗实体词典包括多个医疗实体词,从问答语料中提取出存在于医疗实体词典中的医疗实体词。当然,也可以获取以人工方式从问答语料中提取出的实体词。另外,还可以采用医疗实体词典和人工方式相结合的方式从问答语料中提取出实体词。具体而言,可以利用医疗实体词典从答案语料中提取出实体词,由于问题语料通常包含口语化的内容,因此可以采用人工方式从问题语料中提取出实体词。
在本申请实施例中,通过去除总浏览次数或者问答语料的文本长度较小的问答语料,保证了最终得到的问答语料具有较高的质量且具有足够的信息量,从而为后续步骤提供质量较高的数据。
图4和图5中标注框所标注内容即为从问答语料中提取出的实体词。在图4所示的问答语料中,从问题语料中提取出的实体词为“吃母乳拉肚子”,从答案语料中提取出的实体词则包括“腹泻”、“思密达”、“消化不良”等。请参见图5所示,从问题语料中提取出的实体词为“母乳性腹泻”,从答案语料中提取出的实体词则包括“腹泻”、“消化不良”、“思密达”等。
请继续参见图2所示,在步骤220中,生成与每个问答语料对应的问答语料节点以及与每个实体词对应的实体词节点。
具体地,可以以One-Hot(独热)方式为每个问答语料生成相应的问答语料向量,并为每个实体词生成相应的实体词向量。将问答语料向量作为问答语料节点,将实体词向量作为实体词节点。
图6示出了根据本申请的一个实施例的图2实施例中步骤220的细节的流程图。请参阅图6所示,生成与每个问答语料对应的问答语料节点以及与每个实体词对应的实体词节点具体可以包括以下步骤:
在步骤221中,为每个问答语料生成相应的问答语料节点。
对于每一问答语料,都生成与之对应的问答语料节点。
在步骤222中,对所有实体词进行去重处理,得到去重处理后的实体词。
通过在每组重复的实体词中仅保留一个实体词,使得所有保留下来的实体词中任意两个实体词均不相同,实现对实体词的去重处理。
在步骤223中,为各去重处理后的实体词生成相应的实体词节点。
去重处理后的实体词中任意两个实体词均不同。生成的节点的总数为问答语料的数量与去重处理后的实体词的数量之和。
图7示出了根据本申请的一个实施例的医疗领域中的共现网络示意图。请参见图7所示,位于左侧的问答-实体词图包括方框节点和圆圈节点,方框节点即代表问答语料节点,圆圈节点则代表实体词节点,可以看到,各实体词节点对应的医疗实体词有腹泻、气急、偏瘫、瘫痪、肠炎、腹痛等。
请继续参见图2所示,在步骤230中,在多个节点之间添加具有权值的边,得到第一问答实体词图,权值用于衡量具有权值的边所连接的两个节点之间的相关性。
可以在两个实体词节点之间或者一个实体词节点与一个问答语料节点之间添加边。
第一问答实体词图可以是图7左侧的问答-实体词图,可以看到,该问答-实体词图的一些节点之间通过边相连。具体来说,权值衡量的相关性具体可以为具有权值的边所连接的两个节点间的共现程度,因此,图7左侧的问答-实体词图也可以称为问答语料与医疗实体词的共现网络。
图8示出了根据本申请的一个实施例的在多个节点之间添加具有权值的边的流程图。请参见图8所示,在多个节点之间添加具有权值的边具体可以包括以下步骤:
在步骤810中,根据目标实体词属于目标问答语料,在目标实体词对应的实体词节点与目标问答语料对应的问答语料节点之间添加边。
具体地,若一个实体词是从一个问答语料中提取出来的,那么就可以在相应的实体词节点与问答语料节点之间添加边,以表示该实体词与该问答语料之间存在一定的共现关系。
请参见图7所示,位于左侧的问答-实体词图中问答语料节点与实体词节点便存在边,例如,“问答1”这一问答语料节点便与“气急”这一实体词节点之间存在一条边。另外,每个实体词节点可以与多个问答语料节点之间存在边,比如,“肠炎”这一实体词节点与两个问答语料节点之间存在边;每个问答语料节点可以与多个实体词节点之间存在边,“问答3”这一问答语料节点便与两个实体词节点之间存在边。
在步骤820中,根据第一实体词所属的第一问答语料和第二实体词所属的第二问答语料属于同一类别,在第一实体词对应的实体词节点和第二实体词对应的实体词节点之间添加边。
问答语料所属的类别可以是预先由模型划分得到的,也可以通过人工标记生成。不同的问答语料可以属于相同的类别,也可以属于不同的类别。
在本申请的一个实施例中,问答语料所属的类别是根据问答语料所在页面内的信息确定的。
在本申请的一个实施例中,问答语料为医疗问答语料,问答语料所属的类别为医疗问答语料所属的科室或疾病。
请参见图4和图5所示,页面最上方包含有问题语料的分类,例如,图4所示的问答语料具体包括“26天新生儿吃母乳拉肚子”这一问题语料,根据该页面内的信息显示,该问题语料所属的类别为小儿内科,因此,图4所示的问答语料可以属于小儿内科。
当两个实体词是从属于同一类别的两个问答语料中提取出来的,那么就可以在这两个实体词对应的实体词节点之间添加边,以表示这两个实体词之间存在一定的共现关系。
在步骤830中,确定各节点之间的相关性作为各节点之间的边的权值。
当为节点之间添加了边之后,便可以为边进一步确定权值,以衡量共现程度或相关性。
节点之间的边的权值相当于用于表示节点之间的关系的邻接矩阵的值。
图9示出了根据本申请的一个实施例的图8实施例中步骤830的细节的流程图,请参阅图9所示,步骤830具体可以包括以下步骤:
在步骤831中,确定目标实体词和目标问答语料之间的词频-逆文档频率,作为目标实体词对应的实体词节点与目标问答语料对应的问答语料节点之间的边的权值。
词频-逆文档频率(TF-IDF,Term Frequency-Inverse Document Frequency)可以通过如下公式进行计算:
TF=词在该文档出现次数/该文档总词数
IDF=log(文档总数/(包含该词的文档数+1))
其中,文档为问答语料,TF为词频,IDF为逆文档频率。
在步骤832中,确定第一实体词和第二实体词之间的逐点互信息,作为第一实体词对应的实体词节点和第二实体词对应的实体词节点之间的边的权值。
实体词之间的逐点互信息(Pointwise mutual information,PMI)可以通过如下公式进行计算:
PMI=log(词对<a,b>出现频率/(a出现频率*b出现频率))
其中,出现频率是通过在问答语料进行滑窗统计得到的,词对<a,b>的出现频率为所有问答语料中同时包含词a和词b的滑动窗口的数量与所有滑动窗口的数量的比值,a出现频率为所有问答语料中包含词a的滑动窗口的数量与所有滑动窗口的数量的比值,b出现频率为所有问答语料中包含词b的滑动窗口的数量与所有滑动窗口的数量的比值,滑动窗口为超参数,可以预先进行设置。
如图7所示,位于左侧的问答-实体词图中问答语料节点与问答语料节点之间还存在边。
在本申请的一个实施例中,在多个节点之间添加具有权值的边,还包括:根据第一问答语料和第二问答语料属于同一类别,在第一问答语料对应的问答语料节点和第二问答语料对应的问答语料节点之间添加边。
具体地,两个问答语料节点之间可以设置边,也可以不设置边,并且边的权值可以根据一定规则进行设置。如果在两个问答语料节点之间可以设置边,那么,任意两个问答语料节点之的边的权值可以是相同的,比如可以均为1;当然还可以根据不同问答语料节点对所属细分类别的不同,为不同问答语料节点对之间的边设置不同的权值。例如,当第一问答语料节点对中的两个问答语料节点均属于内科这一类别下的成人内科这一细分类别时,可以为该第一问答语料节点对之间的边设置权值为1;当第二问答语料节点对中的两个问答语料节点均属于内科这一类别下的小儿内科这一细分类别时,可以为该第二问答语料节点对之间的边设置权值为2。
在步骤240中,根据第一问答实体词图和各问答语料所属的类别对用于文本分类的原始图神经网络进行训练,得到用于文本分类的目标图神经网络。
第一问答实体词图相当于样本数据,问答语料所属的类别即为类别标签,因此,基于样本数据和类别标签可以对用于文本分类的原始图神经网络进行有监督地训练。
图10示出了根据本申请的一个实施例的图2实施例中步骤240的细节的流程图。请参见图10所示,步骤240具体可以包括以下步骤:
在步骤241中,将第一问答实体词图输入至用于文本分类的原始图神经网络,得到用于文本分类的原始图神经网络对第一问答实体词图中问答语料节点对应的问答语料的分类结果。
用于文本分类的图神经网络可以是用于文本分类的图卷积网络(GraphConvolutional Networks for Text Classification,TextGCN)、GraphSage等。请参见图7所示,左侧的问答-实体词图即为用于文本分类的图卷积网络的输入,将问答-实体词图输入至TextGCN后,经过TextGCN中若干隐藏层的处理,得到问答语料节点对应的问答向量表示以及与实体词节点对应的实体词向量表示。
在步骤242中,根据各问答语料所属的类别和各问答语料对应的分类结果,对用于文本分类的原始图神经网络的参数进行更新,得到用于文本分类的目标图神经网络。
请继续参见图7所示,问答语料属于某一个类别,例如,“问答2”和“问答3”这两个节点对应的问答语料均属于消化内科这一类别,而“问答3”这一个节点对应的问答语料属于神经内科这一类别;TextGCN还会输出与问答语料的问答向量表示对应的分类结果。基于问答语料的类别和分类结果可以优化损失函数,进行模型参数的更新。
图11示出了根据本申请的一个实施例的对用于文本分类的原始图神经网络进行训练的原理示意图。请参见图11(a)所示,图卷积网络的输入层即为前述的问答-实体词图,其包括X1、X2、X3、X4等节点,节点之间存在边,将问答-实体词图输入至图卷积网络,图卷积网络的输出结果位于输出层,可以看到输出层包括与每个节点对应的向量表示,分别为Z1、Z2、Z3、Z4,向量表示Z1和Z4对应的类别分别为Y1和Y4,类别例如可以是科室,根据类别便可以对模型进行训练。图11(a)中各节点在隐藏层激活信息的可视化示意图如图11(b)所示。
用于文本分类的图卷积网络可以表示为如下形式:
其中,f为用于文本分类的图卷积网络的模型函数,X为节点的特征向量集合,为缩放邻接矩阵,RELU为卷积操作,W(0)∈RC×H是输入层到隐藏层的权重,W(1)∈RH×F是隐藏层到输出层的权重,Softmax即为分类层,用于输出类别,Z为输出的向量表示。
最终可以基于交叉熵损失构建如下损失函数,通过最小化如下损失函数进行模型的训练:
其中,ln为交叉熵对数,l为第l个问答语料,yL为问答语料的集合,f为第f个类别,F为所有类别,Ylf为第l个问答语料在第f个类别的实际概率,Zlf为第l个问答语料在第f个类别的预测概率,L为损失函数。
在步骤250中,基于用于文本分类的目标图神经网络提取第二问答实体词图中各实体词节点对应的向量表示,并根据各实体词节点对应的向量表示挖掘出同义词。
由于口语化同义词通常位于问题语料中,因此在具体实现时,可以优先挖掘问题语料和与问题语料对应的答案语料之间的同义词,从而从问题语料中挖掘出与答案语料中实体词对应的同义词,作为答案语料中实体词的口语化同义词。
第二问答实体词图可以是与第一问答实体词图相同或者不同的问答实体词图。
图12示出了根据本申请的一个实施例的图2实施例中步骤250的细节的流程图。请参见图12所示,根据各实体词节点对应的向量表示挖掘出同义词具体可以包括以下步骤:
在步骤251中,确定各实体词节点对应的向量表示之间的语义距离。
可以基于consin相似度计算两两向量表示之间的语义距离。
在步骤252中,根据语义距离在各实体词节点对应的实体词中确定出同义词。
在本申请的一个实施例中,根据语义距离在各实体词节点对应的实体词中确定出同义词,包括:将对应的语义距离大于预定语义距离阈值的实体词对作为同义词对。
在得到同义词对之后,可以将同义词对收录进同义词词典中,从而对同义词词典进行补充。
图13示出了根据本申请的一个实施例的图2实施例中步骤250之后步骤的流程图。如图13所示,在步骤250之后还可以包括以下步骤:
在步骤260中,当接收到查询信息,在挖掘出的同义词中确定出与查询信息中的词匹配的目标同义词。
查询信息比如可以是用户向医疗信息检索系统输入的信息,查询信息通常是一句话、一个短语、一个词等文本内容。挖掘出的同义词包括多个同义词对,当两个词属于同一个同义词对时,可以认为这两个词是相互匹配的。
在步骤270中,确定包含目标同义词的目标语料,并将目标语料返回给查询信息的发送方。
当找到包含目标同义词的目标语料,可以将将目标语料作为检索结果返回给用户,使用户能获取到准确与用户输入的信息匹配的内容。
图14示出了根据本申请的一个实施例的产品效果示意图。请参见图14所示,在医疗问答文本搜索场景中,当用户搜索“掉头发怎么办”时,系统不仅会返回包含掉头发的文本语料,还会返回与“脱发”这一掉头发的同义词相关的内容,并且这些内容可以排在更前面进行显示。
本申请发明人还将基于TextGCN进行同义词挖掘和基于Deepwalk进行同义词挖掘的效果进行了实验,在该实验中,取200万条医疗问答语料,分别训练Deepwalk以及TextGCN,实验数据如表1所示:
表1
在医疗问答文本搜索场景中使用两个模型分别挖掘得到的同义词后,医疗信息检索系统基于这些同义词返回与查询信息对应的查询结果,通过确定前面若干个查询结果中与查询信息匹配的比例得到表1中数据。例如,top5对应的0.2989代表了医疗信息检索系统使用基于Deepwalk挖掘出的同义词得到前5个查询结果中与查询信息匹配的比例为0.2989,top10对应的0.4334代表了医疗信息检索系统使用基于TextGCN挖掘出的同义词得到前10个查询结果中与查询信息匹配的比例为0.4334。可以看到,通过引入科室信息作为监督信号,并基于TextGCN进行同义词挖掘的方法明显优于基于Deepwalk进行同义词挖掘的方法。
综上所述,根据本申请实施例提供的同义词的挖掘方法至少能够取得以下技术效果:本申请实施例假设同义词应当出现在同一类别的问答语料中,即假设疾病同义词和症状同义词应当出现在共同的科室,并提出一种在海量问答文本语料中利用外部信息,例如问答语料的科室信息作为有监督的信号,通过图神经网络模型学习结点向量表示的方法,进而基于该向量表示相似度大小来挖掘医疗同义词,相比原有无监督随机游走的deepwalk等挖掘方法可显著提升同义词词典挖掘的准确性,与人工方式相比,则能够显著提高同义词的挖掘效率。以医疗问答文本搜索场景为例,其可用于补充原有医疗同义词词典整体规模不足,能够解决口语化同义词缺失且不多样的问题。
以下介绍本申请的装置实施例,可以用于执行本申请上述实施例中的同义词的挖掘方法。对于本申请装置实施例中未披露的细节,请参照本申请上述的同义词的挖掘方法的实施例。
图15示出了根据本申请的一个实施例的同义词的挖掘装置的框图。
参照图15所示,根据本申请的一个实施例的同义词的挖掘装置1500,包括:获取和确定单元1510、生成单元1520、添加单元1530、训练单元1540以及提取和挖掘单元1550。其中,获取和确定单元1510用于获取多个问答语料和各问答语料中包含的实体词,并确定各问答语料所属的类别;生成单元1520用于生成与每个问答语料对应的问答语料节点以及与每个实体词对应的实体词节点;添加单元1530用于在多个所述节点之间添加具有权值的边,得到第一问答实体词图,所述权值用于衡量具有所述权值的边所连接的两个节点之间的相关性;训练单元1540用于根据所述第一问答实体词图和各问答语料所属的类别对用于文本分类的原始图神经网络进行训练,得到用于文本分类的目标图神经网络;提取和挖掘单元1550用于基于所述用于文本分类的目标图神经网络提取第二问答实体词图中各实体词节点对应的向量表示,并根据各实体词节点对应的向量表示挖掘出同义词。
在本申请的一些实施例中,基于前述方案,提取和挖掘单元1550配置为:确定各实体词节点对应的向量表示之间的语义距离;根据所述语义距离在各实体词节点对应的实体词中确定出同义词。
在本申请的一些实施例中,基于前述方案,添加单元1530配置为:根据目标实体词属于目标问答语料,在所述目标实体词对应的实体词节点与所述目标问答语料对应的问答语料节点之间添加边;根据第一实体词所属的第一问答语料和第二实体词所属的第二问答语料属于同一类别,在所述第一实体词对应的实体词节点和所述第二实体词对应的实体词节点之间添加边;确定各节点之间的相关性作为各节点之间的边的权值。
在本申请的一些实施例中,基于前述方案,添加单元1530配置为:确定目标实体词和目标问答语料之间的词频-逆文档频率,作为所述目标实体词对应的实体词节点与所述目标问答语料对应的问答语料节点之间的边的权值;确定第一实体词和第二实体词之间的逐点互信息,作为所述第一实体词对应的实体词节点和所述第二实体词对应的实体词节点之间的边的权值。
在本申请的一些实施例中,基于前述方案,获取和确定单元1510配置为:获取问答平台上的若干问答语料;从所述若干问答语料中去除总浏览次数小于预定数目次或者问答语料的文本长度小于预定长度阈值的问答语料,得到多个问答语料;从各所述问答语料中提取出实体词。
在本申请的一些实施例中,基于前述方案,生成单元1520配置为:为每个问答语料生成相应的问答语料节点;对所有实体词进行去重处理,得到去重处理后的实体词;为各去重处理后的实体词生成相应的实体词节点。
在本申请的一些实施例中,基于前述方案,训练单元1540配置为:将所述第一问答实体词图输入至用于文本分类的原始图神经网络,得到所述用于文本分类的原始图神经网络对所述第一问答实体词图中问答语料节点对应的问答语料的分类结果;根据各所述问答语料所属的类别和各问答语料对应的分类结果,对所述用于文本分类的原始图神经网络的参数进行更新,得到用于文本分类的目标图神经网络。
在本申请的一些实施例中,基于前述方案,在根据各实体词节点对应的向量表示挖掘出同义词之后,提取和挖掘单元1550还用于:当接收到查询信息,在挖掘出的同义词中确定出与所述查询信息中的词匹配的目标同义词;确定包含所述目标同义词的目标语料,并将所述目标语料返回给所述查询信息的发送方。
在本申请的一些实施例中,基于前述方案,所述问答语料为医疗问答语料,所述问答语料所属的类别为医疗问答语料所属的科室或疾病。
图16示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
需要说明的是,图16示出的电子设备的计算机系统1600仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图16所示,计算机系统1600包括中央处理单元(Central Processing Unit,CPU)1601,其可以根据存储在只读存储器(Read-Only Memory,ROM)1602中的程序或者从存储部分1608加载到随机访问存储器(Random Access Memory,RAM)1603中的程序而执行各种适当的动作和处理,例如执行上述实施例中所述的方法。在RAM 1603中,还存储有系统操作所需的各种程序和数据。CPU 1601、ROM 1602以及RAM 1603通过总线1604彼此相连。输入/输出(Input/Output,I/O)接口1605也连接至总线1604。
以下部件连接至I/O接口1605:包括键盘、鼠标等的输入部分1606;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分1607;包括硬盘等的存储部分1608;以及包括诸如LAN(Local AreaNetwork,局域网)卡、调制解调器等的网络接口卡的通信部分1609。通信部分1609经由诸如因特网的网络执行通信处理。驱动器1610也根据需要连接至I/O接口1605。可拆卸介质1611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1610上,以便于从其上读出的计算机程序根据需要被安装入存储部分1608。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1609从网络上被下载和安装,和/或从可拆卸介质1611被安装。在该计算机程序被中央处理单元(CPU)1601执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
作为一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现上述实施例中所述的方法。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。
可以理解的是,在本申请的具体实施方式中,涉及到与问答相关的文本数据,当本申请以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域技术人员在考虑说明书及实践这里公开的实施方式后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
Claims (13)
1.一种同义词的挖掘方法,其特征在于,所述方法包括:
获取多个问答语料和各问答语料中包含的实体词,并确定各问答语料所属的类别;
生成与每个问答语料对应的问答语料节点以及与每个实体词对应的实体词节点;
在多个所述节点之间添加具有权值的边,得到第一问答实体词图,所述权值用于衡量具有所述权值的边所连接的两个节点之间的相关性;
根据所述第一问答实体词图和各问答语料所属的类别对用于文本分类的原始图神经网络进行训练,得到用于文本分类的目标图神经网络;
基于所述用于文本分类的目标图神经网络提取第二问答实体词图中各实体词节点对应的向量表示,并根据各实体词节点对应的向量表示挖掘出同义词。
2.根据权利要求1所述的同义词的挖掘方法,其特征在于,所述根据各实体词节点对应的向量表示挖掘出同义词,包括:
确定各实体词节点对应的向量表示之间的语义距离;
根据所述语义距离在各实体词节点对应的实体词中确定出同义词。
3.根据权利要求1所述的同义词的挖掘方法,其特征在于,所述在多个所述节点之间添加具有权值的边,包括:
根据目标实体词属于目标问答语料,在所述目标实体词对应的实体词节点与所述目标问答语料对应的问答语料节点之间添加边;
根据第一实体词所属的第一问答语料和第二实体词所属的第二问答语料属于同一类别,在所述第一实体词对应的实体词节点和所述第二实体词对应的实体词节点之间添加边;
确定各节点之间的相关性作为各节点之间的边的权值。
4.根据权利要求3所述的同义词的挖掘方法,其特征在于,所述确定各节点之间的相关性作为各节点之间的边的权值,包括:
确定目标实体词和目标问答语料之间的词频-逆文档频率,作为所述目标实体词对应的实体词节点与所述目标问答语料对应的问答语料节点之间的边的权值;
确定第一实体词和第二实体词之间的逐点互信息,作为所述第一实体词对应的实体词节点和所述第二实体词对应的实体词节点之间的边的权值。
5.根据权利要求1所述的同义词的挖掘方法,其特征在于,所述获取多个问答语料和各问答语料中包含的实体词,包括:
获取问答平台上的若干问答语料;
从所述若干问答语料中去除总浏览次数小于预定数目次或者问答语料的文本长度小于预定长度阈值的问答语料,得到多个问答语料;
从各所述问答语料中提取出实体词。
6.根据权利要求1所述的同义词的挖掘方法,其特征在于,所述生成与每个问答语料对应的问答语料节点以及与每个实体词对应的实体词节点,包括:
为每个问答语料生成相应的问答语料节点;
对所有实体词进行去重处理,得到去重处理后的实体词;
为各去重处理后的实体词生成相应的实体词节点。
7.根据权利要求1所述的同义词的挖掘方法,其特征在于,所述根据所述第一问答实体词图和各问答语料所属的类别对用于文本分类的原始图神经网络进行训练,得到用于文本分类的目标图神经网络,包括:
将所述第一问答实体词图输入至用于文本分类的原始图神经网络,得到所述用于文本分类的原始图神经网络对所述第一问答实体词图中问答语料节点对应的问答语料的分类结果;
根据各所述问答语料所属的类别和各问答语料对应的分类结果,对所述用于文本分类的原始图神经网络的参数进行更新,得到用于文本分类的目标图神经网络。
8.根据权利要求1所述的同义词的挖掘方法,其特征在于,在根据各实体词节点对应的向量表示挖掘出同义词之后,所述方法还包括:
当接收到查询信息,在挖掘出的同义词中确定出与所述查询信息中的词匹配的目标同义词;
确定包含所述目标同义词的目标语料,并将所述目标语料返回给所述查询信息的发送方。
9.根据权利要求1-8任意一项所述的同义词的挖掘方法,其特征在于,所述问答语料为医疗问答语料,所述问答语料所属的类别为医疗问答语料所属的科室或疾病。
10.一种同义词的挖掘装置,其特征在于,所述装置包括:
获取和确定单元,用于获取多个问答语料和各问答语料中包含的实体词,并确定各问答语料所属的类别;
生成单元,用于生成与每个问答语料对应的问答语料节点以及与每个实体词对应的实体词节点;
添加单元,用于在多个所述节点之间添加具有权值的边,得到第一问答实体词图,所述权值用于衡量具有所述权值的边所连接的两个节点之间的相关性;
训练单元,用于根据所述第一问答实体词图和各问答语料所属的类别对用于文本分类的原始图神经网络进行训练,得到用于文本分类的目标图神经网络;
提取和挖掘单元,用于基于所述用于文本分类的目标图神经网络提取第二问答实体词图中各实体词节点对应的向量表示,并根据各实体词节点对应的向量表示挖掘出同义词。
11.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至9中任一项所述的同义词的挖掘方法。
12.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至9中任一项所述的同义词的挖掘方法。
13.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机指令,所述计算机指令存储在计算机可读存储介质中,计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令,所述处理器执行所述计算机指令,使得所述计算机设备执行如权利要求1至9中任一项所述的同义词的挖掘方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210827670.5A CN115238679B (zh) | 2022-07-14 | 2022-07-14 | 同义词的挖掘方法、装置、计算机可读介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210827670.5A CN115238679B (zh) | 2022-07-14 | 2022-07-14 | 同义词的挖掘方法、装置、计算机可读介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115238679A true CN115238679A (zh) | 2022-10-25 |
CN115238679B CN115238679B (zh) | 2024-09-17 |
Family
ID=83673939
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210827670.5A Active CN115238679B (zh) | 2022-07-14 | 2022-07-14 | 同义词的挖掘方法、装置、计算机可读介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115238679B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170278510A1 (en) * | 2016-03-22 | 2017-09-28 | Sony Corporation | Electronic device, method and training method for natural language processing |
CN107451126A (zh) * | 2017-08-21 | 2017-12-08 | 广州多益网络股份有限公司 | 一种近义词筛选方法及系统 |
CN108509474A (zh) * | 2017-09-15 | 2018-09-07 | 腾讯科技(深圳)有限公司 | 搜索信息的同义词扩展方法及装置 |
CN110188168A (zh) * | 2019-05-24 | 2019-08-30 | 北京邮电大学 | 语义关系识别方法和装置 |
US20200327445A1 (en) * | 2019-04-09 | 2020-10-15 | International Business Machines Corporation | Hybrid model for short text classification with imbalanced data |
CN112232065A (zh) * | 2020-10-29 | 2021-01-15 | 腾讯科技(深圳)有限公司 | 挖掘同义词的方法及装置 |
CN112364141A (zh) * | 2020-11-05 | 2021-02-12 | 天津大学 | 基于图神经网络的科学文献关键内容潜在关联挖掘方法 |
CN112487143A (zh) * | 2020-11-30 | 2021-03-12 | 重庆邮电大学 | 一种基于舆情大数据分析的多标签文本分类方法 |
CN113127624A (zh) * | 2021-06-16 | 2021-07-16 | 北京金山数字娱乐科技有限公司 | 问答模型的训练方法及装置 |
CN113342944A (zh) * | 2021-04-29 | 2021-09-03 | 腾讯科技(深圳)有限公司 | 一种语料泛化方法、装置、设备及存储介质 |
-
2022
- 2022-07-14 CN CN202210827670.5A patent/CN115238679B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170278510A1 (en) * | 2016-03-22 | 2017-09-28 | Sony Corporation | Electronic device, method and training method for natural language processing |
CN107451126A (zh) * | 2017-08-21 | 2017-12-08 | 广州多益网络股份有限公司 | 一种近义词筛选方法及系统 |
CN108509474A (zh) * | 2017-09-15 | 2018-09-07 | 腾讯科技(深圳)有限公司 | 搜索信息的同义词扩展方法及装置 |
US20200327445A1 (en) * | 2019-04-09 | 2020-10-15 | International Business Machines Corporation | Hybrid model for short text classification with imbalanced data |
CN110188168A (zh) * | 2019-05-24 | 2019-08-30 | 北京邮电大学 | 语义关系识别方法和装置 |
CN112232065A (zh) * | 2020-10-29 | 2021-01-15 | 腾讯科技(深圳)有限公司 | 挖掘同义词的方法及装置 |
CN112364141A (zh) * | 2020-11-05 | 2021-02-12 | 天津大学 | 基于图神经网络的科学文献关键内容潜在关联挖掘方法 |
CN112487143A (zh) * | 2020-11-30 | 2021-03-12 | 重庆邮电大学 | 一种基于舆情大数据分析的多标签文本分类方法 |
CN113342944A (zh) * | 2021-04-29 | 2021-09-03 | 腾讯科技(深圳)有限公司 | 一种语料泛化方法、装置、设备及存储介质 |
CN113127624A (zh) * | 2021-06-16 | 2021-07-16 | 北京金山数字娱乐科技有限公司 | 问答模型的训练方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN115238679B (zh) | 2024-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200242140A1 (en) | Method, apparatus, device and medium for determining text relevance | |
Taşkın et al. | A content-based citation analysis study based on text categorization | |
CN113505243A (zh) | 基于医疗知识图谱的智能问答方法和装置 | |
US20110196670A1 (en) | Indexing content at semantic level | |
US9720962B2 (en) | Answering superlative questions with a question and answer system | |
CN104834735A (zh) | 一种基于词向量的文档摘要自动提取方法 | |
CN104699730A (zh) | 用于识别候选答案之间的关系的方法和系统 | |
CN110162768B (zh) | 实体关系的获取方法、装置、计算机可读介质及电子设备 | |
CN115292457B (zh) | 知识问答方法、装置、计算机可读介质及电子设备 | |
CN113392209B (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
Abdul-Kader et al. | Question answer system for online feedable new born Chatbot | |
CN113282711B (zh) | 一种车联网文本匹配方法、装置、电子设备及存储介质 | |
CN111581364B (zh) | 一种面向医疗领域的中文智能问答短文本相似度计算方法 | |
CN112232065A (zh) | 挖掘同义词的方法及装置 | |
CN115858886B (zh) | 数据处理方法、装置、设备及可读存储介质 | |
CN111325018A (zh) | 一种基于web检索和新词发现的领域词典构建方法 | |
CN114840685A (zh) | 一种应急预案知识图谱构建方法 | |
CN113868387A (zh) | 一种基于改进tf-idf加权的word2vec医疗相似问题检索方法 | |
El Adlouni et al. | A multi-approach to community question answering | |
Zheng et al. | Putting humans back in the loop of machine learning in Canadian smart cities | |
CN113571196A (zh) | 构建医疗训练样本的方法及装置、医疗文本的检索方法 | |
Khin et al. | Query classification based information retrieval system | |
Rashid et al. | Quax: Mining the web for high-utility faq | |
CN115048521B (zh) | 一种基于半监督的图神经网络的案件争议焦点识别方法及装置 | |
CN115238679B (zh) | 同义词的挖掘方法、装置、计算机可读介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |