CN112232065A - 挖掘同义词的方法及装置 - Google Patents
挖掘同义词的方法及装置 Download PDFInfo
- Publication number
- CN112232065A CN112232065A CN202011200400.9A CN202011200400A CN112232065A CN 112232065 A CN112232065 A CN 112232065A CN 202011200400 A CN202011200400 A CN 202011200400A CN 112232065 A CN112232065 A CN 112232065A
- Authority
- CN
- China
- Prior art keywords
- word
- entity
- entity word
- corpus
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 238000005065 mining Methods 0.000 title claims abstract description 33
- 239000013598 vector Substances 0.000 claims abstract description 93
- 238000012549 training Methods 0.000 claims abstract description 56
- 238000012216 screening Methods 0.000 claims abstract description 7
- 201000010099 disease Diseases 0.000 claims description 22
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 22
- 208000024891 symptom Diseases 0.000 claims description 21
- 230000011218 segmentation Effects 0.000 claims description 16
- 239000003814 drug Substances 0.000 claims description 12
- 229940079593 drug Drugs 0.000 claims description 11
- 238000010276 construction Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims 1
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 23
- 230000008569 process Effects 0.000 description 22
- 238000010586 diagram Methods 0.000 description 19
- 238000003860 storage Methods 0.000 description 14
- 230000014509 gene expression Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 9
- 238000000605 extraction Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 7
- 230000015654 memory Effects 0.000 description 7
- 206010012735 Diarrhoea Diseases 0.000 description 6
- 210000004251 human milk Anatomy 0.000 description 6
- 235000020256 human milk Nutrition 0.000 description 6
- 206010011224 Cough Diseases 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 206010036790 Productive cough Diseases 0.000 description 4
- 230000036541 health Effects 0.000 description 4
- 238000013508 migration Methods 0.000 description 4
- 230000005012 migration Effects 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 239000004065 semiconductor Substances 0.000 description 4
- 230000002457 bidirectional effect Effects 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 208000000461 Esophageal Neoplasms Diseases 0.000 description 2
- 241000202807 Glycyrrhiza Species 0.000 description 2
- 235000001453 Glycyrrhiza echinata Nutrition 0.000 description 2
- 235000006200 Glycyrrhiza glabra Nutrition 0.000 description 2
- 235000017382 Glycyrrhiza lepidota Nutrition 0.000 description 2
- 206010062717 Increased upper airway secretion Diseases 0.000 description 2
- 206010030155 Oesophageal carcinoma Diseases 0.000 description 2
- 206010057190 Respiratory tract infections Diseases 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 210000000621 bronchi Anatomy 0.000 description 2
- 206010006451 bronchitis Diseases 0.000 description 2
- OKBVVJOGVLARMR-QSWIMTSFSA-N cefixime Chemical compound S1C(N)=NC(C(=N\OCC(O)=O)\C(=O)N[C@@H]2C(N3C(=C(C=C)CS[C@@H]32)C(O)=O)=O)=C1 OKBVVJOGVLARMR-QSWIMTSFSA-N 0.000 description 2
- 229960002129 cefixime Drugs 0.000 description 2
- 150000001875 compounds Chemical class 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 201000004101 esophageal cancer Diseases 0.000 description 2
- 208000003532 hypothyroidism Diseases 0.000 description 2
- 230000002989 hypothyroidism Effects 0.000 description 2
- 229940010454 licorice Drugs 0.000 description 2
- 239000007788 liquid Substances 0.000 description 2
- 208000026435 phlegm Diseases 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000005295 random walk Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 208000024794 sputum Diseases 0.000 description 2
- 210000003802 sputum Anatomy 0.000 description 2
- 201000008827 tuberculosis Diseases 0.000 description 2
- 206010046306 Upper respiratory tract infection Diseases 0.000 description 1
- 210000001015 abdomen Anatomy 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 201000006549 dyspepsia Diseases 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000001073 episodic memory Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000003754 machining Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 208000008128 pulmonary tuberculosis Diseases 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及人工智能技术领域,具体提供了一种挖掘同义词的方法及装置,该方法包括:由第一模型构建实体词集合中各实体词的词向量,第一模型是根据共现图中的实体词序列对Skip‑gram模型进行无监督训练得到的,共现图是根据从若干样本问答语料中所提取的实体词构建的;计算实体词集合中选定的基准实体词所对应词向量和实体词集合中除基准实体词外的其他实体词所对应词向量之间的相似度;根据相似度,确定基准实体词对应的候选同义词集合;由第二模型预测基准实体词与候选同义词集合中每一候选同义词为同义词的概率;根据所预测得到的概率对候选同义词集合中的候选同义词进行筛选,确定基准实体词的同义词。本申请实现了自动挖掘同义词。
Description
技术领域
本申请涉及人工智能技术领域,具体而言,涉及一种挖掘同义词的方法及装置。
背景技术
互联网逐渐成为信息分享和信息获取的途径。通常,用户若想获取到所需要的信息,需要先输入检索词,然后由搜索引擎根据检索词进行检索,向用户返回检索结果。但是由于表达的多样性,一实体可能存在多种表达方式,如果用户所输入的检索词仅仅是一种表达方式,那么按照所输入的检索词进行检索所得到的结果可能与用户实际想要的内容相差很大,或者无法检索到用户实际想要的内容。因此,为了提高检索的效率,有必要进行同义词挖掘。
发明内容
本申请的实施例提供了一种挖掘同义词的方法及装置,以实现自动挖掘同义词。
本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
根据本申请实施例的一个方面,提供了一种挖掘同义词的方法,包括:
由第一模型构建实体词集合中各实体词的词向量,所述第一模型是根据共现图中的实体词序列对Skip-gram模型进行无监督训练得到的,所述共现图是根据从若干样本问答语料中所提取的实体词构建的;
计算所述实体词集合中选定的基准实体词所对应词向量和所述实体词集合中除所述基准实体词外的其他实体词所对应词向量之间的相似度;
根据所述相似度,确定所述基准实体词对应的候选同义词集合;
由第二模型预测所述基准实体词与所述候选同义词集合中每一候选同义词为同义词的概率;
根据所预测得到的概率对所述候选同义词集合中的候选同义词进行筛选,确定所述基准实体词的同义词。
根据本申请实施例的一个方面,提供了一种挖掘同义词的装置,所述装置包括:
词向量构建模块,用于由第一模型构建实体词集合中各实体词的词向量,所述第一模型是根据共现图中的实体词序列对Skip-gram模型进行无监督训练得到的,所述共现图是根据从若干样本问答语料中所提取的实体词构建的;
计算模块,用于计算所述实体词集合中选定的基准实体词所对应词向量和所述实体词集合中除所述基准实体词外的其他实体词所对应词向量之间的相似度;
候选同义词集合确定模块,用于根据所述相似度,确定所述基准实体词对应的候选同义词集合;
概率预测模块,用于由第二模型预测所述基准实体词与所述候选同义词集合中每一候选同义词为同义词的概率;
同义词确定模块,用于根据所预测得到的概率对所述候选同义词集合中的候选同义词进行筛选,确定所述基准实体词的同义词。
根据本申请实施例的一个方面,提供了一种电子设备,包括:处理器;存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,实现如上所述的方法。
根据本申请实施例的一个方面,提供了一种计算机可读存储介质,其上存储有计算机可读指令,当所述计算机可读指令被处理器执行时,实现如上所述的方法。
在本申请的方案中,由第一模型构建实体词集合中各实体词的词向量,然后,基于实体词集合中各实体词所对应词向量之间的相似度来为选定作为基准实体词确定候选同义词集合,再根据第一模型所预测到基准实体词与每一候选同义词为同义词的概率来进一步对候选同义词集合中的候选同义词进行筛选,确定基准实体词的同义词,通过分步筛选实现了自动从实体词集合中挖掘出互为同义词的若干实体词。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示出了可以应用本申请实施例的技术方案的示例性系统架构的示意图;
图2是根据本申请的一个实施例示出的挖掘同义词的方法的流程图;
图3是根据本申请的一实施例示出的步骤240的流程图;
图4是根据本申请的一实施例示出的训练得到第二模型的流程图;
图5是根据本申请的一实施例示出的步骤210之前步骤的流程图;
图6是根据一具体实施例示出的同义词挖掘的流程图;
图7示出了医疗健康网站中问答数据的示意图;
图8示出了对训练得到第一模型和由第一模型输出词向量的流程图;
图9示出了针对“咳痰咳不出来”的医疗问答语料的示意图;
图10示出了预构建模型的结构示意图;
图11是根据一实施例示出的挖掘同义词的装置;
图12示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本申请将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本申请的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
随着互联网技术的成熟,互联网成为用户进行信息分享和存储的首选平台,对应的,互联网中的资源日益增多。对于用户而言,互联网也成为用户进行信息获取的优选途径。
现有技术中,为了进行信息检索,用户需要先输入检索词,然后借助于搜索引擎在浩瀚的网络资源进行检索,获得所需要的信息。
但是,多数情况下用户很难用简单的检索词来表达真正需要搜索的内容,例如用户所输入的检索词不准确或不合适、用户所输入的检索词仅仅是内容的一种表达方式,在这种情况下,如果按照用户输入的检索词来进行检索,可能会导致所检索到的内容与用户实际需要的内容差别很大。
特别是针对特定领域的信息的检索,例如针对医疗领域、制造领域、半导体领域等,特定领域的一些词汇有专业术语表达,也有通用语表达,如果用户所输入的检索词仅仅是通用语表达,则可能导致所检索到的信息与实际需要的信息相差太大,甚至不能获得所需要的信息。
因此,有必要对检索词进行同义词挖掘,以基于检索词和所挖掘出的同义词进行检索,以此来保证所检索到内容的准确性和全面性。基于此,提出了本申请的方案,来自动进行同义词挖掘。
图1示出了可以应用本申请实施例的技术方案的示例性系统架构的示意图。
如图1所示,系统架构可以包括终端设备(如图1中所示智能手机101、平板电脑102和便携式计算机103中的一种或多种,当然也可以是台式计算机等等)、网络104和服务器105。网络104用以在终端设备和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线通信链路、无线通信链路等等。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。
在本申请的一些实施例中,终端设备可以用进行语料的上传,所上传的语料例如问答语料、期刊文章、博客文章等,在将语料上传到服务器105后,通过服务器105按照本申请的方案基于所上传的语料进行实体词提取,得到实体词集合,并按照本申请的方法挖掘实体词集合中互为同义词的实体词。
在本申请的一些实施例中,服务器105还可以从通信连接的其他设备中获取语料,例如从数据库所在的服务端中获取语料、从网站中进行数据爬取获得语料,然后并基于所获得的语料进行实体词提取,构建实体词集合。
在本申请的一些实施例中,服务器105在挖掘出实体词集合中互为同义词的实体词后,将互为同义词的至少两个实体词进行关联存储,在服务器105中形成同义词库。
在检索过程中,用户可以通过终端设备输入检索词,终端设备基于用户所输入的检索词向服务器105发送检索请求,服务器105根据检索请求中的检索词,在同义词库中获取检索词的同义词,然后根据检索词和检索词的同义词在检索数据库中进行检索,并向终端设备返回检索结果。
需要说明的是,本申请实施例所提供的挖掘同义词方法一般由服务器105执行,相应地,挖掘同义词装置一般设置于服务器105中。但是,在本申请的其它实施例中,终端设备也可以与服务器具有相似的功能,从而执行本申请所提供的挖掘同义词方法。
以下对本申请实施例的技术方案的实现细节进行详细阐述:
图2是根据本申请的一个实施例示出的挖掘同义词的方法的流程图,该方法可由具备计算处理能力的计算机设备执行,例如图1所示的服务器。参照图2所示,该挖掘同义词的方法至少包括步骤210至步骤250,详细介绍如下。
步骤210,由第一模型构建实体词集合中各实体词的词向量,第一模型是根据共现图中的实体词序列对Skip-gram模型进行无监督训练得到的,共现图是根据从若干样本问答语料中所提取的实体词构建的。
实体词集合是根据从若干第一语料中所提取的实体词构建的。第一语料特指实体词集合中实体词所来源的语料。第一语料可以是一特定领域内的语料,例如医疗领域、机械加工领域、半导体领域等,在此不进行具体限定。可以理解的是,为了尽可能挖掘出同义词,可以在大量的第一语料中进行实体词提取,并将所提取的实体词添加到实体词集合中。
在本申请的一些实施例中,可以通过命名实体识别工具从第一语料中进行实体词提取,例如,如果第一语料是医疗领域相关的语料,可以通过命名实体工具从第一语料中提取出用于描述疾病的实体词、用于描述症状的实体词、用于描述药品的实体词和用于描述检查的实体词。
样本问答语料是指用于作为Skip-gram模型的训练数据的问答语料。问答语料指示了所提的问题和针对问题所作的回复。为便于描述,将问答语料中用于指示所提问题的语料称为提问语料,将问答语料中用于指示针对问题所作的回复的语料称为回复语料。可以理解的是,在一问答语料中,提问语料与回复语料是相关联的。
在本申请的一些实施例中,一问答语料中可以是一提问语料对应一回复语料,也可以是一提问语料对应多个回复语料,在此不进行具体限定。从问答语料中所提取的实体词至少包括从提问语料中所提取的实体词和从回复语料中所提取的实体词。
共现图由节点和边构成,其中,边用于连接节点,两节点之间的边表征了所相连节点之间的关联关系。在本实施例中,共现图中每一个节点对应于一个实体词,节点之间的关联关系即表征了该节点所对应实体词之间的关联关系。
在本申请的一些实施例中,共现图中的边是基于一样本问答语料中的提问语料与回复语料之间的问答关系来确定的。具体来说,在构建共现图的过程中,将从一样本问答语料中的提问语料中所提取到的实体词与从该样本问答语料中的回复语料中所提取到的实体词通过边相关联。
举例来说,若从问答语料I中的提问语料中所提取的实体词包括A1、A2和A3,从该问答语料I中的回复语料中所提取的实体词包括B1和B2,则基于该问答语料I中提问语料和回复语料之间的问答关系,则在共现图中A1分别与B1和B2相连,A2分别与B1和B2相连,A3分别与B1和B2相连,以此来构建共现图。
实体词序列是指在共现图中选定路径中的多个节点所对应实体词顺序构成的序列。其中,选定路径可以是在共现图中进行游走所确定的路径。
若选定路径是在共现图中游走所确定的路径,可以是通过随机游走来确定选定路径,也可以是按照预设的元路径进行游走来确定该选定路径。
在本申请的一些实施例中,为了避免所得到的实体词序列过长或过短,还可以预先设定实体词序列的最大长度,实体词序列的最大长度可以通过实体词的数量来限定,也可以通过限定序列中字符数量来确定。
对于通过随机游走的方式来确定选定路径,可以通过如下过程实现:从某个特定的节点开始,游走的每一步都从与当前节点相连的边中随机选择一条,沿着选定的边移动到下一个节点,重复该过程,即可形成一路径,所形成的路径即为选定路径。
对于按照预设的元路径进行游走来确定选定路径的方式,该元路径用于确定在共现图中的游走方向。具体的,该元路径可以通过设定路径中各个节点所对应实体词的类型来实现。从而,在共现图中游走的过程中,识别共现图中与当前节点所相连的节点所对应实体词所属的类型,然后从中选择实体词的类型与元路径中为该节点所设定的类型相同的节点作为路径的游走方向,重复该过程,形成一路径,所形成的路径作为选定路径。
其中实体词的类型可以根据实际需要进行划分,当然,样本问答语料所属领域的不同,实体词的类型的划分方式也可能存在差异。
举例来说,若样本问答语料是医疗问答语料,从医疗问答语料所提取的实体词可以是用于描述疾病的实体词、用户描述症状的实体词、用于描述药品的实体词、用于描述检查的实体词等。因此,针对实体词的类型划分可以按照实体词所描述的对象来划分,例如划分为:描述疾病的实体词、描述症状的实体词、描述药品的实体词和描述检查的实体词。
基于由共同关联药品的疾病一定有关联性的考虑,元路径可以是:疾病-药品-疾病。从而,可以在识别共现图中各节点所对应实体词所属的类型来确定每一步的游走方向。
词向量,又称为词嵌入向量,是将实体词映射到实数域所得到的实数域向量。词向量作为实体词的特征向量,表征了实体词的语义。
Skip-gram模型是一种Word2Vec模型,Word2Vec模型是从大量文本语料中以无监督的方式学习语义的一种模型,其通过学习文本来用词向量的方式来表征词的语义信息,即通过一个嵌入空间使得语义上相似的实体词在该空间内距离很近。
在本申请的一些实施例中,可以通过如下的过程来对Skip-gram模型进行训练,以使训练后的Skip-gram模型作为第一模型来可以构建实体词的词向量:根据预设的元路径在共现图中游走,得到实体词序列;以实体词序列中的一实体词作为目标实体词,在实体词序列中提取目标实体词的上下文窗口中的实体词作为目标实体词的关联实体词;根据目标实体词和目标实体词对应的每一关联实体词,对Skip-gram模型进行训练,得到第一模型对Skip-gram模型进行训练,得到第一模型。
为了确定实体词序列中任一目标实体词的关联实体词,需要预先设定窗口大小,例如将窗口大小设为N(N为正整数),则在实体词序列中,在该目标实体词前的N个实体词和在该目标实体词后的N个实体词共同组合成这个实体词的上下文窗口。其中,若该目标实体词之前或者之后的实体词的数量不足N个,则该目标实体词所在实体词序列的边界作为该目标实体词的上下文窗口的边界。目标实体词的上下文窗口中的实体词均为该目标实体词的关联实体词。
Skip-gram模型是通过给定输入词来预测上下文。具体在训练过程中,根据目标实体词与该目标实体词对应的关联实体构建训练样本,即将每一关联实体词与目标实体词作为一训练样本,由Skip-gram模型来预测词汇表中各实体词是该训练样本中的关联实体词的概率,也就是说,Skip-gram模型的输出概率代表着词汇表中每个词与目标实体词同时出现的可能性大小。其中,该词汇表是从若干作为训练数据的问答语料中提取的实体词组成的。
在Skip-gram模型训练过程中,Skip-gram模型的隐层输出的是所输入实体词的词向量,而输出层根据实体词的词向量输出对应的概率。在Skip-gram模型训练完成后,隐层学习到构建实体词的词向量的能力,即可以根据训练完成时Skip-gram模型的权重系数来构建所输入实体词的词向量。
训练完成的Skip-gram模型即作为第一模型,第一模型利用训练所学到的权重系数,来输出共现图中各实体词的词向量。
通过无监督的方式对Skip-gram模型进行训练,而不需要对大量的样本问答语料进行标注,省去了大量用于进行数据标注的时间。
步骤220,计算实体词集合中选定的基准实体词所对应词向量和实体词集合中除基准实体词外的其他实体词所对应词向量之间的相似度。
基准实体词是指所选定作为同义词挖掘的语义参照的实体词,换言之,所进行的同义词挖掘,即挖掘与基准实体词互为同义词的实体词。值得一提的是,由于实体词集合中包括多个实体词,因此,所选定的基准实体词可以是一个也可以是多个,而针对每一个基准实体词,均可以按照本申请的方案进行同义词挖掘。
在本申请的一些实施例中,两词向量之间的相似度可以通过余弦相似度来表示。其中,两词向量之间相似度值越小,则表示该两词向量之间的相似程度越小,该两词向量所对应实体词的语义差异越大。
其中,两词向量(假设为词向量A和词向量B)之间的余弦相似度可以按照如下计算公式计算:
其中,Ai为词向量A中的第i个元素,Bi为词向量B中的第i个元素,n为词向量A和词向量B的维度。
步骤230,根据相似度,确定基准实体词对应的候选同义词集合。
在确定基准实体词与共现图中除基准实体词外的其他实体词的相似度后,可以根据相似度来确定与基准实体词的语义差异程度较小的实体词作为基准实体词对应的候选同义词,进而确定对应的候选同义词集合。
在本申请的一些实施例中,步骤230进一步包括:将与基准实体词相关的多个相似度按照由大到小排序,得到基准实体词对应的相似度排序;将相似度排序中位于前设定数量的相似度所对应实体词作为基准实体词的候选同义词;根据候选同义词,确定基准实体词对应的候选同义词集合。
其中,设定数量可以根据实际需要进行设定,例如为5、8、10、15等,在此不进行具体限定。在根据相似度排序确定候选同义词后,将所确定的候选同义词作为基准实体词所对应的候选同义词集合的元素,即可对应确定该候选同义词集合。
步骤240,由第二模型预测基准实体词与候选同义词集合中每一候选同义词为同义词的概率。
第一模型是通过训练数据对预构建模型进行训练得到的。其中,预构建模型可以是通过一种或者多种神经网络构建的,神经网络例如卷积神经网络、循环神经网络、长短时记忆网络、门控循环单元等,在此不进行具体限定。
训练数据中包括若干个训练样本,在通过训练样本对预构建模型进行训练的过程中不断调整模型的权重系数,直至模型收敛。在训练完成后,模型的各个权重系数确定,即可将该模型作为第一模型用于预测两实体词为同义词的概率。
在本申请的一些实施例中,第二模型包括BERT模型、全连接层和输出层,如图3所示,步骤240,包括:
步骤310,针对候选同义词集合中的每一候选同义词,将基准实体词与候选同义词进行拼接,得到拼接文本。
步骤320,由BERT模型输出拼接文本的语义向量。
BERT(Bidirectional Encoder Representations from Transformers)模型是一种基于双向Transformer构建的语言模型,是一个多层双向Transformer编码器。
BERT模型利用自编码器,通过词的上下文来重构各个词,得到各个词的向量表示,从而,BERT模型为拼接文本所输出的语义向量参考了各个词的上下文信息。BERT模型包括三个嵌入层,分别为:Token embedding、Segment embedding、Position embedding,其中,Token embedding用于将所输入的各个词转换成固定维度的向量,Segment embedding用于对拼接文本中的两个样本词进行标记,以便于区分两个样本词;Position embedding用于对拼接文本中的字符的顺序进行编码。从而,BERT模型基于三个嵌入层中的信息来构建拼接文本的语义向量。
步骤330,由全连接层对语义向量进行全连接,得到全连接向量。全连接层用于对语义向量进行非线性变换,即全连接。
步骤340,由输出层根据全连接向量输出基准实体词与候选同义词为同义词的概率。输出层可以采用softmax函数来进行概率预测。
在本申请的一些实施例中,步骤240之前,还需要通过训练来确定第二模型,如图4所示,模型训练的过程包括如下步骤410-430的过程:
步骤410,通过预构建模型预测样本词对中的两个样本词为同义词的第一概率。
预构建模型的训练数据包括若干样本词对,其中每一样本词对中包括两个样本词。值得一提的是,为了保证模型训练完成后,第一模型所预测得到概率的准确性,需要基于一定数量的样本词对来对该预构建模型进行训练。
在本申请的一些实施例中,样本词对所属的领域与样本问答语料所属的领域相同,从而可以进一步保证训练后第一模型所进行概率预测的准确性。举例来说,若是为了挖掘医疗领域中实体词的同义词,则可以根据医疗领域内的内容来构建样本词对,样本问答语料也是来源于医疗领域。
第一概率是指预构建模型所预测得到样本词对中两个样本词为同义词的概率。
步骤420,根据样本词对的标签和所对应的第一概率计算损失函数的函数值,标签用于指示所对应样本词对中的两个样本词是否为同义词。
在本申请的一些实施例中,预构建模型的损失函数可以是二分类交叉熵,其表达式是为:
L=-[y·log(p)+(1-y)·log(1-p)]; (2)
其中,L为损失函数的函数值;y为样本词对的标签,当样本词对中的两样本词为同义词时,y=1,当样本词对中的两个样本词不是同义词时,y=0;p是为样本词对所预测得到的第一概率。
步骤430,根据所计算得到的函数值调整预构建模型的权重系数。
具体的,若所计算得到的函数值不满足使损失函数收敛的条件,则调整预构建模型的权重系数,然后基于系数调整后的预构建模型重复执行步骤410-420的过程,直至所计算得到的函数值满足使损失函数收敛的条件。
针对每一样本词对,均进行上述的步骤410-430的过程,以此实现预构建模型的训练。通过如上步骤410-430的过程,采用有监督的方式对预构建模型进行训练,可以保证训练得到的第二模型所预测到概率的准确性,从而,由第二模型来对候选同义词进行精确筛选。
请继续参阅图2,步骤250,根据所预测得到的概率对候选同义词集合中的候选同义词进行筛选,确定基准实体词的同义词。
所预测得到的概率表征了所对应候选同义词与基准实体词为同义词的可能性大小。因此,可以基于所预测得到的概率来筛选出与基准实体词为同义词的可能性较高的候选同义词作为基准实体词的同义词。
在本申请的一些实施例中,可以设定概率阈值,在与基准实体词相关的多个概率中,将超过概率阈值的概率所对应的候选实体词作为基准实体词的同义词。
在本申请的一些实施例中,还可以对与基准实体词相关的多个概率按照从大到小的顺序排序,然后提取排序中前指定数量的概率所对应候选实体词作为基准实体词的同义词。
在本申请的一些实施例中,在为每一基准实体词确定同义词后,将基准实体词与该基准实体词的同义词进行关联存储,形成同义词库。所形成的同义词库可以用于进行检索词扩展,即将给定的检索词在同义词库进行检索,以从该同义词库中获取所给定检索词的同义词,然后,基于检索词和检索词的同义词进行信息检索,实现了自动确定检索词的同义词,而不需要人工构建多个互为同义词的检索词,可以大幅提高检索效率和检索的准确性。
在本申请的方案中,由第一模型构建实体词集合中各实体词的词向量,然后,基于实体词集合中各实体词所对应词向量之间的相似度来为选定作为基准实体词确定候选同义词集合,再根据第一模型所预测到基准实体词与每一候选同义词为同义词的概率来进一步对候选同义词集合中的候选同义词进行筛选,确定基准实体词的同义词,通过分步筛选实现了自动从实体词集合中挖掘出互为同义词的若干实体词。
另外,由于共享图中记录了从样本问答语料中所提取实体词之间的远距离共现信息,而第一模型是通过共现图中的实体词序列对Skip-gram模型进行训练得到,因此,第一模型可以捕捉到实体词之间的远距离共现信息。因此,第一模型也是结合了所学习到实体词之间的远距离共现信息来构建各实体词的词向量的,可以保证基于第一模型所输出向量进行候选同义词确定的有效性。
在本申请的一些实施例中,如图5所示,步骤210之前,该方法还包括:
步骤510,从样本问答语料的提问语料中提取第一实体词,以及从样本问答语料的回复语料中提取第二实体词。
步骤520,根据提问语料与回复语料之间的问答关系,将第一实体词和第二实体词相关联,得到共现图。为了便于区分,将从提问语料中所提取的实体词称为第一实体词,将从回复语料中所提取的实体词称为第二实体词。也可以认为,从样本问答语料中所提取的实体词包括第一实体词和第二实体词。
在本申请的一些实施例中,为了从样本问答语料中进行实体词提取,可以先根据词典来对问答语料进行分词,具体包括对问答语料中的提问语料进行分词和对问答语料中的回复语料进行分词,得到对应的分词结果;然后,从提问语料对应的分词结果中提取指定类型的实体词,得到第一实体词,以及从回复语料对应的分词结果中提取指定类型的实体词,得到第二实体词。
在本申请的一些实施例中,在对样本问答语料进行分词之前,通过如下的过程进行词典的构建:获取参考实体词集合;根据参考实体词集合构建词典。
将参考实体词集合中的实体词所来源的语料称为第二语料。则参考实体词集合中的实体词是第二语料中提取得到的。在申请一些实施例中,为了保证所进行分词的准确性,第二语料所属的领域与实体词集合中实体词所来源第一语料的领域相同,进一步的,还与样本语料所属的领域、样本词对所来源的领域相同。
其中,参考实体词集合中的实体词可以是人工从第二语料中识别并提取,也可以借助于命名实体词工具来进行识别并提取。
为了构建词典,将参考实体词集合中的实体词添加到自定义词典中,形成新的词典。由于所得到的新的词典中加入了与样本问答语料属于相同或者相近领域的实体词,从而,通过所构建的词典对样本问答语料进行分词过程中,可以提高分词的准确性,避免出现一个完整的实体词被错误切分的情况。
在本申请的一些实施例中,所构建的词典还可以用于对第一语料进行分词,进而从第一语料中进行实体词提取,形成实体词集合。
从样本问答语料中所提取实体词所对应指定类型可以根据实际需要进行指定,可以是一种类型也可以是多种类型。当然,类型划分不同,所指定的类型也可能存在差异。
举例来说,针对医疗领域的问答语料,实体词的类型划分可以按照所描述的对象来划分,比如将实体词划分为上文中所列举的类型:用于描述症状的实体词、用于描述药品的实体词、用于描述疾病的实体词、用于描述检查的实体词等。在此种应用场景下,指定类型的实体词可以是用于描述症状的实体词、用于描述药品的实体词、用于描述疾病的实体词、用于描述检查的实体词中的至少一种。
在本申请的一些实施例中,针对指定类型的实体词的提取,可以通过命名实体识别工具来实现,即先通过命名实体识别工具来识别分词结果中各实体词所属的类型,然后对应提取类型为指定类型的实体词。当然,针对不同领域的问答语料,所使用的命名实体识别工具可能存在差异。从第一语料中提取实体词,也可以通过命名实体识别工具来实现。
下面结合一具体实施例对本申请的方案进行进一步说明。
本实施例是针对医疗领域内的问答语料进行实体词挖掘。图6是根据一具体实施例示出的同义词挖掘的流程图。如图6所示,包括如下步骤610-650,具体说明如下:
步骤610,构建实体词集合。
从医疗相关的语料(第一语料)中进行实体词提取,对应构建实体词集合。其中,所提取的实体词可以是用于描述症状的实体词、用于描述药品的实体词、用于描述疾病的实体词和用于描述检查的实体词。
医疗相关的语料可以从医疗健康网站中爬取。在医疗健康网站中,存在大量的问答语料,形式为用户输入自己的症状描述,回复是医生对患者描述的症状进行的健康诊断。当然,用于构建实体词集合的语料还可以是医疗相关的文章、博客等,在此不进行具体限定。
图7示出了医疗健康网站中问答数据的示意图,图7a示出了针对一用户所提出“吃母乳拉肚子”的医疗问答语料,图7b示出了另一用户针对“母乳性腹泻”的医疗问答语料,在图7a和图7b所示的问答语料中均包括用户输入的问题(即提问语料)和医生给出的回复(即回复语料)。
图7a中的提问语料“26天新生儿吃母乳拉肚子”和图7b中的提问语料“母乳性腹泻的宝宝应该怎么治疗谢谢”是不同用户所提出的,但是,因为“吃母乳拉肚子”和“母乳性腹泻”是同义词,因此,图7a中的提问语料和图7b中的提问语料实际表述的含义相近。从图7中可以看出,在医生的回复语料中,都涉及到用“腹泻,思密达,消化不良”等一样的描述词语。
因此,可以看出,医疗健康网站中,基于这种相似的问题,医生给出的回答也是比较一致的,将该种现象称为针对相似问题的周围词分布一致性。基于该周围词分布一致性,可以表明,从大量的问答语料所包括的实体词中是存在语义相近的实体词的,即互为同义词的实体词。
针对与医疗相关的实体词的提取,可以利用已有的命名实体识别工具从大量医疗问答语料中提取与医疗相关的实体词,通过所提取的实体词构建医疗实体词集合,其中,所提取与医疗相关的实体词可以是用于描述症状的实体词、用于描述药品的实体词、用于描述疾病的实体词和用于描述检查的实体词。
步骤620,通过第二模型输出实体词的词向量。
该第二模型是通过共现图中的实体词序列对Skip-gram模型进行无监督训练得到的。
图8示出了对训练得到第一模型和由第一模型输出词向量的流程图。如图8所示,包括如下步骤810-840的过程:
步骤810,构建共现图。
在收集到大量的医疗问答语料的基础上,先从医疗问答语料中提取与医疗相关的实体词,具体包括从医疗问答语料中的提问语料中所提取的第一实体词,和从回复语料中所提取的第二实体词;然后根据第一实体词所来源提问语料与第二实体词所来源回复语料之间的问答关系,将第一实体词与第二实体词相关联,以此构建共现图。在共现图中,每一节点对应于一实体词,连接节点的边用于表示实体词所来源提问语料和所来源回复语料之间的问答关系。
图9示出了针对“咳痰咳不出来”的医疗问答语料,如图9所示,提问语料为“咳痰咳不出来怎么办”。从图9的提问语料中所提取的第一实体词可以是“咳痰咳不出来”,从图9的回复语料中所提取第二实体词可以是“支气管”、“支气管炎”、“复方甘草口服液”和“头孢克肟”,则在构建共现图时,可以将“咳痰咳不出来”分别与“支气管”、“支气管炎”、“复方甘草口服液”和“头孢克肟”进行关联。
步骤820,生成实体词序列。
按照预设的元路径在共现图中游走,确定实体词序列。游走所经过的节点代表了节点的上下文信息,换言之,实体词序列中一实体词(假设为指定实体词)前后的实体词代表了该指定实体词的上下文信息。也可以理解为,在本实施例的方案中采用基于元路径(meta-path)的随机游走和Skip-gram模型对异构网络进行表示学习,以使得学习后的Skip-gram模型可以准确构建实体词的词向量。
在本实施例中,为了保证实体词序列中实体词的相关性,减少语义漂移,设定了如下的5种元路径:
(1)疾病-疾病-疾病;该元路径是基于有共同关联疾病的疾病有一定关联的原则来设定的。
(2)疾病-症状-疾病;该元路径是基于有共同关联症状的疾病有一定关联的原则来设定的。
(3)疾病-药品-疾病;该元路径是基于有共同关联药品的疾病有一定关联的原则来设定的。
(4)症状-症状-症状;该元路径是基于有共同关联症状的症状有一定关联的原则来设定的。
(5)症状-药品-症状;该元路径是基于有共同关联药品的症状有一定关联的原则来设定的。
接着,对共现图中每一个节点按照上面的元路径游走10次,实体词序列长度限制最长50个词。
步骤830,训练Skip-gram模型。
通过游走所确定的实体词序列对Skip-gram模型训练进行训练。具体训练的过程参见上文描述,在此不再赘述。
在本实施例中,可以将词向量维度设置200d,上下文窗口的窗口大小设为5。当然,在其他实施例中,实体词序列的长度、游走次数、词向量维度以及窗口大小还可以根据实际需要进行设定。
Skip-gram模型训练完成后,该Skip-gram模型即作为第一模型,用于输出实体词集合中各实体词的词向量。
步骤840,通过第一模型输出词向量。
请继续参阅图6,步骤630,确定基准实体词的候选同义词集合。
在通过第一模型得到共现图中各实体词的词向量后,计算选定的基准实体词所对应词向量与共现图中除基准实体词外的其他实体词所对应词向量之间的相似度,再根据与基准实体词相关的多个相似度确定与基准实体的语义最相似的设定数量的实体词作为该基准实体词所对应的候选同义词,例如,选取与基准实体词的语义相似度最高的10个实体词作为基准实体词的候选同义词。
请继续参阅图6,步骤640,通过第二模型进行候选同义词过滤。
步骤650,确定基准实体词的同义词。
第二模型是标注数据对预构建模型进行训练所得到的。其中,标注数据包括若干样本词对和样本词对对应的标签。
其中,样本词对对应的标签可以通过人工标注,表1示出了针对部分样本词对所标注的标签。
样本词1 | 样本词2 | 标签 |
食管癌 | 食道癌 | 1 |
甲状腺功能减退 | 甲减 | 1 |
呼吸道感染 | 上呼吸道感染 | 0 |
结核病 | 肺结核 | 0 |
表1
其中,如样本词对中的样本词1和样本词2为同义词,则标注的标签为1,反之,若不是同义词,则标注的标签为0。
图10示出了预构建模型的结构示意图,如图10所示,该预构建模型包括级联的BERT模型、全连接层和输出层。
在对预构建模型进行训练的过程中,将样本词对中的两个样本词进行拼接,得到拼接文本,然后将该拼接文本输入至预构建模型中。由BERT模型构建拼接文本的语义向量,然后由全连接层对该语义向量进行全连接,映射为一个二维向量,最后由输出层对全连接层所输出的二维向量预测两个样本词为同义词的第一概率;并基于所得到的第一概率和样本词对的标签调整该预构建模型的权重系数。
在训练时,该预构建模型的损失函数为二分类交叉熵,具体表达式为上文中的公式(2)。
训练完成后,该预构建模型即作为第二模型,来预测基准实体词与每一个候选同义词为同义词的概率。如果所预测得到的概率指示基准实体词与一候选同义词为同义词,则将该候选同义词确定为基准实体词的同义词;反之,如果所预测的概率指示基准实体词与一候选同义词不是同义词,则将该候选同义词过滤掉。由此,候选同义词集合中未被过滤掉的候选同义词均被作为基准实体词的同义词。
在挖掘出基准实体词的同义词后,由基准实体词和所对应的同义词形成同义库,该同义词库可以用于医疗相关搜索引擎进行检索词的同义词扩展,以提交检索的准确度和检索的效率。
基于样本问答语料中的问答关系,构建将实体词相关联的共现图,然后采用按照元路径在共现图中游走的方式,从共现图提取实体词之间具有强关联性的实体词序列,并基于实体词序列中实体词中的上下文信息对Skip-gram语模型进行训练,使得训练得到的第一模型可以为准确构建实体词的词向量。由于共现图中记录了实体词之间的远距离共现信息,因此,通过共现图中的实体词序列所训练得到的第一模型可以有效捕捉到实体词之间的远距离共现信息。
在得到实体词集合中各实体词的词向量之后,根据词向量对实体词集合进行粗筛选,确定基准实体词的候选同义词集合,再由通过标注数据训练得到的第二模型对候选同义词集合进行精筛选,从候选同义词集合中确定基准实体词的同义词。由于BERT模型在构建语义向量的过程中,会联合医疗实体的一些细粒度特征,例如是否是部位,程度修饰词,原子症状等,然后再去做最后的softmax分类进行概率输出,保证了所输出概率的准确性。
本实施例的方案结合了Skip-gram模型在词向量构建和BERT模型在小数据集上分类的优势,有效保证了所挖掘出同义词的准确性。而且,由于第一模型是通过无监督训练得到的,第二模型是通过监督训练得到的,因此,仅需要对第二模型的训练数据进行标注,而不需要对第一模型的训练数据进行标注,减小了标注数据的工作量,使得本实施例的方案适用性广和可行性高。
以下介绍本申请的装置实施例,可以用于执行本申请上述实施例中的方法。对于本申请装置实施例中未披露的细节,请参照本申请上述方法实施例。
图11是根据一实施例示出的挖掘同义词的装置,如图11所示,该挖掘同义词的装置包括:
词向量构建模块1110,用于由第一模型构建实体词集合中各实体词的词向量,第一模型是根据共现图中的实体词序列对Skip-gram模型进行无监督训练得到的,共现图是根据从若干样本问答语料中所提取的实体词构建的;
计算模块1120,用于计算实体词集合中选定的基准实体词所对应词向量和实体词集合中除基准实体词外的其他实体词所对应词向量之间的相似度。
候选同义词集合确定模块1130,用于根据相似度,确定基准实体词对应的候选同义词集合。
概率预测模块1140,用于由第二模型预测基准实体词与候选同义词集合中每一候选同义词为同义词的概率。
同义词确定模块1150,用于根据所预测得到的概率对候选同义词集合中的候选同义词进行筛选,确定基准实体词的同义词。
在本申请的一些实施例中,挖掘同义词的装置还包括:游走模块,用于根据预设的元路径在共现图中游走,得到实体词序列;关联实体词确定模块,用于以实体词序列中的一实体词作为目标实体词,在实体词序列中提取目标实体词的上下文窗口中的实体词作为目标实体词的关联实体词;训练模块,用于根据目标实体词和目标实体词对应的每一关联实体词,对Skip-gram模型进行训练,得到第一模型。
在本申请的一些实施例中,挖掘同义词的装置还包括:实体词提取模块,用于从问答语料的提问语料中提取第一实体词,以及从问答语料的回复语料中提取第二实体词;关联模块,用于根据提问语料与回复语料之间的问答关系,将第一实体词和第二实体词相关联,得到共现图。
在本申请的一些实施例中,实体词提取模块,包括:分词单元,用于根据构建的词典分别对问答语料中的提问语料和回复语料进行分词,得到对应的分词结果。提取单元,用于从提问语料对应的分词结果中提取指定类型的实体词,得到第一实体词,以及从回复语料对应的分词结果中提取指定类型的实体词,得到第二实体词。
在本申请的一些实施例中,样本问答语料为医疗问答语料,指定类型的实体词包括用于描述疾病的实体词、用于描述症状的实体词、用于描述药品的实体词和用于描述检查的实体词中的至少一种。
在本申请的一些实施例中,挖掘同义词的装置还包括:参考实体词集合获取模块,用于获取参考实体词集合;词典构建模块,用于根据参考实体词集合构建词典。
在本申请的一些实施例中,候选同义词集合确定模块1130,包括:排序单元,用于将与基准实体词相关的多个相似度按照由大到小排序,得到基准实体词对应的相似度排序;候选同义词确定单元,用于将相似度排序中位于前设定数量的相似度所对应实体词作为基准实体词的候选同义词;候选同义词集合确定单元,用于根据候选同义词,确定基准实体词对应的候选同义词集合。
在本申请的一些实施例中,第一模型包括BERT模型、全连接层和输出层,概率预测模块1140,包括:拼接单元,用于针对候选同义词集合中的每一候选同义词,将基准实体词与候选同义词进行拼接,得到拼接文本;语义向量输出单元,用于由BERT模型输出拼接文本的语义向量;全连接单元,用于由全连接层对语义向量进行全连接,得到全连接向量;概率输出单元,用于由输出层根据全连接向量输出基准实体词与候选同义词为同义词的概率。
在本申请的一些实施例中,挖掘同义词的装置还包括:第一概率预测模块,用于通过预构建模型预测样本词对中的两个样本词为同义词的第一概率;函数值计算模块,用于根据样本词对的标签和所对应的第一概率计算损失函数的函数值,标签用于指示所对应样本词对中的两个样本词是否为同义词;调整模块,用于根据所计算得到的函数值调整预构建模型的权重系数。
图12示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
需要说明的是,图12示出的电子设备的计算机系统1200仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图12所示,计算机系统1200包括中央处理单元(Central Processing Unit,CPU)1201,其可以根据存储在只读存储器(Read-Only Memory,ROM)1202中的程序或者从存储部分1208加载到随机访问存储器(Random Access Memory,RAM)1203中的程序而执行各种适当的动作和处理,例如执行上述实施例中的方法。在RAM 1203中,还存储有系统操作所需的各种程序和数据。CPU 1201、ROM 1202以及RAM 1203通过总线1204彼此相连。输入/输出(Input/Output,I/O)接口1205也连接至总线1204。
以下部件连接至I/O接口1205:包括键盘、鼠标等的输入部分1206;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分1207;包括硬盘等的存储部分1208;以及包括诸如LAN(Local AreaNetwork,局域网)卡、调制解调器等的网络接口卡的通信部分1209。通信部分1209经由诸如因特网的网络执行通信处理。驱动器1210也根据需要连接至I/O接口1205。可拆卸介质1211,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1210上,以便于从其上读出的计算机程序根据需要被安装入存储部分1208。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1209从网络上被下载和安装,和/或从可拆卸介质1211被安装。在该计算机程序被中央处理单元(CPU)1201执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读存储介质承载计算机可读指令,当该计算机可读存储指令被处理器执行时,实现上述实施例中的方法。
根据本申请的一个方面,还提供了一种电子设备,其包括:处理器;存储器,存储器上存储有计算机可读指令,计算机可读指令被处理器执行时,实现上述实施例中的方法。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的实施方式后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
Claims (10)
1.一种挖掘同义词的方法,其特征在于,包括:
由第一模型构建实体词集合中各实体词的词向量,所述第一模型是根据共现图中的实体词序列对Skip-gram模型进行无监督训练得到的,所述共现图是根据从若干样本问答语料中所提取的实体词构建的;
计算所述实体词集合中选定的基准实体词所对应词向量和所述实体词集合中除所述基准实体词外的其他实体词所对应词向量之间的相似度;
根据所述相似度,确定所述基准实体词对应的候选同义词集合;
由第二模型预测所述基准实体词与所述候选同义词集合中每一候选同义词为同义词的概率;
根据所预测得到的概率对所述候选同义词集合中的候选同义词进行筛选,确定所述基准实体词的同义词。
2.根据权利要求1所述的方法,其特征在于,所述由第一模型构建实体词集合中各实体词的词向量之前,所述方法还包括:
根据预设的元路径在所述共现图中游走,得到所述实体词序列;
以所述实体词序列中的一实体词作为目标实体词,在所述实体词序列中提取所述目标实体词的上下文窗口中的实体词作为所述目标实体词的关联实体词;
根据所述目标实体词和所述目标实体词对应的每一关联实体词,对所述Skip-gram模型进行训练,得到所述第一模型对所述Skip-gram模型进行训练,得到所述第一模型。
3.根据权利要求2所述的方法,其特征在于,所述根据预设的元路径在所述共现图中游走,得到所述实体词序列之前,所述方法还包括:
从所述样本问答语料的提问语料中提取第一实体词,以及从所述样本问答语料的回复语料中提取第二实体词;
根据所述提问语料与所述回复语料之间的问答关系,将所述第一实体词和所述第二实体词相关联,得到所述共现图。
4.根据权利要求3所述的方法,其特征在于,所述从所述样本问答语料的提问语料中提取第一实体词,以及从所述样本问答语料的回复语料中提取第二实体词,包括:
根据构建的词典分别对所述样本问答语料中的提问语料和回复语料进行分词,得到对应的分词结果;
从所述提问语料对应的分词结果中提取指定类型的实体词,得到所述第一实体词,以及从所述回复语料对应的分词结果中提取指定类型的实体词,得到所述第二实体词。
5.根据权利要求4所述的方法,其特征在于,所述样本问答语料为医疗问答语料,所述指定类型的实体词包括用于描述疾病的实体词、用于描述症状的实体词、用于描述药品的实体词和用于描述检查的实体词中的至少一种。
6.根据权利要求4所述的方法,其特征在于,所述根据构建的词典分别对所述样本问答语料中的提问语料和回复语料进行分词,得到对应的分词结果之前,所述方法还包括:
获取参考实体词集合;
根据所述参考实体词集合构建所述词典。
7.根据权利要求1所述的方法,其特征在于,所述根据所述相似度,确定所述基准实体词对应的候选同义词集合,包括:
将与所述基准实体词相关的多个相似度按照由大到小排序,得到所述基准实体词对应的相似度排序;
将所述相似度排序中位于前设定数量的相似度所对应实体词作为所述基准实体词的候选同义词;
根据所述候选同义词,确定所述基准实体词对应的候选同义词集合。
8.根据权利要求1所述的方法,其特征在于,所述第一模型包括BERT模型、全连接层和输出层,所述由第二模型预测所述基准实体词与所述候选同义词集合中每一候选同义词为同义词的概率,包括:
针对所述候选同义词集合中的每一候选同义词,将所述基准实体词与所述候选同义词进行拼接,得到拼接文本;
由所述BERT模型输出所述拼接文本的语义向量;
由所述全连接层对所述语义向量进行全连接,得到全连接向量;
由所述输出层根据所述全连接向量输出所述基准实体词与所述候选同义词为同义词的概率。
9.根据权利要求1所述的方法,其特征在于,所述由第二模型预测所述基准实体词与所述候选同义词集合中每一候选同义词为同义词的概率之前,所述方法还包括:
通过预构建模型预测样本词对中的两个样本词为同义词的第一概率;
根据所述样本词对的标签和所对应的第一概率计算损失函数的函数值,所述标签用于指示所对应样本词对中的两个样本词是否为同义词;
根据所计算得到的函数值调整所述预构建模型的权重系数。
10.一种挖掘同义词的装置,其特征在于,所述装置包括:
词向量构建模块,用于由第一模型构建实体词集合中各实体词的词向量,所述第一模型是根据共现图中的实体词序列对Skip-gram模型进行无监督训练得到的,所述共现图是根据从若干样本问答语料中所提取的实体词构建的;
计算模块,用于计算所述实体词集合中选定的基准实体词所对应词向量和所述实体词集合中除所述基准实体词外的其他实体词所对应词向量之间的相似度;
候选同义词集合确定模块,用于根据所述相似度,确定所述基准实体词对应的候选同义词集合;
概率预测模块,用于由第二模型预测所述基准实体词与所述候选同义词集合中每一候选同义词为同义词的概率;
同义词确定模块,用于根据所预测得到的概率对所述候选同义词集合中的候选同义词进行筛选,确定所述基准实体词的同义词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011200400.9A CN112232065B (zh) | 2020-10-29 | 2020-10-29 | 挖掘同义词的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011200400.9A CN112232065B (zh) | 2020-10-29 | 2020-10-29 | 挖掘同义词的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112232065A true CN112232065A (zh) | 2021-01-15 |
CN112232065B CN112232065B (zh) | 2024-05-14 |
Family
ID=74121878
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011200400.9A Active CN112232065B (zh) | 2020-10-29 | 2020-10-29 | 挖掘同义词的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112232065B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110991168A (zh) * | 2019-12-05 | 2020-04-10 | 京东方科技集团股份有限公司 | 同义词挖掘方法、同义词挖掘装置及存储介质 |
CN112989837A (zh) * | 2021-05-11 | 2021-06-18 | 北京明略软件系统有限公司 | 一种基于共现图的实体别名发现方法及装置 |
CN113836901A (zh) * | 2021-09-14 | 2021-12-24 | 灵犀量子(北京)医疗科技有限公司 | 一种中英文医学同义词数据清洗方法及系统 |
CN114300128A (zh) * | 2021-12-31 | 2022-04-08 | 北京欧应信息技术有限公司 | 用于辅助疾病智能诊断的医学概念链接系统及存储介质 |
CN114464312A (zh) * | 2022-01-04 | 2022-05-10 | 北京欧应信息技术有限公司 | 用于辅助疾病推理的系统及存储介质 |
CN115238679A (zh) * | 2022-07-14 | 2022-10-25 | 腾讯科技(深圳)有限公司 | 同义词的挖掘方法、装置、计算机可读介质及电子设备 |
CN116340470A (zh) * | 2023-05-30 | 2023-06-27 | 环球数科集团有限公司 | 一种基于aigc的关键词关联检索系统 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013020439A (ja) * | 2011-07-11 | 2013-01-31 | Nec Corp | 同義語抽出システム、方法およびプログラム |
WO2014002774A1 (ja) * | 2012-06-25 | 2014-01-03 | 日本電気株式会社 | 同義語抽出システム、方法および記録媒体 |
US20150095017A1 (en) * | 2013-09-27 | 2015-04-02 | Google Inc. | System and method for learning word embeddings using neural language models |
US20150332158A1 (en) * | 2014-05-16 | 2015-11-19 | International Business Machines Corporation | Mining strong relevance between heterogeneous entities from their co-ocurrences |
CN105095204A (zh) * | 2014-04-17 | 2015-11-25 | 阿里巴巴集团控股有限公司 | 同义词的获取方法及装置 |
CN107451126A (zh) * | 2017-08-21 | 2017-12-08 | 广州多益网络股份有限公司 | 一种近义词筛选方法及系统 |
CN108153735A (zh) * | 2017-12-28 | 2018-06-12 | 北京奇艺世纪科技有限公司 | 一种近义词的获取方法及系统 |
CN108509474A (zh) * | 2017-09-15 | 2018-09-07 | 腾讯科技(深圳)有限公司 | 搜索信息的同义词扩展方法及装置 |
CN109828981A (zh) * | 2017-11-22 | 2019-05-31 | 阿里巴巴集团控股有限公司 | 一种数据处理方法及计算设备 |
CN111222053A (zh) * | 2019-11-27 | 2020-06-02 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种对象推荐方法、装置以及相关设备 |
CN111460798A (zh) * | 2020-03-02 | 2020-07-28 | 平安科技(深圳)有限公司 | 近义词推送方法、装置、电子设备及介质 |
-
2020
- 2020-10-29 CN CN202011200400.9A patent/CN112232065B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013020439A (ja) * | 2011-07-11 | 2013-01-31 | Nec Corp | 同義語抽出システム、方法およびプログラム |
WO2014002774A1 (ja) * | 2012-06-25 | 2014-01-03 | 日本電気株式会社 | 同義語抽出システム、方法および記録媒体 |
US20150095017A1 (en) * | 2013-09-27 | 2015-04-02 | Google Inc. | System and method for learning word embeddings using neural language models |
CN105095204A (zh) * | 2014-04-17 | 2015-11-25 | 阿里巴巴集团控股有限公司 | 同义词的获取方法及装置 |
US20150332158A1 (en) * | 2014-05-16 | 2015-11-19 | International Business Machines Corporation | Mining strong relevance between heterogeneous entities from their co-ocurrences |
CN107451126A (zh) * | 2017-08-21 | 2017-12-08 | 广州多益网络股份有限公司 | 一种近义词筛选方法及系统 |
CN108509474A (zh) * | 2017-09-15 | 2018-09-07 | 腾讯科技(深圳)有限公司 | 搜索信息的同义词扩展方法及装置 |
CN109828981A (zh) * | 2017-11-22 | 2019-05-31 | 阿里巴巴集团控股有限公司 | 一种数据处理方法及计算设备 |
CN108153735A (zh) * | 2017-12-28 | 2018-06-12 | 北京奇艺世纪科技有限公司 | 一种近义词的获取方法及系统 |
CN111222053A (zh) * | 2019-11-27 | 2020-06-02 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种对象推荐方法、装置以及相关设备 |
CN111460798A (zh) * | 2020-03-02 | 2020-07-28 | 平安科技(深圳)有限公司 | 近义词推送方法、装置、电子设备及介质 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110991168A (zh) * | 2019-12-05 | 2020-04-10 | 京东方科技集团股份有限公司 | 同义词挖掘方法、同义词挖掘装置及存储介质 |
CN112989837A (zh) * | 2021-05-11 | 2021-06-18 | 北京明略软件系统有限公司 | 一种基于共现图的实体别名发现方法及装置 |
CN113836901A (zh) * | 2021-09-14 | 2021-12-24 | 灵犀量子(北京)医疗科技有限公司 | 一种中英文医学同义词数据清洗方法及系统 |
CN113836901B (zh) * | 2021-09-14 | 2023-11-14 | 灵犀量子(北京)医疗科技有限公司 | 一种中英文医学同义词数据清洗方法及系统 |
CN114300128A (zh) * | 2021-12-31 | 2022-04-08 | 北京欧应信息技术有限公司 | 用于辅助疾病智能诊断的医学概念链接系统及存储介质 |
CN114464312A (zh) * | 2022-01-04 | 2022-05-10 | 北京欧应信息技术有限公司 | 用于辅助疾病推理的系统及存储介质 |
CN115238679A (zh) * | 2022-07-14 | 2022-10-25 | 腾讯科技(深圳)有限公司 | 同义词的挖掘方法、装置、计算机可读介质及电子设备 |
CN116340470A (zh) * | 2023-05-30 | 2023-06-27 | 环球数科集团有限公司 | 一种基于aigc的关键词关联检索系统 |
CN116340470B (zh) * | 2023-05-30 | 2023-09-15 | 环球数科集团有限公司 | 一种基于aigc的关键词关联检索系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112232065B (zh) | 2024-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112232065B (zh) | 挖掘同义词的方法及装置 | |
Wu et al. | Comparison of chest radiograph interpretations by artificial intelligence algorithm vs radiology residents | |
CN111316281B (zh) | 基于机器学习的自然语言情境中数值数据的语义分类方法以及系统 | |
CN106776711B (zh) | 一种基于深度学习的中文医学知识图谱构建方法 | |
CN111401066B (zh) | 基于人工智能的词分类模型训练方法、词处理方法及装置 | |
Fang et al. | Feature Selection Method Based on Class Discriminative Degree for Intelligent Medical Diagnosis. | |
CN106682411A (zh) | 一种将体检诊断数据转化为疾病标签的方法 | |
WO2023029506A1 (zh) | 病情分析方法、装置、电子设备及存储介质 | |
WO2023029502A1 (zh) | 基于问诊会话构建用户画像的方法、装置、设备和介质 | |
CN112241457A (zh) | 一种融合扩展特征的事理知识图谱事件检测方法 | |
US20210183526A1 (en) | Unsupervised taxonomy extraction from medical clinical trials | |
CN115858886B (zh) | 数据处理方法、装置、设备及可读存储介质 | |
Gagliardi et al. | Semantic unsupervised automatic keyphrases extraction by integrating word embedding with clustering methods | |
Saranya et al. | Intelligent medical data storage system using machine learning approach | |
Leng et al. | Bi-level artificial intelligence model for risk classification of acute respiratory diseases based on Chinese clinical data | |
CN113722507A (zh) | 基于知识图谱的住院费用预测方法、装置及计算机设备 | |
Wei et al. | Embedding electronic health records for clinical information retrieval | |
Kongburan et al. | Enhancing predictive power of cluster-boosted regression with text-based indexing | |
Cui et al. | Intelligent recommendation for departments based on medical knowledge graph | |
Ma et al. | Event extraction of Chinese electronic medical records based on BiGRU-CRF | |
Feng et al. | Automated generation of ICD-11 cluster codes for precision medical record classification | |
Bhaskoro et al. | An extraction of medical information based on human handwritings | |
Ho et al. | Cancer literature classification methods performance | |
Zubke et al. | Using openEHR archetypes for automated extraction of numerical information from clinical narratives | |
Nguyen et al. | Thread reconstruction in conversational data using neural coherence models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |