CN112507085B - 一种知识嵌入的领域识别方法、计算机设备及存储介质 - Google Patents
一种知识嵌入的领域识别方法、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN112507085B CN112507085B CN202011504511.9A CN202011504511A CN112507085B CN 112507085 B CN112507085 B CN 112507085B CN 202011504511 A CN202011504511 A CN 202011504511A CN 112507085 B CN112507085 B CN 112507085B
- Authority
- CN
- China
- Prior art keywords
- word
- speech
- token
- dictionary
- identification method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种知识嵌入的领域识别方法,包括:利用分词词典对指令词语进行词性标注,将特殊名词的词性标注为目的领域词性,在提取词向量时判断指令词语的词性是否属于目的领域词性,如果是就对属于目的领域词性的指令词语进行词性提取转换,并将值传给分词结果的Token.flag参数,在生成词向量时,将非空的Token.flag与该指令词语原本的词向量进行合并后,再输入卷积神经网络进行计算。本发明的方法可实现在多个领域极相似的说法中,准确的识别目的领域。
Description
技术领域
本发明涉及自然语言处理的领域识别技术领域,特别涉及一种知识嵌入的领域识别方法、计算机设备及存储介质。
背景技术
领域识别目前使用的embedding方法,能够适应一般大量文本的领域识别,但在不同领域极相似说法的识别表现不够好,尤其当两种领域相似说法的训练数据差距较大时,数据较少领域的识别率下降明显。原因在于传统的embedding方法并不能很好的识别句子中的实体实质上是属于哪一领域。
发明内容
本发明的目的是克服上述背景技术中不足,提供一种知识嵌入的领域识别方法、计算机设备及存储介质,可实现在多个领域极相似说法中,准确的识别目的领域。
为了达到上述的技术效果,本发明采取以下技术方案:
一种知识嵌入的领域识别方法,包括:利用分词词典对指令词语进行词性标注,将特殊名词的词性标注为目的领域词性,在提取词向量时判断指令词语的词性是否属于目的领域词性,如果是就对属于目的领域词性的指令词语进行词性提取转换,并将值传给分词结果的Token.flag参数,在生成词向量时,将非空的Token.flag与该指令词语原本的词向量进行合并后,再输入卷积神经网络进行计算。
进一步地,具体包括以下步骤:
步骤1.构造目的领域转换字典、一般词性检索列表及分词词典;
步骤2.获取指令语句并通过分词词典进行分词得到若干检索词语及其对应的词性;
步骤3.判断检索词语的词性是否在一般词性检索列表中,若是,则进入步骤4,否则,进入步骤5;
步骤4.将分词结果赋值给Token.word参数,并将空字符赋值给Token.flag参数;进入步骤6;
步骤5.将分词结果赋值给Token.word参数,并将词性对应的中文字符赋值给Token.flag参数;进入步骤6;
步骤6.生成词向量时,先判断Token.flag参数是否有值,若是,则进入步骤7,否则,进入步骤9;
步骤7.判断检索词语的词性是否包含于目的领域转换字典中,若是,则进入步骤8,否则,进入步骤9;
步骤8.将检索词语的原始词向量和Token.flag参数的词向量进行合并后输入卷积神经网络进行计算;
步骤9.将检索词语的原始词向量输入卷积神经网络进行计算。
进一步地,所述分词词典用于存储词语和词语出现的词频还有词性,且在分词词典中可进行特殊名词添加,并将其词性标注为想要其被识别成的领域。
进一步地,所述目的领域转换字典用于存放特殊名词的词性的中文转换词。
进一步地,所述一般词性检索列表用于存储词语的一般词性。
同时,本发明还公开了一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述知识嵌入的领域识别方法的步骤。
同时,本发明还公开了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述知识嵌入的领域识别方法的步骤。
本发明与现有技术相比,具有以下的有益效果:
本发明的知识嵌入的领域识别方法、计算机设备及存储介质,使用分词词典的词性标注,将词语知识图谱归一化为词性,并在生成词向量时合并目的领域词向量和原本词向量,增强词语与对应词性之间的联系,最后供给卷积神经网络提取特征区分相似说法,分析相似说法时即使只有实体名有区别也能准确识别,在不损失其他领域识别准确率的同时大大提高了拥有大量相似说法的几个领域的区分效果。
附图说明
图1是本发明的知识嵌入的领域识别方法的流程示意图。
图2是本发明的一个实施例的一般词性表的示意图。
图3是本发明的一个实施例的一般词性检索列表的示意图。
图4是本发明的一个实施例的目的领域转换字典的示意图。
具体实施方式
下面结合本发明的实施例对本发明作进一步的阐述和说明。
实施例:
实施例一:
一种知识嵌入的领域识别方法,包括:利用分词词典对指令词语进行词性标注,将特殊名词的词性标注为目的领域词性,在提取词向量时判断指令词语的词性是否属于目的领域词性,如果是就对属于目的领域词性的指令词语进行词性提取转换,并将值传给分词结果的Token.flag参数,在生成词向量时,将非空的Token.flag与该指令词语原本的词向量进行合并后,再输入卷积神经网络进行计算。
本实施例中,如图1所示,具体包括以下步骤:
步骤1.构造目的领域转换字典、一般词性检索列表及分词词典。
其中,分词词典用于存储词语和词语出现的词频还有词性,且在分词词典中可进行特殊名词添加,并将其词性标注为想要其被识别成的领域(如video)。目的领域转换字典用于存放特殊名词的词性的中文转换词。一般词性检索列表用于存储词语的一般词性,如名词n(标注类于英文)。
目的领域转换字典主要是用于对在一般词性检索列表中没有成功匹配的进行词性提取转换,并将值传给分词结果的Token.flag参数。
步骤2.获取指令语句并通过分词词典进行分词得到若干检索词语及其对应的词性;
步骤3.判断检索词语的词性是否在一般词性检索列表中,若是,则进入步骤4,否则,进入步骤5;
步骤4.将分词结果赋值给Token.word参数,并将空字符赋值给Token.flag参数;进入步骤6;
步骤5.将分词结果赋值给Token.word参数,并将词性对应的中文字符赋值给Token.flag参数;进入步骤6;
步骤6.生成词向量时,先判断Token.flag参数是否有值,若是,则进入步骤7,否则,进入步骤9;
步骤7.判断检索词语的词性是否包含于目的领域转换字典中,若是,则进入步骤8,否则,进入步骤9;
步骤8.将检索词语的原始词向量和Token.flag参数的词向量进行合并后输入卷积神经网络进行计算;
步骤9.将检索词语的原始词向量输入卷积神经网络进行计算。
实施例二
一种知识嵌入的领域识别方法,本实施例中,假设获取到的指令语句为“播放无某道”,期望结果返回最正确结果“VIDEO”,则该方法具体包括如下:
S1.在分词词典JIEBA_DICT中添加新的条目,本实施例中添加的新的部分条目具体如下:
无某道 1000 VIDEO
难忘某宵 1000 MUSIC
其中,具体的数字表示其词频,VIDEO及MUSIC等表示词性。
S2.根据一般词性表生成一般词性检索列表。
具体的,本实施例中的一般词性表如图2所示,据此生成的般词性检索列表如图3所示。
S3.初始化目的领域转换字典FIELD_DICT。本实施例中的领域转换字典部分内容如图4所示。
S4.接收输入的“播放无某道”,并通过分词词典JIEBA_DICT分词,结果为[pair('播放','v'),pair('无某道','video')]。
S5.检索一般词性检索列表FLAG_LIST,检索到无某道的词性video并不在其中,转S6。
S6.在目的领域转换字典FIELD_DICT中检索并取出video词性对应的中文并赋值给Token.flag。
S7.合并词向量时,先判断Token.flag是否有值,有值就合并原始词向量和Token.flag参数的词向量并输入CNN,从而,提升该词语的特征,提高识别效率。
实施例三
本实施例中公开了一种计算机设备,该计算机设备可以是服务器,该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储知识嵌入的领域识别方法中涉及到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现知识嵌入的领域识别方法。
在另一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例一中知识嵌入的领域识别方法的步骤。为避免重复,这里不再赘述。
在另一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例一中知识嵌入的领域识别方法的步骤。为避免重复,这里不再赘述。
可以理解的是,以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式,然而本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。
Claims (6)
1.一种知识嵌入的领域识别方法,其特征在于,包括:利用分词词典对指令词语进行词性标注,将特殊名词的词性标注为目的领域词性,在提取词向量时判断指令词语的词性是否属于目的领域词性,如果是就对属于目的领域词性的指令词语进行词性提取转换,并将值传给分词结果的Token.flag参数,在生成词向量时,将非空的Token.flag与该指令词语原本的词向量进行合并后,再输入卷积神经网络进行计算;
具体包括以下步骤:
步骤1.构造目的领域转换字典、一般词性检索列表及分词词典;
步骤2.获取指令语句并通过分词词典进行分词得到若干检索词语及其对应的词性;
步骤3.判断检索词语的词性是否在一般词性检索列表中,若是,则进入步骤4,否则,进入步骤5;
步骤4.将分词结果赋值给Token.word参数,并将空字符赋值给Token.flag参数;进入步骤6;
步骤5.将分词结果赋值给Token.word参数,并将词性对应的中文字符赋值给Token.flag参数;进入步骤6;
步骤6.生成词向量时,先判断Token.flag参数是否有值,若是,则进入步骤7,否则,进入步骤9;
步骤7.判断检索词语的词性是否包含于目的领域转换字典中,若是,则进入步骤8,否则,进入步骤9;
步骤8.将检索词语的原始词向量和Token.flag参数的词向量进行合并后输入卷积神经网络进行计算;
步骤9.将检索词语的原始词向量输入卷积神经网络进行计算。
2.根据权利要求1所述的一种知识嵌入的领域识别方法,其特征在于,所述分词词典用于存储词语和词语出现的词频还有词性,且在分词词典中可进行特殊名词添加,并将其词性标注为想要其被识别成的领域。
3.根据权利要求2所述的一种知识嵌入的领域识别方法,其特征在于,所述目的领域转换字典用于存放特殊名词的词性的中文转换词。
4.根据权利要求1至3中任一所述的一种知识嵌入的领域识别方法,其特征在于,所述一般词性检索列表用于存储词语的一般词性。
5.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述知识嵌入的领域识别方法的步骤。
6.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述知识嵌入的领域识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011504511.9A CN112507085B (zh) | 2020-12-18 | 2020-12-18 | 一种知识嵌入的领域识别方法、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011504511.9A CN112507085B (zh) | 2020-12-18 | 2020-12-18 | 一种知识嵌入的领域识别方法、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112507085A CN112507085A (zh) | 2021-03-16 |
CN112507085B true CN112507085B (zh) | 2022-06-03 |
Family
ID=74922468
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011504511.9A Active CN112507085B (zh) | 2020-12-18 | 2020-12-18 | 一种知识嵌入的领域识别方法、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112507085B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108664595A (zh) * | 2018-05-08 | 2018-10-16 | 和美(深圳)信息技术股份有限公司 | 领域知识库构建方法、装置、计算机设备和存储介质 |
CN110413796A (zh) * | 2019-07-03 | 2019-11-05 | 北京信息科技大学 | 一种煤矿典型动力灾害领域本体构建方法 |
CN111143569A (zh) * | 2019-12-31 | 2020-05-12 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置及计算机可读存储介质 |
CN111177345A (zh) * | 2019-12-19 | 2020-05-19 | 中国平安财产保险股份有限公司 | 基于知识图谱的智能问答方法、装置和计算机设备 |
CN111353030A (zh) * | 2020-02-26 | 2020-06-30 | 陕西师范大学 | 基于旅游领域知识图谱的知识问答检索方法及装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10102274B2 (en) * | 2014-03-17 | 2018-10-16 | NLPCore LLC | Corpus search systems and methods |
CN109902159A (zh) * | 2019-01-29 | 2019-06-18 | 华融融通(北京)科技有限公司 | 一种基于自然语言处理的智能运维语句相似度匹配方法 |
CN112015859B (zh) * | 2019-05-31 | 2023-08-18 | 百度在线网络技术(北京)有限公司 | 文本的知识层次抽取方法及装置、计算机设备及可读介质 |
CN111209746B (zh) * | 2019-12-30 | 2024-01-30 | 航天信息股份有限公司 | 自然语言处理方法、装置、存储介质及电子设备 |
-
2020
- 2020-12-18 CN CN202011504511.9A patent/CN112507085B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108664595A (zh) * | 2018-05-08 | 2018-10-16 | 和美(深圳)信息技术股份有限公司 | 领域知识库构建方法、装置、计算机设备和存储介质 |
CN110413796A (zh) * | 2019-07-03 | 2019-11-05 | 北京信息科技大学 | 一种煤矿典型动力灾害领域本体构建方法 |
CN111177345A (zh) * | 2019-12-19 | 2020-05-19 | 中国平安财产保险股份有限公司 | 基于知识图谱的智能问答方法、装置和计算机设备 |
CN111143569A (zh) * | 2019-12-31 | 2020-05-12 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置及计算机可读存储介质 |
CN111353030A (zh) * | 2020-02-26 | 2020-06-30 | 陕西师范大学 | 基于旅游领域知识图谱的知识问答检索方法及装置 |
Non-Patent Citations (2)
Title |
---|
Studies on automatic recognition of preposition BA"s usages based on statistics;Lingling Mu等;《2012 IEEE 2nd International Conference on Cloud Computing and Intelligence Systems》;20131114;1-4 * |
档案知识图谱构建技术研究;郭雪薇;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20200215(第2期);I138-2317 * |
Also Published As
Publication number | Publication date |
---|---|
CN112507085A (zh) | 2021-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8275604B2 (en) | Adaptive pattern learning for bilingual data mining | |
Skounakis et al. | Hierarchical hidden markov models for information extraction | |
CN108460011B (zh) | 一种实体概念标注方法及系统 | |
US6816830B1 (en) | Finite state data structures with paths representing paired strings of tags and tag combinations | |
CN111062217B (zh) | 语言信息的处理方法、装置、存储介质及电子设备 | |
CN110727779A (zh) | 基于多模型融合的问答方法及系统 | |
CN111666758B (zh) | 中文分词方法、训练设备以及计算机可读存储介质 | |
CN111401058B (zh) | 一种基于命名实体识别工具的属性值抽取方法及装置 | |
CN111459977B (zh) | 自然语言查询的转换 | |
CN111353306B (zh) | 基于实体关系和依存Tree-LSTM的联合事件抽取的方法 | |
WO2020215456A1 (zh) | 一种基于教师监督的文本标注方法和设备 | |
CN111488468B (zh) | 地理信息知识点抽取方法、装置、存储介质及计算机设备 | |
US20210342376A1 (en) | Method and apparatus for information query and storage medium | |
CN111046660B (zh) | 一种识别文本专业术语的方法及装置 | |
CN114676255A (zh) | 文本处理方法、装置、设备、存储介质及计算机程序产品 | |
CN113553414A (zh) | 智能对话方法、装置、电子设备和存储介质 | |
Ren et al. | Detecting the scope of negation and speculation in biomedical texts by using recursive neural network | |
CN112633007A (zh) | 一种语义理解模型构建方法及装置、语义理解方法及装置 | |
CN114860942A (zh) | 文本意图分类方法、装置、设备及存储介质 | |
CN114647727A (zh) | 应用于实体信息识别的模型训练方法、装置和设备 | |
CN110362656A (zh) | 一种语义要素提取方法及装置 | |
CN111368532B (zh) | 一种基于lda的主题词嵌入消歧方法及系统 | |
CN117371406A (zh) | 基于大型语言模型的注释生成方法、装置、设备及介质 | |
CN112507085B (zh) | 一种知识嵌入的领域识别方法、计算机设备及存储介质 | |
CN114330350B (zh) | 一种命名实体识别方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |