CN113806551A - 一种基于多文本结构数据的领域知识抽取方法 - Google Patents
一种基于多文本结构数据的领域知识抽取方法 Download PDFInfo
- Publication number
- CN113806551A CN113806551A CN202110817847.9A CN202110817847A CN113806551A CN 113806551 A CN113806551 A CN 113806551A CN 202110817847 A CN202110817847 A CN 202110817847A CN 113806551 A CN113806551 A CN 113806551A
- Authority
- CN
- China
- Prior art keywords
- data
- knowledge
- text
- information
- head
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 37
- 238000000547 structure data Methods 0.000 title claims abstract description 14
- 238000013506 data mapping Methods 0.000 claims abstract description 4
- 239000013598 vector Substances 0.000 claims description 26
- 238000000034 method Methods 0.000 claims description 22
- 238000012549 training Methods 0.000 claims description 17
- 239000003550 marker Substances 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 11
- 238000013507 mapping Methods 0.000 claims description 7
- 230000007246 mechanism Effects 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000008520 organization Effects 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种基于多文本结构数据的领域知识抽取方法,包括以下步骤:步骤1、结构化数据知识获取:将存储在关系数据库中的数据映射转换为标准的RDF三元组文件;步骤2、半结构化数据知识获取:将公开的领域百科中的半结构的数据,组织成标准的知识三元组形式知识;步骤3、非结构化数据知识获取。本发明针对结构化数据、半结构化数据和非结构化数据指定不同的知识抽取策略,从而能够为构建更加全面,数据来源更加丰富的知识图谱提供技术支持。
Description
技术领域
本发明属于信息抽取技术领域,涉及领域知识抽取方法,尤其是一种基于多文本结构数据的领域知识抽取方法。
背景技术
随着信息时代的快速发展,越来越多的行业都与信息技术紧密的结合起来。将行业所产生的数据利用信息技术进行有效的组织并开发相关应用不仅可以提高从业人员对行业整体的了解,也可以将数据中的价值有效体现出来。
自2012年谷歌提出了“知识图谱”的概念,人们开始将目光放在了语义网络上,语义网络是表示概念之间语义关系的网络,知识图谱是描述了真实世界的客观存在的实体、概念及它们之间的关联关系的语义网络。领域知识图谱的知识来源更多,文本结构更加复杂,因此构建领域知识图谱需要结合多种文本结构的数据从而提取其中的知识,进一步存储组织成领域知识图谱。其中对非结构化数据类型的知识抽取方法也需要更加有效,便捷的方法。
现有的知识抽取方法多专注于某一种数据的抽取,缺少多种数据类型知识抽取的广度。其中最复杂困难的任务关注于非结构化文本的知识抽取多注重在通用领域数据中进行抽取,难以做到有效提取某个垂直领域的知识,传统的神经网络方法如卷积神经网络,循环神经网络难以有效建模文本中的长程依赖,知识抽取效率低下。
鉴于此,本发明针对领域中存在的多文本结构的数据提出了一种领域知识的抽取方法。
经检索,未发现与本发明或发明相同或相似的现有技术。
发明内容
本发明的目的在于克服现有技术的不足,提出一种基于多文本结构数据的领域知识抽取方法,针对结构化数据、半结构化数据和非结构化数据指定不同的知识抽取策略,从而能够为构建更加全面,数据来源更加丰富的知识图谱提供技术支持。
本发明解决其现实问题是采取以下技术方案实现的:
一种基于多文本结构数据的领域知识抽取方法,包括以下步骤:
步骤1、结构化数据知识获取:将存储在关系数据库中的数据映射转换为标准的RDF三元组文件;
步骤2、半结构化数据知识获取:将公开的领域百科中的半结构的数据,组织成标准的知识三元组形式知识;
步骤3、非结构化数据知识获取;
而且,所述步骤1的具体方法为:使用R2RML的语义映射,将关系数据库中的数据映射转换为主语、谓语和宾语的三元组形式知识。
而且,所述步骤2的具体方法为:首先对网络公开免费获取的百科网站使用“爬虫”获取相应数据,通过使用正则化等方式对网页数据进行预处理,得到较为干净的文本信息,通过程序利用网页中对数据有结构性的组织,直接将其表达为标准的知识三元组形式知识。
而且,所述步骤3的具体步骤包括:
(1)首先通过网络“爬虫”获取领域高度相关的文本数据,采用人工标注的方式对领域文本进行序列标注,以此作为数据集;
(2)将数据集进行适当的预处理,使用按句号划分等方法将文本划分成一个个单独的句子;
(3)随后将预处理过后的数据集划分为训练集和预测集,用训练集训练合理的序列标注器,用测试集对序列标注器的性能进行检测;
(4)对于符合标准的序列标注器,使用该标注器对收集到的非结构化数据进行序列标注,完成实体识别,关系抽取和属性提取任务,实现对非结构化数据的知识抽取。
而且,所述步骤3的第(3)步的具体步骤包括:
①向量化表示:设一条领域文本s由n个字符构成,每个字都用k维向量表示,每一条文本都可以表示为一个n*k的矩阵,其中向量值由BERT的预训练模型而得,若字没有出现在训练语料中,则采用随机初始化方式对该字对应的向量进行赋值;同时引入领域词汇信息,将利用大规模分词语料进行训练的词汇组合信息作为额外特征对应加入每个句子中,若本句话中可能出现的词汇有m个,每个词汇信息都可以表示为k维向量,则每一条文本表示为(n+m)*k的矩阵;
②利用Transformer提取抽象特征:其中输入层为某条领域文本经过步骤①得到的矩阵,得到句子的编码信息输出;为每个字和词汇信息做位置编码;将位置信息的编码引入Transformer的自注意力层,最终Transformer网络输出得到每个字符的编码信息;
③利用条件随机场模型进行序列标注:经过Transformer网络后得到相应的编码信息输出,将编码信息通过条件随机场模型进行解码输出对应的标签,捕捉序列前后的转移概率和发射概率,进而得到训练合理的序列标注器;
而且,所述步骤3第(3)步的第②步中,将位置信息的编码引入 Transformer的自注意力层,最终Transformer网络输出得到每个字符的编码信息的具体计算公式为:
公式(1)(2)中,pos是位置,i是表示位置信息的第i维度,d是整体的维度,这表明每个位置都用一系列三角函数对其编码;
将位置信息和字词的词向量信息相加送入网络结构中,Transformer采用多头注意力机制来刻画输入之间的关系:
MultiHead(Q,K,V)=Concat(head1,...,headn)*Wo\*MERGEFORMAT (3)
公式(3)中Wo是可以学习的参数,Concat(head1,…,headn)意为每一个 headi的拼接;headi的表达式为:
本发明的优点和有益效果:
1、本发明的一种基于多文本结构数据的领域知识抽取方法,包括结构化数据、半结构化数据和非结构化数据知识抽取。通过使用R2RML语义映射,数据处理,使用BERT预训练模型和Transformer结构融合词汇信息完成对不同结构的数据的领域知识抽取,在广度和深度上均对现有方法进行了扩展与创新。
2、在广度上,本发明所针对知识抽取的文本结构是多类型的,包括结构化数据、半结构化数据和非结构化数据,针对不同的数据结构提出了有效的知识抽取方法,其中结构化数据采用R2RML语义映射,半结构化数据采用信息匹配和信息标记,非结构化数据采用神经网络模型进行知识抽取。
3、在深度上,本发明针对非结构化数据的知识抽取提出了一种高效的知识抽取模型结构,融合非结构化数据中出现的词汇信息,使得模型寻找实体更加高效,利用自注意力机制的Transformer神经网络可以更好的捕捉文本之间的特征关系,使用条件随机场输出更符合标签分布的序列标签,使用训练好的模型可以充当有效的序列标注器,从而实现对非结构化文本的知识抽取。
附图说明
图1为本发明的整体的知识获取示意图;
图2为本发明的获得句子含有语义和分词信息的词嵌入向量图;
图3为本发明的训练序列标注器所采取的网络结构图。
具体实施方式
以下结合附图对本发明实施例作进一步详述:
一种基于多文本结构数据的领域知识抽取方法,如图1所示,包括以下步骤:
步骤1、结构化数据知识获取:将存储在关系数据库中的数据映射转换为标准的RDF三元组文件;
所述步骤1的具体方法为:使用R2RML的语义映射,将关系数据库中的数据映射转换为主语、谓语和宾语的三元组形式知识。
在本实施例中,步骤1提取结构化数据中的知识,使用的手段是利用 D2RQ工具,将每一个数据表中的类所具有的属性按照映射文件语法进行书写,将数据库文件按照映射文件所描述的那样生成RDF文件。
步骤2、半结构化数据知识获取:将公开的领域百科中的半结构的数据,组织成标准的知识三元组形式知识;
所述步骤2的具体方法为:首先对网络公开免费获取的百科网站使用“爬虫”获取相应数据,通过使用正则化等方式对网页数据进行预处理,得到较为干净的文本信息,通过程序利用网页中对数据有结构性的组织,直接将其表达为标准的知识三元组形式知识。
如图1所示,通过正则化等方式对文本预处理,使用内容匹配和信息标记解析半结构化数据中的知识,从而完成实体识别,关系抽取和属性提取任务。
在本实施例中,步骤2提取半结构化数据的知识,首先通过“爬虫”的手段采集领域百科文本数据集,由于网页内容大多由HTML格式文本来书写,所以需要将其中的有效数据提取出来。针对这样的格式文本使用的工具为 python的re和bs4第三方库,对内容进行匹配和信息标记形式进行解析这两种方法的融合的信息提取策略。
步骤3、非结构化数据知识获取;
所述步骤3的具体步骤包括:
(1)首先通过网络“爬虫”获取领域高度相关的文本数据,采用人工标注的方式对领域文本进行序列标注,以此作为数据集;
(2)将数据集进行适当的预处理,使用按句号划分等方法将文本划分成一个个单独的句子;
(3)随后将预处理过后的数据集划分为训练集和预测集,用训练集训练合理的序列标注器,用测试集对序列标注器的性能进行检测;
(4)对于符合标准的序列标注器,使用该标注器对收集到的非结构化数据进行序列标注,完成图1中所涉及到的实体识别,关系抽取和属性提取任务,实现对非结构化数据的知识抽取。
所述步骤3的第(3)步的具体步骤包括:
①向量化表示:设一条领域文本s由n个字符构成,每个字都用k维向量表示,每一条文本都可以表示为一个n*k的矩阵,其中向量值由BERT的预训练模型而得,若字没有出现在训练语料中,则采用随机初始化方式对该字对应的向量进行赋值;同时引入领域词汇信息,将利用大规模分词语料进行训练的词汇组合信息作为额外特征对应加入每个句子中,若本句话中可能出现的词汇有m个,每个词汇信息都可以表示为k维向量,则每一条文本表示为(n+m)*k的矩阵;
如图2所示:“电力系统的主体结构含有电源”,这样一条文本通过使用BERT预训练模型映射可看作是13*k的词向量矩阵,而该句子中所存在的“电力系统”,“电源”可看作是潜在词汇信息,经过使用Word2vec方式映射为2*k的词向量矩阵,进行拼接后得到整体的15*k的词嵌入向量。
②利用Transformer提取抽象特征:其中输入层为某条领域文本经过步骤①得到的矩阵,得到句子的编码信息输出;为每个字和词汇信息做位置编码;将位置信息的编码引入Transformer的自注意力层,最终Transformer网络输出得到每个字符的编码信息;
如图3所示,将位置信息的编码引入Transformer的自注意力层,使用 QKV的方式再通过softmax函数完成自注意力机制的映射,使用向量拼接实现多头自注意力机制的结合。再通过正则化方法防止神经网络的退化,使用全连接神经网络实现字符之间的交互,最终Transformer网络输出得到每个字符的编码信息;
所述步骤3第(3)步的第②步中,将位置信息的编码引入Transformer 的自注意力层,最终Transformer网络输出得到每个字符的编码信息的具体计算公式为:
公式(1)(2)中,pos是位置,i是表示位置信息的第i维度,d是整体的维度,这表明每个位置都用一系列三角函数对其编码;
将位置信息和字词的词向量信息相加送入网络结构中,Transformer采用多头注意力机制来刻画输入之间的关系:
MultiHead(Q,K,V)=Concat(head1,...,headn)*Wo\*MERGEFORMAT (3)
公式(3)中Wo是可以学习的参数,Concat(head1,…,headn)意为每一个 headi的拼接;headi的表达式为:
本发明通过多头自注意机制从而捕捉句子中每个字符或者词汇与其他字符和词汇的相关关系,拥有比卷积神经网络和循环神经网络更好的特征捕捉能力。
③利用条件随机场模型进行序列标注:经过Transformer网络后得到相应的编码信息输出,将编码信息通过条件随机场模型进行解码输出对应的标签,捕捉序列前后的转移概率和发射概率,进而得到训练合理的序列标注器;
如图3所示,每一个文本数据Xi都有一个标签Yi与其对应,通过条件随机场模型可以得到更准确的实体关系的序列标注。
需要强调的是,本发明所述实施例是说明性的,而不是限定性的,因此本发明包括并不限于具体实施方式中所述实施例,凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式,同样属于本发明保护的范围。
Claims (6)
1.一种基于多文本结构数据的领域知识抽取方法,其特征在于:包括以下步骤:
步骤1、结构化数据知识获取:将存储在关系数据库中的数据映射转换为标准的RDF三元组文件;
步骤2、半结构化数据知识获取:将公开的领域百科中的半结构的数据,组织成标准的知识三元组形式知识;
步骤3、非结构化数据知识获取。
2.根据权利要求1所述的一种基于多文本结构数据的领域知识抽取方法,其特征在于:所述步骤1的具体方法为:使用R2RML的语义映射,将关系数据库中的数据映射转换为主语、谓语和宾语的三元组形式知识。
3.根据权利要求1所述的一种基于多文本结构数据的领域知识抽取方法,其特征在于:所述步骤2的具体方法为:首先对网络公开免费获取的百科网站使用“爬虫”获取相应数据,通过使用正则化等方式对网页数据进行预处理,得到较为干净的文本信息,通过程序利用网页中对数据有结构性的组织,直接将其表达为标准的知识三元组形式知识。
4.根据权利要求1所述的一种基于多文本结构数据的领域知识抽取方法,其特征在于:所述步骤3的具体步骤包括:
(1)首先通过网络“爬虫”获取领域高度相关的文本数据,采用人工标注的方式对领域文本进行序列标注,以此作为数据集;
(2)将数据集进行适当的预处理,使用按句号划分等方法将文本划分成一个个单独的句子;
(3)随后将预处理过后的数据集划分为训练集和预测集,用训练集训练合理的序列标注器,用测试集对序列标注器的性能进行检测;
(4)对于符合标准的序列标注器,使用该标注器对收集到的非结构化数据进行序列标注,完成实体识别,关系抽取和属性提取任务,实现对非结构化数据的知识抽取。
5.根据权利要求4所述的一种基于多文本结构数据的领域知识抽取方法,其特征在于:所述步骤3的第(3)步的具体步骤包括:
①向量化表示:设一条领域文本s由n个字符构成,每个字都用k维向量表示,每一条文本都可以表示为一个n*k的矩阵,其中向量值由BERT的预训练模型而得,若字没有出现在训练语料中,则采用随机初始化方式对该字对应的向量进行赋值;同时引入领域词汇信息,将利用大规模分词语料进行训练的词汇组合信息作为额外特征对应加入每个句子中,若本句话中可能出现的词汇有m个,每个词汇信息都可以表示为k维向量,则每一条文本表示为(n+m)*k的矩阵;
②利用Transformer提取抽象特征:其中输入层为某条领域文本经过步骤①得到的矩阵,得到句子的编码信息输出;为每个字和词汇信息做位置编码;将位置信息的编码引入Transformer的自注意力层,最终Transformer网络输出得到每个字符的编码信息;
③利用条件随机场模型进行序列标注:经过Transformer网络后得到相应的编码信息输出,将编码信息通过条件随机场模型进行解码输出对应的标签,捕捉序列前后的转移概率和发射概率,进而得到训练合理的序列标注器。
6.根据权利要求5所述的一种基于多文本结构数据的领域知识抽取方法,其特征在于:所述步骤3第(3)步的第②步中,将位置信息的编码引入Transformer的自注意力层,最终Transformer网络输出得到每个字符的编码信息的具体计算公式为:
公式(1)(2)中,pos是位置,i是表示位置信息的第i维度,d是整体的维度,这表明每个位置都用一系列三角函数对其编码;
将位置信息和字词的词向量信息相加送入网络结构中,Transformer采用多头注意力机制来刻画输入之间的关系:
MultiHead(Q,K,V)=Concat(head1,...,headn)*Wo\*MERGEFORMAT(3)
公式(3)中Wo是可以学习的参数,Concat(head1,…,headn)意为每一个headi的拼接;headi的表达式为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110817847.9A CN113806551A (zh) | 2021-07-20 | 2021-07-20 | 一种基于多文本结构数据的领域知识抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110817847.9A CN113806551A (zh) | 2021-07-20 | 2021-07-20 | 一种基于多文本结构数据的领域知识抽取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113806551A true CN113806551A (zh) | 2021-12-17 |
Family
ID=78893213
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110817847.9A Pending CN113806551A (zh) | 2021-07-20 | 2021-07-20 | 一种基于多文本结构数据的领域知识抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113806551A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110825881A (zh) * | 2019-09-26 | 2020-02-21 | 中国电力科学研究院有限公司 | 一种建立电力知识图谱的方法 |
CN111428054A (zh) * | 2020-04-14 | 2020-07-17 | 中国电子科技网络信息安全有限公司 | 一种网络空间安全领域知识图谱的构建与存储方法 |
CN112182241A (zh) * | 2020-09-24 | 2021-01-05 | 四川大学 | 一种空管领域知识图谱的自动化构建方法 |
CN112329477A (zh) * | 2020-11-27 | 2021-02-05 | 上海浦东发展银行股份有限公司 | 基于预训练模型的信息抽取方法、装置、设备及存储介质 |
-
2021
- 2021-07-20 CN CN202110817847.9A patent/CN113806551A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110825881A (zh) * | 2019-09-26 | 2020-02-21 | 中国电力科学研究院有限公司 | 一种建立电力知识图谱的方法 |
CN111428054A (zh) * | 2020-04-14 | 2020-07-17 | 中国电子科技网络信息安全有限公司 | 一种网络空间安全领域知识图谱的构建与存储方法 |
CN112182241A (zh) * | 2020-09-24 | 2021-01-05 | 四川大学 | 一种空管领域知识图谱的自动化构建方法 |
CN112329477A (zh) * | 2020-11-27 | 2021-02-05 | 上海浦东发展银行股份有限公司 | 基于预训练模型的信息抽取方法、装置、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
党圣: "基于BERT迁移学习的开放域知识图谱智能问答系统研究与实现", 《中国优秀硕士学位论文全文数据库信息科技辑》, 15 August 2020 (2020-08-15), pages 1 - 69 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111783394B (zh) | 事件抽取模型的训练方法、事件抽取方法和系统及设备 | |
CN114020768B (zh) | 中文自然语言的sql语句生成模型的构建方法及应用 | |
CN113535917A (zh) | 基于旅游知识图谱的智能问答方法及系统 | |
CN110990590A (zh) | 一种基于强化学习和迁移学习的动态金融知识图谱构建方法 | |
CN113191148B (zh) | 一种基于半监督学习和聚类的轨道交通实体识别方法 | |
CN113569050B (zh) | 基于深度学习的政务领域知识图谱自动化构建方法和装置 | |
CN114547298B (zh) | 基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法、装置和介质 | |
CN112749562A (zh) | 命名实体识别方法、装置、存储介质及电子设备 | |
CN116151256A (zh) | 一种基于多任务和提示学习的小样本命名实体识别方法 | |
CN116450834A (zh) | 一种基于多模态语义特征的档案知识图谱构建方法 | |
CN116661805B (zh) | 代码表示的生成方法和装置、存储介质及电子设备 | |
CN115599899A (zh) | 基于飞行器知识图谱的智能问答方法、系统、设备及介质 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN114881043B (zh) | 基于深度学习模型的法律文书语义相似度评估方法及系统 | |
CN115438674A (zh) | 实体数据处理、实体链接方法、装置和计算机设备 | |
CN117010500A (zh) | 一种多源异构知识联合增强的视觉知识推理问答方法 | |
CN112800184A (zh) | 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法 | |
CN115238691A (zh) | 基于知识融合的嵌入的多意图识别与槽位填充模型 | |
CN114021574B (zh) | 政策文件智能解析与结构化方法及系统 | |
CN114239730B (zh) | 一种基于近邻排序关系的跨模态检索方法 | |
CN117786052A (zh) | 一种基于领域知识图谱的电网智能问答系统 | |
CN115408506A (zh) | 联合语义解析和语义成分匹配的nl2sql的方法 | |
CN114840657A (zh) | 一种基于混合模式的api知识图谱自适应构建及智能问答方法 | |
CN114911940A (zh) | 文本情感识别方法及装置、电子设备、存储介质 | |
CN113806551A (zh) | 一种基于多文本结构数据的领域知识抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |