CN111274815A - 用于挖掘文本中的实体关注点的方法和装置 - Google Patents
用于挖掘文本中的实体关注点的方法和装置 Download PDFInfo
- Publication number
- CN111274815A CN111274815A CN202010042233.3A CN202010042233A CN111274815A CN 111274815 A CN111274815 A CN 111274815A CN 202010042233 A CN202010042233 A CN 202010042233A CN 111274815 A CN111274815 A CN 111274815A
- Authority
- CN
- China
- Prior art keywords
- input text
- core entity
- entity
- point
- labeling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 80
- 238000005065 mining Methods 0.000 title claims abstract description 37
- 238000002372 labelling Methods 0.000 claims abstract description 180
- 108091026890 Coding region Proteins 0.000 claims abstract description 108
- 238000000605 extraction Methods 0.000 claims abstract description 37
- 238000012545 processing Methods 0.000 claims abstract description 18
- 239000013598 vector Substances 0.000 claims description 94
- 238000004590 computer program Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 7
- 230000004044 response Effects 0.000 claims description 6
- 238000012549 training Methods 0.000 description 13
- 238000013528 artificial neural network Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 8
- 238000013527 convolutional neural network Methods 0.000 description 6
- 230000015654 memory Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000007418 data mining Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 210000002569 neuron Anatomy 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000003062 neural network model Methods 0.000 description 3
- 230000000644 propagated effect Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 241000218378 Magnolia Species 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本公开涉及知识图谱领域。本公开的实施例公开了用于挖掘文本中的实体关注点的方法和装置。该方法包括:对输入文本进行字词特征提取;将提取出的字词特征输入至文本编码网络进行编码,得到输入文本的编码序列;利用核心实体标注网络对输入文本的编码序列进行处理,预测出输入文本中的核心实体的位置;基于输入文本中的核心实体的位置,从输入文本的编码序列中提取出输入文本中的核心实体对应的子序列;基于输入文本的编码序列以及输入文本中的核心实体对应的子序列,利用关注点标注网络预测出输入文本中的核心实体对应的关注点的位置。该方法实现了文本中实体关注点的精准提取。
Description
技术领域
本公开的实施例涉及计算机技术领域,具体涉及文本数据处理技术领域,尤其涉及用于挖掘文本中的实体关注点的方法和装置。
背景技术
随着互联网技术的发展,社交平台等网络应用中出现了大量的短文本。文本中的实体关注点表示文本信息中所包含的实体以及围绕实体进行描述的实体属性、相关话题或事件等关注点信息。实体关注点标注是从文本数据中明确主要描述的实体以及相应的实体关注点的技术。实体关注点的标注结果可以用来快速提炼文本内容,以及进行可解释的信息推荐。
传统的实体关注点标注方案主要通过关键词识别来提取实体关键词和关注点关键词。这种方依赖于关键词库的构建,不能很好地覆盖文本中的实体,且无法判断实体与关注点之间的关系。
发明内容
本公开的实施例提出了用于挖掘文本中的实体关注点的方法和装置、电子设备和计算机可读介质。
第一方面,本公开的实施例提供了一种用于挖掘文本中的实体关注点的方法,包括:对输入文本进行字词特征提取;将提取出的字词特征输入至文本编码网络进行编码,得到输入文本的编码序列;利用核心实体标注网络对输入文本的编码序列进行处理,预测出输入文本中的核心实体的位置;基于输入文本中的核心实体的位置,从输入文本的编码序列中提取出输入文本中的核心实体对应的子序列;基于输入文本的编码序列以及输入文本中的核心实体对应的子序列,利用关注点标注网络预测出输入文本中的核心实体对应的关注点的位置。
在一些实施例中,上述对输入文本进行字词特征提取,包括:对输入文本对应的字序列进行字词混合嵌入得到对应的字特征向量;对输入文本对应的字序列中的各字符进行位置嵌入,得到对应的位置特征向量;对输入文本进行命名实体识别,根据命名实体识别的结果生成表征命名实体的类型的命名实体类型特征向量;将输入文本对应的字特征向量、位置特征向量以及命名实体类型特征向量拼接形成输入文本的字词特征向量。
在一些实施例中,上述根据命名实体识别的结果生成表征命名实体的类型的命名实体类型特征向量,包括:响应于未识别出输入文本中的目标词语的命名实体的类型,对目标词语进行词性标注,基于从输入文本中识别出的命名实体的类型以及目标词语的词性标注结果生成命名实体类型特征向量。
在一些实施例中,上述利用核心实体标注网络对输入文本的编码序列进行处理,预测出输入文本中的核心实体的位置,包括:将输入文本的编码序列输入核心实体标注网络以预测输入文本中每个字串作为核心实体的概率,并根据输入文本中各字串作为核心实体的概率,采用双指针分别标注出核心实体的起始位置和结束位置。
在一些实施例中,上述基于输入文本的编码序列以及输入文本中的核心实体对应的子序列,利用关注点标注网络预测出输入文本中的核心实体对应的关注点的位置,包括:获取基于核心实体的关注点知识库构建的核心实体的关注点先验特征;基于输入文本的编码序列、核心实体的关注点先验特征、以及输入文本中的核心实体对应的编码子序列拼接以生成输入文本的第一关注点特征,将输入文本的第一关注点特征输入至关注点标注网络,预测出由核心实体标注网络预测出的核心实体对应的关注点的位置。
在一些实施例中,上述将输入文本的第一关注点特征输入至关注点标注网络,预测出由核心实体标注网络预测出的核心实体对应的关注点的位置,包括:将输入文本的第一关注点特征输入关注点标注网络以预测输入文本中每个字串作为核心实体的关注点的概率,并根据输入文本中各字串作为核心实体的关注点的概率,采用双指针分别标注出核心实体的关注点的起始位置和结束位置。
在一些实施例中,上述输入文本包括:核心实体和对应的关注点的标注信息;上述方法还包括:根据输入文本的核心实体和对应的关注点的标注信息,确定输入文本的核心实体和对应的关注点的位置的预测误差,采用反向传播法迭代调整用于标注核心实体关注点的模型中的参数,以获得训练完成的用于标注核心实体关注点的模型,其中,用于标注核心实体关注点的模型包括文本编码网络、核心实体标注网络以及关注点标注网络。
在一些实施例中,上述方法还包括:基于输入文本中的核心实体和对应的关注点的标注信息提取出核心实体与对应的关注点的相对位置特征并编码得到相对位置特征序列;以及上述基于输入文本的编码序列以及输入文本中的核心实体对应的子序列,利用关注点标注网络预测出输入文本中的核心实体对应的关注点的位置,包括:获取基于核心实体的关注点知识库构建的核心实体的关注点先验特征,核心实体的关注点先验特征;将对输入文本中的核心实体对应的子序列进行编码的结果与相对位置特征序列拼接得到输入文本中的核心实体的编码序列;基于输入文本的编码序列、核心实体的关注点先验特征、以及输入文本中的核心实体对应的编码序列生成输入文本的第二关注点特征,将输入文本的第二关注点特征输入至关注点标注网络,预测出由核心实体标注网络预测出的核心实体对应的关注点的位置。
第二方面,本公开的实施例提供了一种用于挖掘文本中的实体关注点的装置,包括:第一提取单元,被配置为对输入文本进行字词特征提取;编码单元,被配置为将提取出的字词特征输入至文本编码网络进行编码,得到输入文本的编码序列;第一标注单元,被配置为利用核心实体标注网络对输入文本的编码序列进行处理,预测出输入文本中的核心实体的位置;第二提取单元,被配置为基于输入文本中的核心实体的位置,从输入文本的编码序列中提取出输入文本中的核心实体对应的子序列;第二标注单元,被配置为基于输入文本的编码序列以及输入文本中的核心实体对应的子序列,利用关注点标注网络预测出输入文本中的核心实体对应的关注点的位置。
在一些实施例中,上述第一提取单元被配置为按照如下方式对输入文本进行字词特征提取:对输入文本对应的字序列进行字词混合嵌入得到对应的字特征向量;对输入文本对应的字序列中的各字符进行位置嵌入,得到对应的位置特征向量;对输入文本进行命名实体识别,根据命名实体识别的结果生成表征命名实体的类型的命名实体类型特征向量;将输入文本对应的字特征向量、位置特征向量以及命名实体类型特征向量拼接形成输入文本的字词特征向量。
在一些实施例中,上述第一提取单元进一步被配置为按照如下方式生成表征命名实体的类型的命名实体类型特征向量:响应于未识别出输入文本中的目标词语的命名实体的类型,对目标词语进行词性标注,基于从输入文本中识别出的命名实体的类型以及目标词语的词性标注结果生成命名实体类型特征向量。
在一些实施例中,上述第一标注单元被配置为按照如下方式预测出输入文本中的核心实体的位置:将输入文本的编码序列输入核心实体标注网络以预测输入文本中每个字串作为核心实体的概率,并根据输入文本中各字串作为核心实体的概率,采用双指针分别标注出核心实体的起始位置和结束位置。
在一些实施例中,上述第二标注单元被配置为按照如下方式预测出输入文本中的核心实体对应的关注点的位置:获取基于核心实体的关注点知识库构建的核心实体的关注点先验特征;基于输入文本的编码序列、核心实体的关注点先验特征、以及输入文本中的核心实体对应的编码子序列生成输入文本的第一关注点特征,将输入文本的第一关注点特征输入至关注点标注网络,预测出由核心实体标注网络预测出的核心实体对应的关注点的位置。
在一些实施例中,上述第二标注单元进一步被配置为按照如下方式预测出由核心实体标注网络预测出的核心实体对应的关注点的位置:将输入文本的第一关注点特征输入关注点标注网络以预测输入文本中每个字串作为核心实体的关注点的概率,并根据输入文本中各字串作为核心实体的关注点的概率,采用双指针分别标注出核心实体的关注点的起始位置和结束位置。
在一些实施例中,上述输入文本包括:核心实体和对应的关注点的标注信息;上述装置还包括:迭代调整单元,被配置为根据输入文本的核心实体和对应的关注点的标注信息,确定输入文本的核心实体和对应的关注点的位置的预测误差,采用反向传播法迭代调整用于标注核心实体关注点的模型中的参数,以获得训练完成的用于标注核心实体关注点的模型,其中,用于标注核心实体关注点的模型包括文本编码网络、核心实体标注网络以及关注点标注网络。
在一些实施例中,上述装置还包括:第三提取单元,被配置为基于输入文本中的核心实体和对应的关注点的标注信息提取出核心实体与对应的关注点的相对位置特征并编码得到相对位置特征序列;以及上述第二标注单元进一步被配置为按照如下方式预测出输入文本中的核心实体对应的关注点的位置:获取基于核心实体的关注点知识库构建的核心实体的关注点先验特征;将对输入文本中的核心实体对应的子序列进行编码的结果与相对位置特征序列拼接得到输入文本中的核心实体的编码序列;基于输入文本的编码序列、核心实体的关注点先验特征、以及输入文本中的核心实体对应的编码序列生成输入文本的第二关注点特征,将输入文本的第二关注点特征输入至关注点标注网络,预测出由核心实体标注网络预测出的核心实体对应的关注点的位置。
第三方面,本公开的实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面提供的用于挖掘文本中的实体关注点的方法。
第四方面,本公开的实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,程序被处理器执行时实现第一方面提供的用于挖掘文本中的实体关注点的方法。
本公开的上述实施例的用于挖掘文本中的实体关注点的方法和装置,通过对输入文本进行字词特征提取;将提取出的字词特征输入至文本编码网络进行编码,得到输入文本的编码序列;利用核心实体标注网络对输入文本的编码序列进行处理,预测出输入文本中的核心实体的位置;基于输入文本中的核心实体的位置,从输入文本的编码序列中提取出输入文本中的核心实体对应的子序列;基于输入文本的编码序列以及输入文本中的核心实体对应的子序列,利用关注点标注网络预测出输入文本中的核心实体对应的关注点的位置,实现了文本中实体关注点的精准、全面提取。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本公开的其它特征、目的和优点将会变得更明显:
图1是本公开的实施例可以应用于其中的示例性系统架构图;
图2是根据本公开的用于挖掘文本中的实体关注点的方法的一个实施例的流程图;
图3是根据本公开的用于挖掘文本中的实体关注点的方法的另一个实施例的流程图;
图4是图3所示的用于挖掘文本中的实体关注点的方法的一个示例的实现原理流程示意图;
图5是本公开的用于挖掘文本中的实体关注点的装置的一个实施例的结构示意图;
图6是适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
图1示出了可以应用本公开的用于挖掘文本中的实体关注点的方法或用于挖掘文本中的实体关注点的装置的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103可以是用户端设备,其上可以安装有各种客户端应用。例如,社交平台应用,新闻资讯应用、电子商务类应用,等等。
终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件或软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。
服务器105可以是运行各种服务的服务器,例如社交平台应用的后台服务器。社交平台应用的后台服务器可以获取终端设备101、102、103上的社交平台应用中产生的社交平台数据,包括用户发布的内容数据、用户对发布的内容的操作数据,等等。例如社交平台应用的后台服务器可以对获取到的数据进行数据挖掘,从中提取出关键信息。
服务器105还可以例如是提供网络数据挖掘处理服务的服务器。例如搜索引擎服务器。服务器105可以获取网络中各源站的网页内容,对网页内容进行数据挖掘,提取出关键信息。
在本公开的应用场景中,服务器105可以对从终端设备101、102、103获取的、或者从页面的源站获取的文本数据进行实体关注点挖掘。
需要说明的是,本公开的实施例所提供的用于挖掘文本中的实体关注点的方法一般由服务器105执行,相应地,用于挖掘文本中的实体关注点的装置一般设置于服务器105中。
在一些场景中,服务器105可以从数据库、存储器或其他服务器(如网站服务器)获取待处理的文本数据,这时,示例性系统架构100可以不存在终端设备101、102、103。
需要说明的是,服务器105可以是硬件,也可以是软件。当服务器105为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器105为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件或软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,其示出了根据本公开的用于挖掘文本中的实体关注点的方法的一个实施例的流程200。该用于挖掘文本中的实体关注点的方法,包括以下步骤:
步骤201,对输入文本进行字词特征提取。
文本中的实体关注点是文本主要描述的实体及实体的属性、关联实体、相关话题或事件等某一侧面的信息。在本实施例中,用于挖掘文本中的实体关注点的方法的执行主体可以获取待挖掘的文本作为输入文本。输入文本可以是社交平台中用户发布的文本内容,或者可以是网络页面中的文本内容。可选地,本公开的实施例中输入文本可以是即时消息、论坛或社交平台的留言等类型的短文本。
在本实施例中,可以将输入文本拆分为字序列,然后对输入文本的字序列进行特征提取和特征的数学表征,将输入文本转换为对应的向量序列。具体可以对输入文本的字序列进行词嵌入获得输入文本对应的向量序列。或者,可以采用诸如主题模型、TF-IDF(term frequency–inverse document frequency,词频-逆文本频率指数)等方法提取输入文本的特征。
可选地,可以按照如下方式对输入文本进行字词特征提取:
首先,对输入文本对应的字序列进行字词混合嵌入得到对应的字特征向量。在实体关注点标注中,需要精准地对文本进行实体和关注点的边界切分,为了尽可能地避免边界切分出错,以字为单位进行特征提取和编码。同时,单字难以储存有效的语义信息,因此需要结合词嵌入的方法来提取输入文本的特征。
具体地,可以先对输入文本的字序列以字为单位进行字嵌入处理,得到字向量序列,而后对输入文本进行分词,采用Word2Vec模型来提取对应的词向量,之后将每个词的词向量重复N次,N为词所包含的字数,将词向量经过矩阵变换至与字向量相同的维度,并将N个词向量分别与对应的N个字向量混合。
举例来说,输入文本分词后其中一个词语为“长江大桥”,对其进行字嵌入分别得到“长”、“江”、“大”、“桥”四个单字的字嵌入向量,词嵌入得到“长江大桥”的词嵌入向量,可以将“长江大桥”的词嵌入向量重复四次,利用“长”、“江”、“大”、“桥”四个单字的字嵌入向量分别与“长江大桥”的词嵌入向量混合后生成该词语“长江大桥”对应的字向量序列。
然后,对输入文本对应的字序列中的各字符进行位置嵌入,得到对应的位置特征向量。其中,位置嵌入表示每个词语在输入文本中的位置。例如一个短文本包含10个字,词语X出现在第3、4、5个字,则对应的位置嵌入结果可以表示为10维向量,其中第3、4、5维的向量值为1,其他维的向量值为0。
之后,对输入文本进行命名实体识别,根据命名实体识别的结果生成表征命名实体的类型的命名实体类型特征向量。
可以基于命名实体库,采用NER(Named Entity Recognition,命名实体识别)模型来识别输入文本中的命名实体的类型。然后将命名实体的类型转换为对应的特征向量。
命名实体识别可以对文本中的一些表示人物、组织、位置、时间数量等动词或名词进行分类标注。在一些场景中,文本中可能存在一些无法用命名实体的类型标注的词语,例如“打篮球”。在本实施例的一些可选的实现方式中,可以响应于未识别出输入文本中的目标词语的命名实体的类型,对目标词语进行词性标注。如果输入文本中存在无法采用NER模型识别实体类型的目标词语,可以对其进行词性标注,例如标注为“动词”、“名词”、“动名词”,等等。这时可以基于从输入文本中识别出的命名实体的类型以及目标词语的词性标注结果生成命名实体类型特征向量。通过命名实体识别和词性标注可以提取每个词语的语义特征。
最后,将输入文本对应的字特征向量、位置特征向量以及命名实体类型特征向量拼接形成输入文本的字词特征向量。
可以对上述输入文本对应的字特征向量、位置特征向量、以及命名实体类型特征向量进行拼接,具体可以将上述输入文本对应的字特征向量、位置特征向量、以及命名实体类型特征向量转换至同一维度后拼接形成输入文本的字词特征向量。
需要说明的是,与上述字词混合嵌入方法类似地,在本实施例中,也可以对通过命名实体识别及词性标注提取出的特征向量进行N次重复(其中N为对应词语中所包含的字数),与词语中的N个单字的字向量对齐之后分别与对应的词语中各单字的字向量混合,从而将输入文本的对应的字特征向量与命名实体类型特征向量进行混合拼接。
由于输入文本的字词特征向量包含了表征各单字位置的位置特征向量以及命名实体类型特征向量,所以输入文本的字词特征向量包含了丰富的语义特征信息。这样可以在后续进行实体关注点标注时帮助准确分析词语之间的语义关联性,进而准确标注实体关注点的位置。
步骤202,将提取出的字词特征输入至文本编码网络进行编码,得到输入文本的编码序列。
文本编码网络可以是基于卷积神经网络、循环神经网络等构建的用于将文本的特征转换为编码的神经网络模型。在本实施例中,可以采用膨胀门卷积神经网络作为文本编码网络。膨胀门卷积神经网络可以增大每个神经元的感受野,使得各层神经元可以捕捉到上一层的更大范围的神经元的输出,每一个神经元的输出都包含较大范围的信息,从而可以对较长的序列信息中距离较远的序列元素之间的依赖关系进行有效的提取。通过应用膨胀门卷积神经网络作为文本编码网络,可以准确提取出输入文本中距离较远的字或词之间的依赖关系。
在实际应用上,上述文本编码网络可以是预先基于样本训练完成的神经网络。在将本实施例的方法应用于训练包含文本编码网络的实体关注点标注模型时,上述文本编码网络可以是待通过训练优化网络参数的神经网络。
步骤203,利用核心实体标注网络对输入文本的编码序列进行处理,预测出输入文本中的核心实体的位置。
核心实体标注网络用于标注输入文本中的核心实体的位置。可以将步骤202对输入文本的字词特征进行编码得到的编码序列输入核心实体标网络中,标注出核心实体的位置。其中核心实体的位置可以包括核心实体的起始位置,或者可以包括核心实体的起始位置和结束位置,或者可以包括核心实体所覆盖的所有单字的位置。
在实际应用中,核心实体标注网络可以是预先训练的神经网络。在将本实施例的方法应用于训练包含核心实体标注网络的实体关注点标注模型时,核心实体标注网络可以是待通过训练优化网络参数的神经网络。
输入文本中的核心实体是表征输入文本所描述的主题的主要实体。例如,在一段描述珠港澳大桥开通的新闻文本中,可以包含“珠港澳大桥”、“大桥”、“广东”等实体,其中“珠港澳大桥”是核心实体。
在本实施例的一些可选的实现方式中,在步骤203中可以按照如下方式预测出输入文本中的核心实体的位置:将输入文本的编码序列输入核心实体标注网络以预测输入文本中每个字串作为核心实体的概率,并根据输入文本中各字串作为核心实体的概率,采用双指针分别标注出核心实体的起始位置和结束位置。
在这里,双指针包括用于标注起始位置的指针和用于标注结束位置的指针。具体地,可以利用上述核心实体标注网络预测输入文本中每个字作为核心实体的起始位置的概率以及作为核心实体的结束位置的概率。然后根据各字作为核心实体的起始位置的概率以及作为核心实体的结束位置的概率确定出作为核心实体的字串。可以采用一个二分类模型判断每个字是否为核心实体的起始位置,采用另一个二分类模型判断每个字是否为核心实体的结束位置。
采用双指针标注核心实体的起始位置和结束位置可以对嵌套实体进行有效标注,例如对于输入文本中的一个字串“北京市海淀区学区房”,核心实体标注网络可以标注出“北京市”、“北京市海淀区”、“北京市海淀区学区房”三个实体,这样可以避免标注时遗漏重要的实体,对于较长的实体预测结果更准确。
可选地,上述核心实体标注网络可以包括注意力层,该注意力层可以是SelfAttention(自注意力)层,注意力层可以向输入文本的编码序列添加注意力信息,具体可以添加各单字或各词语之间的注意力分数信息。上述核心实体标注网络还可以包括至少一个全连接层形成的Dense网络或卷积神经网络。注意力层的输出结果被传入该Dense网络或卷积神经网络中进行核心实体位置的预测。
步骤204,基于输入文本中的核心实体的位置,从输入文本的编码序列中提取出输入文本中的核心实体对应的子序列。
可以基于核心实体标注出的核心实体的位置,从步骤202得到的输入文本的编码序列提取出核心实体中各单字对应的编码,作为核心实体对应的子序列。
步骤205,基于输入文本的编码序列以及输入文本中的核心实体对应的子序列,利用关注点标注网络预测出输入文本中的核心实体对应的关注点的位置。
在本实施例中,上述核心实体对应的子序列携带了核心实体的编码信息,可以将输入文本的编码序列和从该输入文本中预测出的核心实体对应的子序列输入至关注点标注网络,关注点标注网络可以计算输入文本中各字串作为核心实体对应的关注点的概率,并且根据概率进行二分类得到各字串是否为核心实体对应的关注点的预测结果,从而标注出核心实体对应的关注点的位置。
可选地,上述关注点标注网络也可以采用双指针方法对上述预测出的核心实体的关注点的起始位置和结束位置进行标注。
关注点标注网络可以是预先训练的用于标注关注点位置的神经网络。在训练时可以将已标注核心实体和对应的关注点的文本作为样本,关注点标注网络在训练过程中学习核心实体与核心实体的关注点之间的关系。
这样,通过关注点标注网络可以标注出输入文本中的核心实体的关注点的位置,从而实现了输入文本的核心实体关注点挖掘。
上述用于挖掘文本中的核心实体关注点的方法通过首先对输入文本进行字词特征提取,而后将提取出的字词特征输入至文本编码网络进行编码,得到输入文本的编码序列,然后利用核心实体标注网络对输入文本的编码序列进行处理,预测出输入文本中的核心实体的位置,之后基于输入文本中的核心实体的位置,从输入文本的编码序列中提取出输入文本中的核心实体对应的子序列,最后基于输入文本的编码序列以及输入文本中的核心实体对应的子序列,利用关注点标注网络预测出输入文本中的核心实体对应的关注点的位置,实现了文本中实体关注点的精准、快速提取,并且该方法不依赖于实体关键词库的构建,能够有效地覆盖文本中的实体,有效提取出实体与关注点之间的关系,从而实现了文本内容的精准提炼。
在一些实施例中,在步骤205之前,上述方法还包括:将输入文本的编码序列输入注意力网络进行注意力信息添加,得到输入文本的注意力编码序列。在这里,注意力网络可以是Self Attention(自注意力)网络,该注意力网络可以在输入文本的编码序列中添加表征输入文本中各单字或各词语之间的关系的注意力特征,得到输入文本的注意力编码序列。
在一些实施例中,上述步骤205可以按照如下方式实现:
首先,获取基于所述核心实体的关注点知识库构建输入文本中的核心实体的关注点先验特征,其中核心实体的关注点先验特征可以通过从核心实体的关注点知识库中筛选上述输入文本的核心实体的相关知识、并进行特征提取来获得。可选地,上述输入文本中的核心实体的关注点先验特征可以通过核心实体标注网络预测得出。
然后,可以基于输入文本的编码序列、核心实体的关注点先验特征、以及输入文本中的核心实体对应的子序列生成输入文本的第一关注点特征,将输入文本的第一关注点特征输入至所述关注点标注网络,预测出由所述核心实体标注网络预测出的核心实体对应的关注点的位置。
具体地,可以对核心实体的关注点先验特征进行编码,并采用核心实体编码网络对输入文本中的核心实体对应的子序列进行编码,得到输入文本中的核心实体的编码序列。可选地,还可以对输入文本的编码序列输入注意力网络进行注意力信息添加,得到输入文本的注意力编码序列之后将输入文本的编码序列或输入文本的注意力编码序列、对核心实体的关注点先验特征进行编码得到的编码序列、以及输入文本中的核心实体对应的编码序列拼接形成的序列作为生成输入文本的第一关注点特征,或者将上述输入文本的编码序列或输入文本的注意力编码序列、对核心实体的关注点先验特征进行编码得到的编码序列、以及输入文本中的核心实体对应的编码序列的加权和作为输入文本的第一关注点特征,将输入文本的第一关注点特征输入至关注点标注网络,预测出由核心实体标注网络预测出的核心实体对应的关注点的位置。
核心实体的关注点先验特征可以表征根据知识库及大规模数据挖掘产出的一些实体关注点的特征,如一些实体与一些关注点之间基于某些依存关系,则将这些关注点作为这些实体的关注点成立的置信度较高。例如,“电影花木兰的预告片”,如果在输入文本中预测出核心实体“电影花木兰”,并且在输入文本中出现“预告片”,则根据先验特征可以判断“预告片”作为“电影花木兰”对应的关注点的概率较高。
上述核心实体的关注点先验特征具体可以包括通过知识库挖掘出的核心实体的各个关注点的出现概率。
核心实体编码网络可以是用于对核心实体对应的子序列进行再次编码的神经网络。在实际应用场景中,核心实体编码网络可以是预先训练的网络,在应用于训练包括核心实体编码网络的核心实体关注点标注模型的场景时,核心实体编码网络可以是包含待通过训练优化参数的神经网络。可选地,核心实体编码网络可以是双向LSTM(Long Short-TermMemory长短期记忆网络)。
将核心实体编码网络对核心实体对应的子序列进行编码后得到的核心实体对应的编码序列与上述输入文本的注意力编码序列拼接后生成第一拼接序列。上述关注点标注网络可以基于该第一拼接序列预测核心实体对应的关注点的位置。
可选地,可以将上述第一关注点特征输入关注点标注网络以预测输入文本中每个字串作为核心实体的关注点的概率,并根据输入文本中各字串作为核心实体的关注点的概率,采用双指针分别标注出核心实体的关注点的起始位置和结束位置。
上述关注点标注网络可以包括两个二分类模型,两个二分类模型分别对输入文本中的每个字是否为核心实体的关注点的起始位置和结束位置进行分类。
上述关注点标注网络还可以包括由至少一个全连接层形成的神经网络,例如Dense网络,卷积神经网络,等等。
本实施例中通过在关注点标注网络的输入中加入核心实体的关注点先验知识,可以进一步提升核心实体关注点标注结果的准确性。而且在一段文本中包含核心实体的多个关注点时可以同时标注出多个关注点,在不依赖关键词库的情况下覆盖了更多的实体关注点,实现了文本内容的全面提炼。
在一些实施例中,上述用于挖掘文本中的实体关注点的方法可以应用于训练用于标注核心实体关注点的模型。这时,可以通过多次迭代执行上述用于挖掘文本中的实体关注点的方法中的核心实体预测和对应的关注点预测操作来训练包含核心实体预测网络和关注点预测网络的用于标注核心实体关注点的模型。
请参考图3,其示出了根据本公开的用于挖掘文本中的实体关注点的方法的另一个实施例的流程图。如图3所示,本实施例的用于挖掘文本中的实体关注点的方法的流程300,包括以下步骤:
步骤301,对输入文本进行字词特征提取。
在本实施例中,用于挖掘文本中的实体关注点的方法的执行主体可以获取输入文本。在这里,输入文本可以作为用于标注核心实体关注点的模型的训练样本,包括核心实体和对应的关注点的标注信息。
可以通过人工标注文本中的核心实体及对应的关注点来获取包括核心实体和对应的关注点标注信息的输入文本,作为用于标注核心实体关注点的模型的训练样本。
在本实施例中,用于标注核心实体关注点的模型可以包括上述文本编码网络、核心实体标注网络、关注点标注网络。可选地,还可以包括注意力网络、核心实体编码网络。
本实施例中对输入文本进行字词特征提取的方法与前述实施例中步骤201的方法相同,可以对输入文本采用词嵌入等方法转换为向量。可选地,还可以采用步骤201中所描述的字词混合嵌入、位置嵌入、命名实体类型嵌入的方法提取输入文本的字词混合特征、位置特征、命名实体类型特征。
步骤302,将提取出的字词特征输入至文本编码网络进行编码,得到输入文本的编码序列。
步骤303,利用核心实体标注网络对输入文本的编码序列进行处理,预测出输入文本中的核心实体的位置。
步骤304,基于输入文本中的核心实体的位置,从输入文本的编码序列中提取出输入文本中的核心实体对应的子序列。
步骤305,基于输入文本的编码序列以及输入文本中的核心实体对应的子序列,利用关注点标注网络预测出输入文本中的核心实体对应的关注点的位置。
本实施例中的步骤302至步骤305与前述实施例中的步骤202至步骤205一致,步骤302至步骤305的具体实现方式可以分别参考前述实施例中步骤202至步骤205的描述,此处不再赘述。
步骤306,根据输入文本的核心实体和对应的关注点的标注信息,确定输入文本的核心实体和对应的关注点的位置的预测误差,采用反向传播法迭代调整用于标注核心实体关注点的模型中的参数,以获得训练完成的用于标注核心实体关注点的模型。
在每一次迭代中,可以计算核心实体标注网络预测出的输入文本的核心实体与输入文本包含的标注信息所指示的核心实体之间的偏差,以及关注点标注网络预测出的输入文本的核心实体的关注点与输入文本包含的标注信息所指示的对应关注点之间的偏差,作为当前的用于标注核心实体关注点的模型的预测误差,若判断预测误差未达到预设的收敛条件,可以采用梯度下降法调整用于标注核心实体关注点的模型的参数,将预测误差反向传播至模型的预测中,利用调整参数后的用于标注核心实体关注点的模型重新执行步骤301至步骤305,得到新的预测误差,这样反复多次迭代不断优化模型的参数,直到模型的预测误差达到预设的收敛条件时停止迭代,固定模型的参数,得到训练完成的用于标注核心实体关注点的模型。需要说明的是,用于标注核心实体关注点的模型的参数可以包括用于标注核心实体关注点的模型所包含的各网络的参数,在每次更新模型参数时,可以同时对模型中各网络的参数进行更新。
在本实施例的一些可选的实现方式中,上述方法流程300还可以包括:基于输入文本中的核心实体和对应的关注点的标注信息提取出核心实体与对应的关注点的相对位置特征并编码得到相对位置特征序列。
具体地,可以采用相对位置嵌入方法对输入文本的标注信息所指示的核心实体与对应的关注点之间的相对位置关系进行向量化,并利用基于卷积神经网络等构建的编码网络对表征该相对位置关系的向量进行编码得到相对位置特征序列。
这时,可以按照如下方式执行上述步骤305:
首先,获取基于核心实体的关注点知识库构建的上述输入文本中的核心实体的关注点先验特征,其中核心实体的关注点先验特征可以通过从核心实体的关注点知识库中筛选出上述输入文本的核心实体的相关知识、并进行特征提取来获取。可选地,上述输入文本中核心实体的关注点先验特征可以通过待训练的核心实体标注网络预测得出。
然后,可以将对输入文本中的核心实体对应的子序列进行编码的结果与相对位置特征序列拼接得到输入文本中的核心实体的编码序列。
可选地,上述用于标注核心实体关注点的模型还可以包括核心实体编码网络。核心实体编码网络可以是用于对核心实体对应的子序列进行再次编码的神经网络。可选地,核心实体编码网络可以是双向LSTM。
最后,基于输入文本的编码序列、核心实体的关注点先验特征、以及输入文本中的核心实体对应的编码序列生成输入文本的第二关注点特征,将输入文本的第二关注点特征输入至关注点标注网络,预测出由核心实体标注网络预测出的核心实体对应的关注点的位置。
可选地,上述用于标注核心实体关注点的模型还可以包括注意力网络。注意力网络用于在输入文本的编码序列中添加注意力信息,注意力信息表征输入文本中各单字或各词语之间的潜在依赖关系。这时,还可以将所述输入文本的编码序列输入注意力网络进行注意力信息添加,得到输入文本的注意力编码序列。可以将输入文本的编码序列或输入文本的注意力编码序列、对核心实体的关注点先验特征进行编码得到的编码序列、以及由输入文本中的核心实体对应的子序列进行编码的结果与相对位置特征序列拼接形成的上述输入文本中的核心实体对应的编码序列进行拼接,得到的序列作为输入文本的第二关注点特征,或者可以将输入文本的编码序列或输入文本的注意力编码序列、对核心实体的关注点先验特征进行编码得到的编码序列、以及由输入文本中的核心实体对应的子序列进行编码的结果与相对位置特征序列拼接得到的核心实体对应的编码序列的加权和,作为上述输入文本的第二关注点特征。
在实践中,可以将输入文本中预测出的核心实体的编码序列与上述相对位置特征序列进行拼接,得到与输入文本的编码序列等长的向量序列,之后再与输入文本的注意力编码序列、对该核心实体的关注点先验特征进行编码得到的编码序列进行拼接形成第二拼接序列。这样得到的第二拼接序列不仅包含了输入文本的特征、核心实体的位置特征,还包括核心实体与对应的关注点的相对位置特征、核心实体的关注点的先验特征,从而在关注点标注网络对第二拼接序列进行处理后得到更准确的关注点预测结果。
在上述实现方式中,可以基于用于标注核心实体关注点的模型中所包含的各网络构建损失函数的表达式,该损失函数表征用于标注核心实体关注点的模型的预测误差。通过迭代调整用于标注核心实体关注点的模型中各网络的参数来使损失函数的值收敛,从而在训练中逐步优化各网络的参数。
继续参考图4,其示出了图3所示的用于挖掘文本中的实体关注点的方法的一个示例的实现原理流程示意图,具体示出了用于标注核心实体关注点的模型对输入文本的处理流程。
如图4所示,首先对输入文本进行字词混合嵌入、位置嵌入以及命名实体类型嵌入,然后利用基膨胀门卷积网络对嵌入得到的特征及逆行编码得到编码后的序列E。之后,将序列E传入一个注意力网络之后将输出结果传入至全连接网络(Dense Net)中,采用双指针标注方法标注出核心实体s的起始位置和结束位置。将序列E对应于核心实体s的子序列传入一个双向LSTM中得到核心实体s的编码序列,然后将核心实体s的编码序列加上关注点相对于实体的相对位置特征,得到一个与输入文本的编码序列E等长的向量序列;之后将序列E传入另一个注意力网络,将该注意力网络的输出与上一步得到的与序列E等长的向量序列、以及通过实体关注点知识库构建的实体关注点先验特征编码拼接;将拼接结果输入至全连接网络(Dense Net),采用双指针标注法标注出关注点的起始位置和结束位置,最后输出核心实体关注点的标注结果。
本实施例的用于挖掘文本中的实体关注点的方法能够获得可准确标注核心实体关注点的神经网络模型。并且在一些实现方式中该神经网络模型可以将核心实体与关注点的相对位置作为输入的特征进行学习,能够提升训练得到的用于标注核心实体关注点的模型的准确性,同时提升训练效率。
请参考图5,作为对上述用于挖掘文本中的实体关注点的方法的实现,本公开提供了一种用于挖掘文本中的实体关注点的装置的一个实施例,该装置实施例与图2和图3所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图5所示,本实施例的用于挖掘文本中的实体关注点的装置500包括第一提取单元501、编码单元502、第一标注单元503、第二提取单元504以及第二标注单元505。其中第一提取单元501被配置为对输入文本进行字词特征提取;编码单元502被配置为将提取出的字词特征输入至文本编码网络进行编码,得到输入文本的编码序列;第一标注单元503被配置为利用核心实体标注网络对输入文本的编码序列进行处理,预测出输入文本中的核心实体的位置;第二提取单元504被配置为基于输入文本中的核心实体的位置,从输入文本的编码序列中提取出输入文本中的核心实体对应的子序列;第二标注单元505被配置为基于输入文本的编码序列以及输入文本中的核心实体对应的子序列,利用关注点标注网络预测出输入文本中的核心实体对应的关注点的位置。
在一些实施例中,上述第一提取单元501被配置为按照如下方式对输入文本进行字词特征提取:对输入文本对应的字序列进行字词混合嵌入得到对应的字特征向量;对输入文本对应的字序列中的各字符进行位置嵌入,得到对应的位置特征向量;对输入文本进行命名实体识别,根据命名实体识别的结果生成表征命名实体的类型的命名实体类型特征向量;将输入文本对应的字特征向量、位置特征向量以及命名实体类型特征向量拼接形成输入文本的字词特征向量。
在一些实施例中,上述第一提取单元501进一步被配置为按照如下方式生成表征命名实体的类型的命名实体类型特征向量:响应于未识别出输入文本中的目标词语的命名实体的类型,对目标词语进行词性标注,基于从输入文本中识别出的命名实体的类型以及目标词语的词性标注结果生成命名实体类型特征向量。
在一些实施例中,上述第一标注单元503被配置为按照如下方式预测出输入文本中的核心实体的位置:将输入文本的编码序列输入核心实体标注网络以预测输入文本中每个字串作为核心实体的概率,并根据输入文本中各字串作为核心实体的概率,采用双指针分别标注出核心实体的起始位置和结束位置。
在一些实施例中,上述第二标注单元505被配置为按照如下方式预测出输入文本中的核心实体对应的关注点的位置:获取基于核心实体的关注点知识库构建的核心实体的关注点先验特征;基于输入文本的注意力编码序列、核心实体的关注点先验特征、以及输入文本中的核心实体对应的编码子序列生成输入文本的第一关注点特征,将输入文本的第一关注点特征输入至关注点标注网络,预测出由核心实体标注网络预测出的核心实体对应的关注点的位置。
在一些实施例中,上述第二标注单元505进一步被配置为按照如下方式预测出由核心实体标注网络预测出的核心实体对应的关注点的位置:将输入文本的第一关注点特征输入关注点标注网络以预测输入文本中每个字串作为核心实体的关注点的概率,并根据输入文本中各字串作为核心实体的关注点的概率,采用双指针分别标注出核心实体的关注点的起始位置和结束位置。
在一些实施例中,上述输入文本包括:核心实体和对应的关注点的标注信息;上述装置500还包括:迭代调整单元,被配置为根据输入文本的核心实体和对应的关注点的标注信息,确定输入文本的核心实体和对应的关注点的位置的预测误差,采用反向传播法迭代调整用于标注核心实体关注点的模型中的参数,以获得训练完成的用于标注核心实体关注点的模型,其中,用于标注核心实体关注点的模型包括文本编码网络、核心实体标注网络以及关注点标注网络。
在一些实施例中,上述装置还包括:第三提取单元,被配置为基于输入文本中的核心实体和对应的关注点的标注信息提取出核心实体与对应的关注点的相对位置特征并编码得到相对位置特征序列;以及上述第二标注单元505进一步被配置为按照如下方式预测出输入文本中的核心实体对应的关注点的位置:获取基于核心实体的关注点知识库构建的核心实体的关注点先验特征;将对输入文本中的核心实体对应的子序列进行编码的结果与相对位置特征序列拼接得到输入文本中的核心实体的编码序列;基于输入文本的注意力编码序列、核心实体的关注点先验特征、以及输入文本中的核心实体对应的编码序列生成输入文本的第二关注点特征,将输入文本的第二关注点特征输入至关注点标注网络,预测出由核心实体标注网络预测出的核心实体对应的关注点的位置。
上述装置500中的单元与参考图2和图3描述的方法中的步骤相对应。由此,上文针对用于挖掘文本中的实体关注点的方法描述的操作、特征及所能达到的技术效果同样适用于装置500及其中包含的单元,在此不再赘述。
下面参考图6,其示出了适于用来实现本公开的实施例的电子设备(例如图1所示的服务器)600的结构示意图。图6示出的电子设备仅仅是一个示例,不应对本公开的实施例的功能和使用范围带来任何限制。
如图6所示,电子设备600可以包括处理装置(例如中央处理器、图形处理器等)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储装置608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有电子设备600操作所需的各种程序和数据。处理装置601、ROM 602以及RAM603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
通常,以下装置可以连接至I/O接口605:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置606;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置607;包括例如硬盘等的存储装置608;以及通信装置609。通信装置609可以允许电子设备600与其他设备进行无线或有线通信以交换数据。虽然图6示出了具有各种装置的电子设备600,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图6中示出的每个方框可以代表一个装置,也可以根据需要代表多个装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置609从网络上被下载和安装,或者从存储装置608被安装,或者从ROM 602被安装。在该计算机程序被处理装置601执行时,执行本公开的实施例的方法中限定的上述功能。需要说明的是,本公开的实施例所描述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:对输入文本进行字词特征提取;将提取出的字词特征输入至文本编码网络进行编码,得到输入文本的编码序列;利用核心实体标注网络对输入文本的编码序列进行处理,预测出输入文本中的核心实体的位置;基于输入文本中的核心实体的位置,从输入文本的编码序列中提取出输入文本中的核心实体对应的子序列;基于输入文本的编码序列以及输入文本中的核心实体对应的子序列,利用关注点标注网络预测出输入文本中的核心实体对应的关注点的位置。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的实施例的操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开的实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括第一提取单元、编码单元、第一标注单元、第二提取单元和第二标注单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,第一提取单元还可以被描述为“对输入文本进行字词特征提取的单元”。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (18)
1.一种用于挖掘文本中的实体关注点的方法,包括:
对输入文本进行字词特征提取;
将提取出的字词特征输入至文本编码网络进行编码,得到输入文本的编码序列;
利用核心实体标注网络对所述输入文本的编码序列进行处理,预测出所述输入文本中的核心实体的位置;
基于所述输入文本中的核心实体的位置,从所述输入文本的编码序列中提取出所述输入文本中的核心实体对应的子序列;
基于所述输入文本的编码序列以及所述输入文本中的核心实体对应的子序列,利用关注点标注网络预测出所述输入文本中的核心实体对应的关注点的位置。
2.根据权利要求1所述的方法,其中,所述对输入文本进行字词特征提取,包括:
对所述输入文本对应的字序列进行字词混合嵌入得到对应的字特征向量;
对所述输入文本对应的字序列中的各字符进行位置嵌入,得到对应的位置特征向量;
对所述输入文本进行命名实体识别,根据命名实体识别的结果生成表征命名实体的类型的命名实体类型特征向量;
将所述输入文本对应的字特征向量、位置特征向量以及命名实体类型特征向量拼接形成所述输入文本的字词特征向量。
3.根据权利要求2所述的方法,其中,所述根据命名实体识别的结果生成表征命名实体的类型的命名实体类型特征向量,包括:
响应于未识别出所述输入文本中的目标词语的命名实体的类型,对所述目标词语进行词性标注,基于从所述输入文本中识别出的命名实体的类型以及所述目标词语的词性标注结果生成所述命名实体类型特征向量。
4.根据权利要求1所述的方法,其中,所述利用核心实体标注网络对所述输入文本的编码序列进行处理,预测出所述输入文本中的核心实体的位置,包括:
将所述输入文本的编码序列输入所述核心实体标注网络以预测所述输入文本中每个字串作为核心实体的概率,并根据所述输入文本中各字串作为核心实体的概率,采用双指针分别标注出核心实体的起始位置和结束位置。
5.根据权利要求1所述的方法,其中,所述基于所述输入文本的编码序列以及所述输入文本中的核心实体对应的子序列,利用关注点标注网络预测出所述输入文本中的核心实体对应的关注点的位置,包括:
获取基于所述核心实体的关注点知识库构建的所述核心实体的关注点先验特征;
基于所述输入文本的编码序列、所述核心实体的关注点先验特征、以及所述输入文本中的核心实体对应的子序列生成所述输入文本的第一关注点特征,将所述输入文本的第一关注点特征输入至所述关注点标注网络,预测出由所述核心实体标注网络预测出的核心实体对应的关注点的位置。
6.根据权利要求5所述的方法,其中,所述将所述输入文本的第一关注点特征输入至所述关注点标注网络,预测出由所述核心实体标注网络预测出的核心实体对应的关注点的位置,包括:
将所述输入文本的第一关注点特征输入所述关注点标注网络以预测所述输入文本中每个字串作为核心实体的关注点的概率,并根据所述输入文本中各字串作为核心实体的关注点的概率,采用双指针分别标注出核心实体的关注点的起始位置和结束位置。
7.根据权利要求1-6任一项所述的方法,其中,所述输入文本包括:核心实体和对应的关注点的标注信息;
所述方法还包括:
根据所述输入文本的核心实体和对应的关注点的标注信息,确定所述输入文本的核心实体和对应的关注点的位置的预测误差,采用反向传播法迭代调整用于标注核心实体关注点的模型中的参数,以获得训练完成的用于标注核心实体关注点的模型,其中,所述用于标注核心实体关注点的模型包括所述文本编码网络、所述核心实体标注网络以及所述关注点标注网络。
8.根据权利要求7所述的方法,其中,所述方法还包括:
基于所述输入文本中的核心实体和对应的关注点的标注信息提取出核心实体与对应的关注点的相对位置特征并编码得到相对位置特征序列;以及
所述基于所述输入文本的编码序列以及所述输入文本中的核心实体对应的子序列,利用关注点标注网络预测出所述输入文本中的核心实体对应的关注点的位置,包括:
获取基于所述核心实体的关注点知识库构建的所述核心实体的关注点先验特征;
将对所述输入文本中的核心实体对应的子序列进行编码的结果与所述相对位置特征序列拼接得到所述输入文本中的核心实体的编码序列;
基于所述输入文本的编码序列、所述核心实体的关注点先验特征、以及所述输入文本中的核心实体对应的编码序列生成所述输入文本的第二关注点特征,将所述输入文本的第二关注点特征输入至所述关注点标注网络,预测出由所述核心实体标注网络预测出的核心实体对应的关注点的位置。
9.一种用于挖掘文本中的实体关注点的装置,包括:
第一提取单元,被配置为对输入文本进行字词特征提取;
编码单元,被配置为将提取出的字词特征输入至文本编码网络进行编码,得到输入文本的编码序列;
第一标注单元,被配置为利用核心实体标注网络对所述输入文本的编码序列进行处理,预测出所述输入文本中的核心实体的位置;
第二提取单元,被配置为基于所述输入文本中的核心实体的位置,从所述输入文本的编码序列中提取出所述输入文本中的核心实体对应的子序列;
第二标注单元,被配置为基于所述输入文本的编码序列以及所述输入文本中的核心实体对应的子序列,利用关注点标注网络预测出所述输入文本中的核心实体对应的关注点的位置。
10.根据权利要求9所述的装置,其中,所述第一提取单元被配置为按照如下方式对输入文本进行字词特征提取:
对所述输入文本对应的字序列进行字词混合嵌入得到对应的字特征向量;
对所述输入文本对应的字序列中的各字符进行位置嵌入,得到对应的位置特征向量;
对所述输入文本进行命名实体识别,根据命名实体识别的结果生成表征命名实体的类型的命名实体类型特征向量;
将所述输入文本对应的字特征向量、位置特征向量以及命名实体类型特征向量拼接形成所述输入文本的字词特征向量。
11.根据权利要求10所述的装置,其中,所述第一提取单元进一步被配置为按照如下方式生成表征命名实体的类型的命名实体类型特征向量:
响应于未识别出所述输入文本中的目标词语的命名实体的类型,对所述目标词语进行词性标注,基于从所述输入文本中识别出的命名实体的类型以及所述目标词语的词性标注结果生成所述命名实体类型特征向量。
12.根据权利要求9所述的装置,其中,所述第一标注单元被配置为按照如下方式预测出所述输入文本中的核心实体的位置:
将所述输入文本的编码序列输入所述核心实体标注网络以预测所述输入文本中每个字串作为核心实体的概率,并根据所述输入文本中各字串作为核心实体的概率,采用双指针分别标注出核心实体的起始位置和结束位置。
13.根据权利要求9所述的装置,其中,所述第二标注单元被配置为按照如下方式预测出所述输入文本中的核心实体对应的关注点的位置:
获取基于所述核心实体的关注点知识库构建的所述核心实体的关注点先验特征;
基于所述输入文本的编码序列、所述核心实体的关注点先验特征、以及所述输入文本中的核心实体对应的子序列生成所述输入文本的第一关注点特征,将所述输入文本的第一关注点特征输入至所述关注点标注网络,预测出由所述核心实体标注网络预测出的核心实体对应的关注点的位置。
14.根据权利要求13所述的装置,其中,所述第二标注单元进一步被配置为按照如下方式预测出由所述核心实体标注网络预测出的核心实体对应的关注点的位置:
将所述输入文本的第一关注点特征输入所述关注点标注网络以预测所述输入文本中每个字串作为核心实体的关注点的概率,并根据所述输入文本中各字串作为核心实体的关注点的概率,采用双指针分别标注出核心实体的关注点的起始位置和结束位置。
15.根据权利要求9-14任一项所述的装置,其中,所述输入文本包括:核心实体和对应的关注点的标注信息;
所述装置还包括:
迭代调整单元,被配置为根据所述输入文本的核心实体和对应的关注点的标注信息,确定所述输入文本的核心实体和对应的关注点的位置的预测误差,采用反向传播法迭代调整用于标注核心实体关注点的模型中的参数,以获得训练完成的用于标注核心实体关注点的模型,其中,所述用于标注核心实体关注点的模型包括所述文本编码网络、所述核心实体标注网络以及所述关注点标注网络。
16.根据权利要求15所述的装置,其中,所述装置还包括:
第三提取单元,被配置为基于所述输入文本中的核心实体和对应的关注点的标注信息提取出核心实体与对应的关注点的相对位置特征并编码得到相对位置特征序列;
所述第二标注单元进一步被配置为按照如下方式预测出所述输入文本中的核心实体对应的关注点的位置:
获取基于所述核心实体的关注点知识库构建的所述核心实体的关注点先验特征;
将对所述输入文本中的核心实体对应的子序列进行编码的结果与所述相对位置特征序列拼接得到所述输入文本中的核心实体的编码序列;
基于所述输入文本的编码序列、所述核心实体的关注点先验特征、以及所述输入文本中的核心实体对应的编码序列生成所述输入文本的第二关注点特征,将所述输入文本的第二关注点特征输入至所述关注点标注网络,预测出由所述核心实体标注网络预测出的核心实体对应的关注点的位置。
17.一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。
18.一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如权利要求1-8中任一所述的方法。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010042233.3A CN111274815B (zh) | 2020-01-15 | 2020-01-15 | 用于挖掘文本中的实体关注点的方法和装置 |
US17/023,915 US11775761B2 (en) | 2020-01-15 | 2020-09-17 | Method and apparatus for mining entity focus in text |
EP20197255.1A EP3852002A1 (en) | 2020-01-15 | 2020-09-21 | Method and apparatus for mining entity focus in text |
JP2021003861A JP7112536B2 (ja) | 2020-01-15 | 2021-01-14 | テキストにおける実体注目点のマイニング方法および装置、電子機器、コンピュータ読取可能な記憶媒体並びにコンピュータプログラム |
KR1020210005121A KR102554121B1 (ko) | 2020-01-15 | 2021-01-14 | 텍스트의 엔티티 포커스의 마이닝 방법 및 장치 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010042233.3A CN111274815B (zh) | 2020-01-15 | 2020-01-15 | 用于挖掘文本中的实体关注点的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111274815A true CN111274815A (zh) | 2020-06-12 |
CN111274815B CN111274815B (zh) | 2024-04-12 |
Family
ID=71002187
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010042233.3A Active CN111274815B (zh) | 2020-01-15 | 2020-01-15 | 用于挖掘文本中的实体关注点的方法和装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11775761B2 (zh) |
EP (1) | EP3852002A1 (zh) |
JP (1) | JP7112536B2 (zh) |
KR (1) | KR102554121B1 (zh) |
CN (1) | CN111274815B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111738024A (zh) * | 2020-07-29 | 2020-10-02 | 腾讯科技(深圳)有限公司 | 实体名词标注方法和装置、计算设备和可读存储介质 |
CN112487812A (zh) * | 2020-10-21 | 2021-03-12 | 上海旻浦科技有限公司 | 一种基于边界识别的嵌套实体识别方法及系统 |
CN112541359A (zh) * | 2020-11-27 | 2021-03-23 | 北京百度网讯科技有限公司 | 文档内容识别方法、装置、电子设备及介质 |
KR20210046600A (ko) * | 2020-06-30 | 2021-04-28 | 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. | 엔티티 관계 마이닝 방법, 장치, 전자 기기, 저장 매체 및 프로그램 |
CN112836052A (zh) * | 2021-02-19 | 2021-05-25 | 中国第一汽车股份有限公司 | 一种汽车评论文本观点挖掘方法、设备及存储介质 |
CN113051926A (zh) * | 2021-03-01 | 2021-06-29 | 北京百度网讯科技有限公司 | 文本抽取方法、设备和存储介质 |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111090987B (zh) * | 2019-12-27 | 2021-02-05 | 北京百度网讯科技有限公司 | 用于输出信息的方法和装置 |
CN111460083B (zh) * | 2020-03-31 | 2023-07-25 | 北京百度网讯科技有限公司 | 文档标题树的构建方法、装置、电子设备及存储介质 |
CN114548102A (zh) * | 2020-11-25 | 2022-05-27 | 株式会社理光 | 实体文本的序列标注方法、装置及计算机可读存储介质 |
CN116089602B (zh) * | 2021-11-04 | 2024-05-03 | 腾讯科技(深圳)有限公司 | 信息处理方法、装置、电子设备、存储介质和程序产品 |
CN114595686B (zh) * | 2022-03-11 | 2023-02-03 | 北京百度网讯科技有限公司 | 知识抽取方法、知识抽取模型的训练方法及装置 |
US11615247B1 (en) * | 2022-04-24 | 2023-03-28 | Zhejiang Lab | Labeling method and apparatus for named entity recognition of legal instrument |
CN116629387B (zh) * | 2023-07-24 | 2023-10-27 | 湖南视觉伟业智能科技有限公司 | 一种用于训练缺失条件下的文本处理方法及处理系统 |
CN117251650B (zh) * | 2023-11-20 | 2024-02-06 | 之江实验室 | 地理热点中心识别方法、装置、计算机设备和存储介质 |
Citations (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105243130A (zh) * | 2015-09-29 | 2016-01-13 | 中国电子科技集团公司第三十二研究所 | 面向数据挖掘的文本处理系统及方法 |
KR20160105688A (ko) * | 2015-02-28 | 2016-09-07 | 삼성전자주식회사 | 다수의 기기에서 텍스트 데이터 동기화 |
CN106570179A (zh) * | 2016-11-10 | 2017-04-19 | 中国科学院信息工程研究所 | 一种面向评价性文本的核心实体识别方法及装置 |
CN106776555A (zh) * | 2016-12-09 | 2017-05-31 | 中国科学院信息工程研究所 | 一种基于字模型的评论文本实体识别方法及装置 |
US20180129938A1 (en) * | 2016-11-04 | 2018-05-10 | Salesforce.Com, Inc. | Dynamic coattention network for question answering |
CN108334490A (zh) * | 2017-04-07 | 2018-07-27 | 腾讯科技(深圳)有限公司 | 关键词提取方法以及关键词提取装置 |
US20180233141A1 (en) * | 2017-02-14 | 2018-08-16 | Microsoft Technology Licensing, Llc | Intelligent assistant with intent-based information resolution |
CN108563636A (zh) * | 2018-04-04 | 2018-09-21 | 广州杰赛科技股份有限公司 | 提取文本关键词的方法、装置、设备及存储介质 |
CN108664473A (zh) * | 2018-05-11 | 2018-10-16 | 平安科技(深圳)有限公司 | 文本关键信息的识别方法、电子装置及可读存储介质 |
CN109299457A (zh) * | 2018-09-06 | 2019-02-01 | 北京奇艺世纪科技有限公司 | 一种观点挖掘方法、装置及设备 |
CN109388793A (zh) * | 2017-08-03 | 2019-02-26 | 阿里巴巴集团控股有限公司 | 实体标注方法、意图识别方法及对应装置、计算机存储介质 |
CN109408812A (zh) * | 2018-09-30 | 2019-03-01 | 北京工业大学 | 一种基于注意力机制的序列标注联合抽取实体关系的方法 |
CN109582975A (zh) * | 2019-01-31 | 2019-04-05 | 北京嘉和美康信息技术有限公司 | 一种命名实体的识别方法及装置 |
KR20190050180A (ko) * | 2017-11-02 | 2019-05-10 | 서강대학교산학협력단 | 과학문서의 핵심어구 추출방법 및 장치 |
CN109918510A (zh) * | 2019-03-26 | 2019-06-21 | 中国科学技术大学 | 跨领域关键词提取方法 |
CN109933801A (zh) * | 2019-03-25 | 2019-06-25 | 北京理工大学 | 基于预测位置注意力的双向lstm命名实体识别方法 |
CN110008469A (zh) * | 2019-03-19 | 2019-07-12 | 桂林电子科技大学 | 一种多层次命名实体识别方法 |
CN110046350A (zh) * | 2019-04-12 | 2019-07-23 | 百度在线网络技术(北京)有限公司 | 文法错误识别方法、装置、计算机设备及存储介质 |
CN110110330A (zh) * | 2019-04-30 | 2019-08-09 | 腾讯科技(深圳)有限公司 | 基于文本的关键词提取方法和计算机设备 |
CN110162749A (zh) * | 2018-10-22 | 2019-08-23 | 哈尔滨工业大学(深圳) | 信息提取方法、装置、计算机设备及计算机可读存储介质 |
CN110210038A (zh) * | 2019-06-13 | 2019-09-06 | 北京百度网讯科技有限公司 | 核心实体确定方法及其系统、服务器和计算机可读介质 |
CN110263323A (zh) * | 2019-05-08 | 2019-09-20 | 清华大学 | 基于栅栏式长短时记忆神经网络的关键词抽取方法及系统 |
CN110263174A (zh) * | 2019-06-27 | 2019-09-20 | 成都冰鉴信息科技有限公司 | —基于焦点关注的主题类别分析方法 |
CN110309407A (zh) * | 2018-03-13 | 2019-10-08 | 优酷网络技术(北京)有限公司 | 观点提取方法及装置 |
KR20190114195A (ko) * | 2018-03-29 | 2019-10-10 | 네이버 주식회사 | 핵심 키워드 추출 방법 및 시스템 |
CN110377748A (zh) * | 2019-06-13 | 2019-10-25 | 北京百度网讯科技有限公司 | 实体关注点挖掘方法、装置、计算机设备及存储介质 |
CN110399616A (zh) * | 2019-07-31 | 2019-11-01 | 国信优易数据有限公司 | 命名实体检测方法、装置、电子设备及可读存储介质 |
CN110472242A (zh) * | 2019-08-05 | 2019-11-19 | 腾讯科技(深圳)有限公司 | 一种文本处理方法、装置和计算机可读存储介质 |
CN110516073A (zh) * | 2019-08-30 | 2019-11-29 | 北京百度网讯科技有限公司 | 一种文本分类方法、装置、设备和介质 |
CN110598213A (zh) * | 2019-09-06 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 一种关键词提取方法、装置、设备及存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8478420B2 (en) * | 2006-07-12 | 2013-07-02 | Cyberonics, Inc. | Implantable medical device charge balance assessment |
KR101009924B1 (ko) | 2010-06-25 | 2011-01-20 | 한국과학기술정보연구원 | 온톨로지 스키마와 결합된 개체명 사전 및 마이닝 규칙을 이용한 개체명 사전 또는 마이닝 규칙 데이터베이스 갱신 장치 및 방법 |
NZ759818A (en) * | 2017-10-16 | 2022-04-29 | Illumina Inc | Semi-supervised learning for training an ensemble of deep convolutional neural networks |
WO2020069534A1 (en) * | 2018-09-29 | 2020-04-02 | Brainworks | Data representations and architectures, systems, and methods for multi-sensory fusion, computing, and cross-domain generalization |
-
2020
- 2020-01-15 CN CN202010042233.3A patent/CN111274815B/zh active Active
- 2020-09-17 US US17/023,915 patent/US11775761B2/en active Active
- 2020-09-21 EP EP20197255.1A patent/EP3852002A1/en not_active Ceased
-
2021
- 2021-01-14 KR KR1020210005121A patent/KR102554121B1/ko active IP Right Grant
- 2021-01-14 JP JP2021003861A patent/JP7112536B2/ja active Active
Patent Citations (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20160105688A (ko) * | 2015-02-28 | 2016-09-07 | 삼성전자주식회사 | 다수의 기기에서 텍스트 데이터 동기화 |
CN105243130A (zh) * | 2015-09-29 | 2016-01-13 | 中国电子科技集团公司第三十二研究所 | 面向数据挖掘的文本处理系统及方法 |
US20180129938A1 (en) * | 2016-11-04 | 2018-05-10 | Salesforce.Com, Inc. | Dynamic coattention network for question answering |
CN106570179A (zh) * | 2016-11-10 | 2017-04-19 | 中国科学院信息工程研究所 | 一种面向评价性文本的核心实体识别方法及装置 |
CN106776555A (zh) * | 2016-12-09 | 2017-05-31 | 中国科学院信息工程研究所 | 一种基于字模型的评论文本实体识别方法及装置 |
US20180233141A1 (en) * | 2017-02-14 | 2018-08-16 | Microsoft Technology Licensing, Llc | Intelligent assistant with intent-based information resolution |
CN108334490A (zh) * | 2017-04-07 | 2018-07-27 | 腾讯科技(深圳)有限公司 | 关键词提取方法以及关键词提取装置 |
CN109388793A (zh) * | 2017-08-03 | 2019-02-26 | 阿里巴巴集团控股有限公司 | 实体标注方法、意图识别方法及对应装置、计算机存储介质 |
KR20190050180A (ko) * | 2017-11-02 | 2019-05-10 | 서강대학교산학협력단 | 과학문서의 핵심어구 추출방법 및 장치 |
CN110309407A (zh) * | 2018-03-13 | 2019-10-08 | 优酷网络技术(北京)有限公司 | 观点提取方法及装置 |
KR20190114195A (ko) * | 2018-03-29 | 2019-10-10 | 네이버 주식회사 | 핵심 키워드 추출 방법 및 시스템 |
CN108563636A (zh) * | 2018-04-04 | 2018-09-21 | 广州杰赛科技股份有限公司 | 提取文本关键词的方法、装置、设备及存储介质 |
CN108664473A (zh) * | 2018-05-11 | 2018-10-16 | 平安科技(深圳)有限公司 | 文本关键信息的识别方法、电子装置及可读存储介质 |
CN109299457A (zh) * | 2018-09-06 | 2019-02-01 | 北京奇艺世纪科技有限公司 | 一种观点挖掘方法、装置及设备 |
CN109408812A (zh) * | 2018-09-30 | 2019-03-01 | 北京工业大学 | 一种基于注意力机制的序列标注联合抽取实体关系的方法 |
CN110162749A (zh) * | 2018-10-22 | 2019-08-23 | 哈尔滨工业大学(深圳) | 信息提取方法、装置、计算机设备及计算机可读存储介质 |
CN109582975A (zh) * | 2019-01-31 | 2019-04-05 | 北京嘉和美康信息技术有限公司 | 一种命名实体的识别方法及装置 |
CN110008469A (zh) * | 2019-03-19 | 2019-07-12 | 桂林电子科技大学 | 一种多层次命名实体识别方法 |
CN109933801A (zh) * | 2019-03-25 | 2019-06-25 | 北京理工大学 | 基于预测位置注意力的双向lstm命名实体识别方法 |
CN109918510A (zh) * | 2019-03-26 | 2019-06-21 | 中国科学技术大学 | 跨领域关键词提取方法 |
CN110046350A (zh) * | 2019-04-12 | 2019-07-23 | 百度在线网络技术(北京)有限公司 | 文法错误识别方法、装置、计算机设备及存储介质 |
CN110110330A (zh) * | 2019-04-30 | 2019-08-09 | 腾讯科技(深圳)有限公司 | 基于文本的关键词提取方法和计算机设备 |
CN110263323A (zh) * | 2019-05-08 | 2019-09-20 | 清华大学 | 基于栅栏式长短时记忆神经网络的关键词抽取方法及系统 |
CN110210038A (zh) * | 2019-06-13 | 2019-09-06 | 北京百度网讯科技有限公司 | 核心实体确定方法及其系统、服务器和计算机可读介质 |
CN110377748A (zh) * | 2019-06-13 | 2019-10-25 | 北京百度网讯科技有限公司 | 实体关注点挖掘方法、装置、计算机设备及存储介质 |
CN110263174A (zh) * | 2019-06-27 | 2019-09-20 | 成都冰鉴信息科技有限公司 | —基于焦点关注的主题类别分析方法 |
CN110399616A (zh) * | 2019-07-31 | 2019-11-01 | 国信优易数据有限公司 | 命名实体检测方法、装置、电子设备及可读存储介质 |
CN110472242A (zh) * | 2019-08-05 | 2019-11-19 | 腾讯科技(深圳)有限公司 | 一种文本处理方法、装置和计算机可读存储介质 |
CN110516073A (zh) * | 2019-08-30 | 2019-11-29 | 北京百度网讯科技有限公司 | 一种文本分类方法、装置、设备和介质 |
CN110598213A (zh) * | 2019-09-06 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 一种关键词提取方法、装置、设备及存储介质 |
Non-Patent Citations (4)
Title |
---|
GUL KHAN SAFI QAMAS;尹继泽;潘丽敏;罗森林;: "基于深度神经网络的命名实体识别方法研究", 信息网络安全, no. 10, 10 October 2017 (2017-10-10) * |
SIMONE MAGONLINI ET AL.: "How to Use Gazetteers for Entity Recognition with Neural Models", 《PROCEEDINGS OF THE 5TH WORKSHOP ON SEMANTIC DEEP LEARNING》, pages 2 - 4 * |
李源;马磊;邵党国;袁梅宇;张名芳;: "用于社交媒体的中文命名实体识别", 中文信息学报, no. 08, 15 August 2020 (2020-08-15) * |
杨贺羽;杜洪波;朱立军;: "基于顺序遗忘编码和Bi-LSTM的命名实体识别算法", 计算机应用与软件, no. 02, 12 February 2020 (2020-02-12) * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210046600A (ko) * | 2020-06-30 | 2021-04-28 | 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. | 엔티티 관계 마이닝 방법, 장치, 전자 기기, 저장 매체 및 프로그램 |
KR102600018B1 (ko) * | 2020-06-30 | 2023-11-08 | 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. | 엔티티 관계 마이닝 방법, 장치, 전자 기기, 저장 매체 및 프로그램 |
CN111738024A (zh) * | 2020-07-29 | 2020-10-02 | 腾讯科技(深圳)有限公司 | 实体名词标注方法和装置、计算设备和可读存储介质 |
CN111738024B (zh) * | 2020-07-29 | 2023-10-27 | 腾讯科技(深圳)有限公司 | 实体名词标注方法和装置、计算设备和可读存储介质 |
CN112487812A (zh) * | 2020-10-21 | 2021-03-12 | 上海旻浦科技有限公司 | 一种基于边界识别的嵌套实体识别方法及系统 |
CN112487812B (zh) * | 2020-10-21 | 2021-07-06 | 上海旻浦科技有限公司 | 一种基于边界识别的嵌套实体识别方法及系统 |
CN112541359A (zh) * | 2020-11-27 | 2021-03-23 | 北京百度网讯科技有限公司 | 文档内容识别方法、装置、电子设备及介质 |
CN112541359B (zh) * | 2020-11-27 | 2024-02-02 | 北京百度网讯科技有限公司 | 文档内容识别方法、装置、电子设备及介质 |
CN112836052A (zh) * | 2021-02-19 | 2021-05-25 | 中国第一汽车股份有限公司 | 一种汽车评论文本观点挖掘方法、设备及存储介质 |
CN113051926A (zh) * | 2021-03-01 | 2021-06-29 | 北京百度网讯科技有限公司 | 文本抽取方法、设备和存储介质 |
CN113051926B (zh) * | 2021-03-01 | 2023-06-23 | 北京百度网讯科技有限公司 | 文本抽取方法、设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111274815B (zh) | 2024-04-12 |
EP3852002A1 (en) | 2021-07-21 |
JP7112536B2 (ja) | 2022-08-03 |
US11775761B2 (en) | 2023-10-03 |
KR102554121B1 (ko) | 2023-07-10 |
KR20210092147A (ko) | 2021-07-23 |
US20210216715A1 (en) | 2021-07-15 |
JP2021111413A (ja) | 2021-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111274815B (zh) | 用于挖掘文本中的实体关注点的方法和装置 | |
CN107491534B (zh) | 信息处理方法和装置 | |
CN107491547B (zh) | 基于人工智能的搜索方法和装置 | |
CN108536679B (zh) | 命名实体识别方法、装置、设备及计算机可读存储介质 | |
CN112116075B (zh) | 事件提取模型生成方法和装置、文本事件提取方法和装置 | |
CN111522958A (zh) | 文本分类方法和装置 | |
CN108121699B (zh) | 用于输出信息的方法和装置 | |
WO2020182123A1 (zh) | 用于推送语句的方法和装置 | |
CN114385780B (zh) | 程序接口信息推荐方法、装置、电子设备和可读介质 | |
US20240078385A1 (en) | Method and apparatus for generating text | |
CN113033707B (zh) | 视频分类方法、装置、可读介质及电子设备 | |
CN111026849B (zh) | 数据处理方法和装置 | |
CN111815274A (zh) | 信息处理方法、装置和电子设备 | |
CN112188311A (zh) | 用于确定新闻的视频素材的方法和装置 | |
CN113836308B (zh) | 网络大数据长文本多标签分类方法、系统、设备及介质 | |
CN112651231B (zh) | 口语信息处理方法、装置和电子设备 | |
CN115827865A (zh) | 一种融合多特征图注意力机制的不良文本分类方法及系统 | |
CN112417260B (zh) | 本地化推荐方法、装置及存储介质 | |
CN115906838A (zh) | 文本抽取方法、装置、电子设备以及存储介质 | |
CN115146624A (zh) | 用于生成数据的方法和装置 | |
CN111723188A (zh) | 用于问答系统的基于人工智能的语句显示方法、电子设备 | |
CN113111169A (zh) | 基于深度学习模型的接处警文本地址信息提取方法和装置 | |
CN117131152B (zh) | 信息存储方法、装置、电子设备和计算机可读介质 | |
CN115952854B (zh) | 文本脱敏模型的训练方法、文本脱敏方法及应用 | |
CN111562864B (zh) | 显示图片方法、电子设备和计算机可读介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |