CN113761940B - 新闻主体判断方法、设备及计算机可读介质 - Google Patents
新闻主体判断方法、设备及计算机可读介质 Download PDFInfo
- Publication number
- CN113761940B CN113761940B CN202111057309.0A CN202111057309A CN113761940B CN 113761940 B CN113761940 B CN 113761940B CN 202111057309 A CN202111057309 A CN 202111057309A CN 113761940 B CN113761940 B CN 113761940B
- Authority
- CN
- China
- Prior art keywords
- news
- vector
- sequence
- anonymized
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供了一种新闻主体判断方法、设备以及计算机可读介质,该方案在处理过程中对提取到的实体名称采用匿名标记进行了统一的替换,并且采用了BERT模型对匿名替换处理后的匿名化新闻数据进行了词嵌入处理,在排除了实体名称本身含义对判断结果的影响的同时,可以较好地利用实体名称在整个新闻中的位置信息和上下文信息,使得该方案在提升新闻主体判断准确性的情况下,在泛化能力方面也具有更好的效果。
Description
技术领域
本申请涉及信息技术领域,尤其涉及一种新闻主体判断方法、设备及计算机可读介质。
背景技术
随着互联网的发展,信息的累积速度早已超过个人所能处理的范畴。为了对新闻的内容进行分析,新闻主体提取是必不可少的步骤。由于在新闻中通常会提到许多个实体名称,而这些实体名称中通常只有一个是新闻主体,如何从新闻中准确地确定新闻主体,是提高新闻内容分析效率的重要部分。
现有的方案中,会首先通过利用一些已有的方式,如列表匹配、机器学习等方式从新闻数据提取出可能作为新闻主体的实体名称,然后通过一些统计的方式获得这些实体名称所对应的统计信息(如词频、TF-IDF等),并利用这些统计信息对实体名称进行评分,将得分最高的实体名称确定为新闻对应的主体。以财经类的新闻为例,若通过列表匹配的方式确定了该新闻数据中包括三个实体名称,分别为“A公司”、“B公司”、“C公司”,然后分别计算这三个对象实体的TF-IDF值,选择TF-IDF值最大的实体名称作为该新闻对应的新闻主体。
由于在实际场景中,新闻主体在实际新闻中的实际表现规律往往会与当前的语境、上下文信息等内容相关,并不一定符合统计学上的规律,因此上述方案在实际判断新闻主体时的准确性往往不高,容易出现误判的情况。
发明内容
本申请的一个目的是提供一种新闻主体判断方法、设备及计算机可读介质,用以解决现有的新闻主体判断方式准确性不高的问题。
为实现上述目的,本申请实施例提供了一种新闻主体判断方法,所述方法包括:
提取新闻数据中的实体名称;
对所述新闻数据中的实体名称进行匿名化处理,获取至少一条匿名化新闻数据,其中,每条匿名化新闻数据为对所述新闻数据中的一个实体名称进行匿名化处理后所获得的新闻数据,所述匿名化处理为使用匿名标记替代新闻数据中的实体名称;
对所述匿名化新闻数据进行预处理,获取对应的新闻文本序列;
采用BERT模型对所述新闻文本序列进行词嵌入处理,获取所述新闻文本序列对应的语义向量序列,其中,新闻文本序列中的每个序列元素对应所述语义向量序列中的一条语义向量,所述匿名标记为一个新闻文本序列中的一个序列元素;
对所述语义向量序列进行池化处理,获取语义表征向量;
将所述语义表征向量与所述新闻文本序列中匿名标记所对应的语义向量进行拼接,获取分类向量;
根据所述分类向量确定所述分类向量所对应的匿名化新闻数据中匿名标记所替代的实体名称是否为新闻主体。
进一步地,对所述新闻数据中的实体名称进行匿名化处理,获取至少一条匿名化新闻数据,其中,每条匿名化新闻数据为对所述新闻数据中的一个实体名称进行匿名化处理后所获得的新闻数据,所述匿名化处理为使用匿名标记替代新闻数据中的实体名称,包括:
选取所述新闻数据中的一个实体名称,并使用匿名标记替代所述新闻数据中出现的该实体名称,生成一条对应于所述实体名称的匿名化新闻数据。
进一步地,对所述匿名化新闻数据进行预处理,获取对应的新闻文本序列,包括:
将所述匿名化新闻数据进行分词处理,获取对应的新闻文本序列,其中,对所述匿名化新闻数据中的中文文本进行字级别的分词处理,将每个中文文本确定为所述新闻文本序列的一个序列元素。
进一步地,所述新闻文本序列对应语义向量序列表示为N×M的矩阵,其中,N为新闻文本序列的长度,M为每个序列元素所对应的语义向量的维度。
进一步地,对所述语义向量序列进行池化处理,获取语义表征向量,包括:
对所述语义向量序列所对应的矩阵中的每一列数据进行池化处理,获得维度为M的语义表征向量。
进一步地,所述池化处理包括最大池化或平均池化。
进一步地,将所述语义表征向量与所述新闻文本序列中匿名标记所对应的语义向量进行拼接,获取分类向量,包括:
将维度为M的语义表征向量与所述新闻文本序列中匿名标记所对应的、维度为M的语义向量进行拼接,获取维度为2M的分类向量。
进一步地,根据所述分类向量确定所述分类向量所对应的匿名化新闻数据中匿名标记所替代的实体名称是否为新闻主体,包括:
将所述分类向量输入分类器,并获取对应的分类标签,若所述分类标签为主体,则将所述分类向量所对应的匿名化新闻数据中匿名标记所替代的实体名称确定为新闻主体。
本申请的一些实施例还提供了一种新闻主体判断设备,其中,该设备包括用于存储计算机程序指令的存储器和用于执行计算机程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发所述设备执行所述的新闻主体判断方法。
本申请的另一些实施例还提供了一种计算机可读介质,其上存储有计算机程序指令,所述计算机程序指令可被处理器执行以实现所述的新闻主体判断方法。
本申请实施例提供的新闻主体判断方案,该方案首先提取新闻数据中的实体名称,然后对所述新闻数据中的进行匿名化处理,获取至少一条匿名化新闻数据,对于每一条匿名化新闻数据,可以进行预处理,获取对应的新闻文本序列,并采用BERT模型对所述新闻文本序列进行词嵌入处理,获取所述新闻文本序列对应的语义向量序列,而后对所述语义向量序列进行池化处理,获取语义表征向量,再将所述语义表征向量与所述新闻文本序列中匿名标记所对应的语义向量进行拼接,获取分类向量,根据所述分类向量确定所述分类向量所对应的匿名化新闻数据中匿名标记所替代的实体名称是否为新闻主体。在处理过程中,由于对提取到的实体名称采用匿名标记进行了统一的替换,并且采用了BERT模型对匿名替换处理后的匿名化新闻数据进行了词嵌入处理,在排除了实体名称本身含义对判断结果的影响的同时,可以较好地利用实体名称在整个新闻中的位置信息和上下文信息,使得该方案在提升新闻主体判断准确性的情况下,在泛化能力方面也具有更好的效果。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1为本申请实施例提供的一种新闻主体判断方法的处理流程图;
图2为本申请实施例中进行匿名化处理的过程参考图;
图3为采用本申请实施例提供的方案实现新闻主体识别时的处理过程示意图;
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请一个典型的配置中,终端、服务网络的设备均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机程序指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
本申请实施例提供了一种新闻主体判断方法,该方法通过对提取到的实体名称采用匿名标记进行了统一的替换,并且采用了BERT模型对匿名替换处理后的匿名化新闻数据进行了词嵌入处理,在排除了实体名称本身含义对判断结果的影响的同时,可以较好地利用实体名称在整个新闻中的位置信息和上下文信息,使得该方法在提升新闻主体判断准确性的情况下,在泛化能力方面也具有更好的效果。
在实际场景中,该方法的执行主体可以是用户设备、网络设备或用户设备与网络设备通过网络相集成所构成的设备,或者也可以是运行于上述设备的应用程序。所述用户设备包括但不限于计算机、手机、平板电脑等各类终端设备;所述网络设备包括但不限于如网络主机、单个网络服务器、多个网络服务器集或基于云计算的计算机集合等实现。在此,云由基于云计算(Cloud Computing)的大量主机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个虚拟计算机。
图1示出了本申请实施例提供的一种新闻主体判断方法的处理流程,该方法至少包括以下的处理步骤:
步骤S101,提取新闻数据中的实体名称。其中,所述新闻数据可以是通过任意方式所获取到的新闻文本,如通过订阅的方式从新闻发布的数据源获取到的新闻文本、使用爬虫从网络中爬取的新闻文本等。所述实体名称是指在一篇新闻文本中可能新闻主体的候选实体对象的名称,例如可以是公司名称、人物名称、产品名称等。在实际场景中,这些名称可以是全称,可以是简称,也可以特定语境下的别称,如某一公司的全称可以是“XX控股有限公司”、简称可以是“XX”,而在网络上的别称可以是“X厂”,这些名称均可以作为实体名称在本处理步骤中被提取。
本申请实施例的方案在提取新闻数据中的实体名称时,可以采用任意已有的提取方式完成。例如,在本申请的一些实施例中,可以采用列表匹配的方式,即首先设置一实体名称的对象列表,该对象列表中包括了多个已知实体名称,通过将已知实体名称与新闻数据进行文本匹配,可以从新闻数据中找到对象列表中所包括的已知实体名称,作为提取到的实体名称。而在本申请的另一些实施例中,可以采用机器学习的方式实现实体名称的提取,该方式中可以利用已经完成标注的历史新闻数据,完成对实体识别模型的训练。其中完成标注的历史新闻数据是是指已经标注出其中所包含的实体对象的历史新闻数据,将该历史新闻数据作为训练集对实体识别模型进行训练后,可以使得实体识别模型具有识别新闻数据中的实体名称的能力,在使用时将待识别的新闻数据输入实体识别模型后,即可输出该新闻数据中所包括的实体名称。
在此,本领域技术人员应当理解上述提取实体名称的具体形式仅为举例,现有或今后出现的基于类似原理的其它形式如果能够适用于本申请,也应该包含在本申请的保护范围内,并以引用的形式包含于此。以新闻数据“理想汽车上市首日大涨逾43%,总市值一度超过蔚来汽车。”为例,通过上述任意一种提取方式,可以提取出其包括的实体名称包括“理想汽车”和“蔚来汽车”。在实际场景中,在提取实体名称的同时也可以对该实体名称的类型进行标注,其中,实体名称类型可以包括公司名称、人物名称、产品名称等,如前述的“理想汽车”和“蔚来汽车”的实体类型均可以标注为公司名称。
步骤S102,对所述新闻数据中的实体名称进行匿名化处理,获取至少一条匿名化新闻数据。其中,每条匿名化新闻数据为对所述新闻数据中的一个实体名称进行匿名化处理后所获得的新闻数据,以前述的新闻数据“理想汽车上市首日大涨逾43%,总市值一度超过蔚来汽车。”为例,由于该新闻数据中提取出了两个实体名称,分别为“理想汽车”和“蔚来汽车”,由此可以获取对应数量的匿名化新闻数据,分别对应于两个实体名称。
在本申请实施例的方案中,进行匿名化处理的方式为使用匿名标记替代新闻数据中的实体名称。在每个匿名化新闻数据中,对于同一实体名称,可以采用相同的Token作为匿名标记来进行替代,例如在本实施中,可以采用[SUB]作为替代“理想汽车”或“蔚来汽车”这两个实体名称的匿名标记,从而获取到的两条匿名化新闻数据。
在实际处理过程中,选取所述新闻数据中的一个实体名称,并使用匿名标记替代所述新闻数据中出现的该实体名称,生成一条对应于所述实体名称的匿名化新闻数据,直至完成所有实体名称的处理。以前述的新闻数据为例,若先选取“理想汽车”这一实体名称,可以使用匿名标记[SUB]替代该新闻数据中的“理想汽车”对应的文本,由此获得如下的匿名化新闻数据“[SUB]上市首日大涨逾43%,总市值一度超过蔚来汽车。”,其处理过程可参考图2。而后,在选取另一个实体名称“蔚来汽车”,使用匿名标记[SUB]替代该新闻数据中的“蔚来汽车”对应的文本,由此获得如下的另一条匿名化新闻数据理想汽车上市首日大涨逾43%,总市值一度超过[SUB]。”。
步骤S103,对所述匿名化新闻数据进行预处理,获取对应的新闻文本序列。其中,所述预处理可以包括分词处理,即将所述匿名化新闻数据采用预设的分词算法切分为由多个文本字符组成的序列,以便于进行后续的主体判断处理。
在本申请的一些实施例中,在处理该步骤时,可以将所述匿名化新闻数据进行分词处理,获取对应的新闻文本序列。其中,可以对所述匿名化新闻数据中的中文文本进行字级别的分词处理,将每个中文文本确定为所述新闻文本序列的一个序列元素,而非中文的文本可以按照各自合适的方式进行,如可以基于最大匹配的方式确定将连续的外语字符、数字、标点等进行分词,从而确定对应序列元素。此外,对于每条匿名化新闻数据中的匿名标记,可以单独切分,作为一个独立的序列元素。以前述的一条匿名化新闻数据“[SUB]上市首日大涨逾43%,总市值一度超过蔚来汽车。”为例,对其进行预处理后,可以获取对应的新闻文本序列为:“[SUB]/上/市/首/日/大/涨/逾/43/%/,/总/市/值/一/度/超/过/蔚/来/汽/车/。”,其中,“/”符号分隔的文本内容即对应为一个序列元素。相应地,另一条匿名化新闻数据,则可以获取到对应的新闻文本序列为:“理/想/汽/车/上/市/首/日/大/涨/逾/43/%/,/总/市/值/一/度/超/过/[SUB]/。”
此外,在预处理的过程中,除了进行分词处理之外,还可以根据实际的需求对匿名化新闻数据进行数据清洗等规范化的处理,使得处理后的数据能够剔除更多的无效信息,确保后续处理的准确性。在此,本领域技术人员应当理解上述对匿名化新闻数据进行预处理的具体方式仅为举例,现有或今后出现的基于类似原理的其它形式如果能够适用于本申请,也应该包含在本申请的保护范围内,并以引用的形式包含于此。
步骤S104,采用BERT模型对所述新闻文本序列进行词嵌入处理,获取所述新闻文本序列对应的语义向量序列。其中,BERT(Bidirectional Encoder Representations fromTransformers,基于Transformer的双向编码表征)模型,是一种基于多层双向Transformer编码器结构的BERT预训练语言模型,通过该模型实现的词嵌入处理后,可以使得嵌入所生成的向量含元素和语句级的上下文信息并能够进行多义表征。
由此,本步骤所获取的新闻文本序列对应的语义向量序列中可以有效地表示实体名称在整个新闻中的位置信息和上下文信息,并且由于实体名称已经被替代为统一的匿名标记,使得后续的主体判断过程并不依赖于实体名称具体内容,而是充分的利用了实体名称在新闻数据中的位置信息以及上下文信息从而能更好的提高主体判断的实际效果,并且提升方案的泛用性,使得泛化能力方面也具有更好的效果。
在采用BERT模型对所述新闻文本序列进行词嵌入处理时,对于新闻文本序列中的每个序列元素,都可以获得一个对应的语义向量,由此各个序列元素对应的语义向量组合后即可获得新闻文本序列的语义向量序列。其中,语义向量的维度可以根据实际场景的需求预先设定为一个固定值M,如本实施例中可以设定该M为768。由此,由此每个序列元素对应的语义向量可以表示为一个维度为768的实数向量[0.1,-2.3,...,0.45]。而语义向量序列的长度N与新闻文本序列中的序列元素的数量相同,因此该长度N与前述的预处理结果相关,新闻文本序列对应语义向量序列可以表示为N×M的矩阵。例如,当预处理获得的新闻文本序列包括100个序列元素时,进行词嵌入处理后所获得的语义向量序列可以表示为一个100×768的矩阵。
步骤S105,对所述语义向量序列进行池化处理,获取语义表征向量。通过池化处理,可以使得语义向量序列降维,压缩数据,提高处理的容错性,其中常用的池化处理可以为最大池化和平均池化等,其中最大池化是指取出待处理数据中的最大值,作为池化结果,而平均池化是指计算待处理数据的平均值,作为池化结果,在实际场景中可以根据需求灵活使用。
本申请实施例的方案在进行池化处理时,可以对所述语义向量序列所对应的矩阵中的每一列数据进行池化处理,获得维度为M的语义表征向量。对于一个N×M的语义向量序列而言,该语义向量序列可以表示为如下的矩阵:
其中,每一行元素表示新闻文本序列中的一个序列元素所对应的语义向量,例如当一个新闻元素序列中的第一个序列元素为匿名标记[SUB],则其对应的语义向量为前述矩阵中的第一行内容[A11,A12,…,A1M],同理,若第二个元素序列为中文文本“上”,则其对应的语义向量为该前述矩阵中的第二行内容[A21,A22,…,A2M],其余元素序列均可以此类推确定。
在进行池化处理时,则是基于语义向量序列所对应的矩阵中的每一列数据进行处理,以第一列为例,第一列的数据为[A11,A21,…,AN1],通过对其进行池化,可以获得一个池化处理的结果,如AP1。同理,对其它列采用相同的方式进行池化处理获得对应的结果,AP2~APM,由此获得维度为M的语义表征向量[AP1,AP2,…,APM]。若对于一个100×768的语义向量序列,则可以获得1×768的语义表征向量。
步骤S106,将所述语义表征向量与所述新闻文本序列中匿名标记所对应的语义向量进行拼接,获取分类向量。在本申请实施例中,若池化处理后获得的语义表征向量以及新闻文本序列中匿名标记所对应的语义向量的维度均是M,则可以将维度为M的语义表征向量与所述新闻文本序列中匿名标记所对应的、维度为M的语义向量进行拼接,获取维度为2M的分类向量。对于前述的1×768的语义表征向量以及匿名标记对应的、维度为768的语义向量,其拼接后可以获得1×1536的分类向量。
步骤S106,根据所述分类向量确定所述分类向量所对应的匿名化新闻数据中匿名标记所替代的实体名称是否为新闻主体。在实际场景中,该步骤可以通过分类器实现处理,可以将所述分类向量输入分类器,并获取对应的分类标签。其中,分类器可以通过已标注过分类结果的训练集进行训练,并在完成训练后使用,基于分类向量所输出的分类标签可以包括主体或非主体,若所获得的分类标签为主体,则将所述分类向量所对应的匿名化新闻数据中匿名标记所替代的实体名称确定为新闻主体,反之,若所获得的分类标签为非主体,则将所述分类向量所对应的匿名化新闻数据中匿名标记所替代的实体名称确定为非新闻主体。
在处理过程中,由于对提取到的实体名称采用匿名标记进行了统一的替换,并且采用了BERT模型对匿名替换处理后的匿名化新闻数据进行了词嵌入处理,在排除了实体名称本身含义对判断结果的影响的同时,可以较好地利用实体名称在整个新闻中的位置信息和上下文信息,使得该方案在提升新闻主体判断准确性的情况下,在泛化能力方面也具有更好的效果。此外,由于在处理过程中会通过拼接的方式获取分类向量,能够使得分类向量更好的保留实体名称在新闻数据中的位置信息和上下文信息,使得后续基于分类向量的判断结果更加准确,进一步提升方案的准确性。
图3示出了采用本申请实施例提供的方案实现新闻主体识别时的处理过程,该方案可以包括实体识别模型和主体判断模型,其中,主体识别模型用于从新闻数据的文本中识别并提取出实体名称,而主体判断模型用于对提取出的实体名称逐个进行主体判断,确定其是否为该新闻数据的新闻主体。以新闻数据“理想汽车上市首日大涨逾43%,总市值一度超过蔚来汽车。”为例,首先,通过主体识别模型对其识别后,可以提取出两个实体名称,分别为“理想汽车”和“蔚来汽车”,两者对应的实体类型均为公司名称。所述主体判断模型可以包括数据预处理模块、BERT嵌入层、池化层以及分类器,其中,数据预处理模块用于对识别出实体名称的新闻数据进行匿名化处理,并对其做分词处理来获得字级别的新闻文本序列,本实施例中匿名化处理时[SUB]表示匿名标记。BERT嵌入层用于对新闻文本序列进行词嵌入处理,生成语义向量序列;池化层模块将语义向量序列聚合成用于分类的一维语义表征向量;将一维语义表征向量与[SUB]对应的语义向量进行拼接,输入到分类器模块进行分类,输出获得对应实体名称是否为新闻主体的预测结果。由于该方案利用了实体名称的位置信息以及上下文信息进行主体判断,能更好的提高主体判断的实际效果。
本申请实施例还提供了一种新闻主体判断设备,该设备包括用于存储计算机程序指令的存储器和用于执行计算机程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发所述设备实现前述本申请的多个实施例的方法和/或技术方案。
特别地,本申请实施例中的方法和/或实施例可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在该计算机程序被处理单元执行时,执行本申请的方法中限定的上述功能。
需要说明的是,本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图或框图示出了按照本申请各种实施例的设备、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的针对硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个计算机程序指令,所述计算机程序指令可被处理器执行以实现前述本申请的多个实施例的方法和/或技术方案。
需要注意的是,本申请可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一些实施例中,本申请的软件程序可以通过处理器执行以实现上文步骤或功能。同样地,本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本申请的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
Claims (10)
1.一种新闻主体判断方法,其特征在于,所述方法包括:
提取新闻数据中的实体名称;
对所述新闻数据中的实体名称进行匿名化处理,获取至少一条匿名化新闻数据,其中,每条匿名化新闻数据为对所述新闻数据中的一个实体名称进行匿名化处理后所获得的新闻数据,所述匿名化处理为使用匿名标记替代新闻数据中的实体名称;
对所述匿名化新闻数据进行预处理,获取对应的新闻文本序列;
采用BERT模型对所述新闻文本序列进行词嵌入处理,获取所述新闻文本序列对应的语义向量序列,其中,新闻文本序列中的每个序列元素对应所述语义向量序列中的一条语义向量,所述匿名标记为一个新闻文本序列中的一个序列元素;
对所述语义向量序列进行池化处理,获取语义表征向量;
将所述语义表征向量与所述新闻文本序列中匿名标记所对应的语义向量进行拼接,获取分类向量;
根据所述分类向量确定所述分类向量所对应的匿名化新闻数据中匿名标记所替代的实体名称是否为新闻主体。
2.根据权利要求1所述的方法,其特征在于,对所述新闻数据中的实体名称进行匿名化处理,获取至少一条匿名化新闻数据,其中,每条匿名化新闻数据为对所述新闻数据中的一个实体名称进行匿名化处理后所获得的新闻数据,所述匿名化处理为使用匿名标记替代新闻数据中的实体名称,包括:
选取所述新闻数据中的一个实体名称,并使用匿名标记替代所述新闻数据中出现的该实体名称,生成一条对应于所述实体名称的匿名化新闻数据。
3.根据权利要求1所述的方法,其特征在于,对所述匿名化新闻数据进行预处理,获取对应的新闻文本序列,包括:
将所述匿名化新闻数据进行分词处理,获取对应的新闻文本序列,其中,对所述匿名化新闻数据中的中文文本进行字级别的分词处理,将每个中文文本确定为所述新闻文本序列的一个序列元素。
4.根据权利要求1所述的方法,其特征在于,所述新闻文本序列对应语义向量序列表示为N×M的矩阵,其中,N为新闻文本序列的长度,M为每个序列元素所对应的语义向量的维度。
5.根据权利要求4所述的方法,其特征在于,对所述语义向量序列进行池化处理,获取语义表征向量,包括:
对所述语义向量序列所对应的矩阵中的每一列数据进行池化处理,获得维度为M的语义表征向量。
6.根据权利要求5所述的方法,其特征在于,所述池化处理包括最大池化或平均池化。
7.根据权利要求5所述的方法,其特征在于,将所述语义表征向量与所述新闻文本序列中匿名标记所对应的语义向量进行拼接,获取分类向量,包括:
将维度为M的语义表征向量与所述新闻文本序列中匿名标记所对应的、维度为M的语义向量进行拼接,获取维度为2M的分类向量。
8.根据权利要求5所述的方法,其特征在于,根据所述分类向量确定所述分类向量所对应的匿名化新闻数据中匿名标记所替代的实体名称是否为新闻主体,包括:
将所述分类向量输入分类器,并获取对应的分类标签,若所述分类标签为主体,则将所述分类向量所对应的匿名化新闻数据中匿名标记所替代的实体名称确定为新闻主体。
9.一种新闻主体判断设备,其中,该设备包括用于存储计算机程序指令的存储器和用于执行计算机程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发所述设备执行权利要求1至8中任一项所述的方法。
10.一种计算机可读介质,其上存储有计算机程序指令,所述计算机程序指令可被处理器执行以实现如权利要求1至8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111057309.0A CN113761940B (zh) | 2021-09-09 | 2021-09-09 | 新闻主体判断方法、设备及计算机可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111057309.0A CN113761940B (zh) | 2021-09-09 | 2021-09-09 | 新闻主体判断方法、设备及计算机可读介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113761940A CN113761940A (zh) | 2021-12-07 |
CN113761940B true CN113761940B (zh) | 2023-08-11 |
Family
ID=78794399
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111057309.0A Active CN113761940B (zh) | 2021-09-09 | 2021-09-09 | 新闻主体判断方法、设备及计算机可读介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113761940B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2703569A1 (en) * | 2009-05-12 | 2010-11-12 | Comcast Interactive Media, Llc | Disambiguation and tagging of entities |
CN105701253A (zh) * | 2016-03-04 | 2016-06-22 | 南京大学 | 中文自然语言问句语义化的知识库自动问答方法 |
CN106021392A (zh) * | 2016-05-12 | 2016-10-12 | 中国互联网络信息中心 | 一种新闻关键信息的提取方法及系统 |
CN108170773A (zh) * | 2017-12-26 | 2018-06-15 | 百度在线网络技术(北京)有限公司 | 新闻事件挖掘方法、装置、计算机设备和存储介质 |
CN109446335A (zh) * | 2018-09-18 | 2019-03-08 | 平安科技(深圳)有限公司 | 新闻主体判定的方法、装置、计算机设备和存储介质 |
CN109492215A (zh) * | 2018-09-18 | 2019-03-19 | 平安科技(深圳)有限公司 | 新闻实体识别方法、装置、计算机设备和存储介质 |
CN112328759A (zh) * | 2020-10-29 | 2021-02-05 | 平安科技(深圳)有限公司 | 自动问答方法、装置、设备及存储介质 |
CN112541078A (zh) * | 2020-12-10 | 2021-03-23 | 平安科技(深圳)有限公司 | 新闻智能播报方法、装置、设备及存储介质 |
CN113011186A (zh) * | 2021-01-25 | 2021-06-22 | 腾讯科技(深圳)有限公司 | 命名实体识别方法、装置、设备及计算机可读存储介质 |
-
2021
- 2021-09-09 CN CN202111057309.0A patent/CN113761940B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2703569A1 (en) * | 2009-05-12 | 2010-11-12 | Comcast Interactive Media, Llc | Disambiguation and tagging of entities |
CN105701253A (zh) * | 2016-03-04 | 2016-06-22 | 南京大学 | 中文自然语言问句语义化的知识库自动问答方法 |
CN106021392A (zh) * | 2016-05-12 | 2016-10-12 | 中国互联网络信息中心 | 一种新闻关键信息的提取方法及系统 |
CN108170773A (zh) * | 2017-12-26 | 2018-06-15 | 百度在线网络技术(北京)有限公司 | 新闻事件挖掘方法、装置、计算机设备和存储介质 |
CN109446335A (zh) * | 2018-09-18 | 2019-03-08 | 平安科技(深圳)有限公司 | 新闻主体判定的方法、装置、计算机设备和存储介质 |
CN109492215A (zh) * | 2018-09-18 | 2019-03-19 | 平安科技(深圳)有限公司 | 新闻实体识别方法、装置、计算机设备和存储介质 |
CN112328759A (zh) * | 2020-10-29 | 2021-02-05 | 平安科技(深圳)有限公司 | 自动问答方法、装置、设备及存储介质 |
CN112541078A (zh) * | 2020-12-10 | 2021-03-23 | 平安科技(深圳)有限公司 | 新闻智能播报方法、装置、设备及存储介质 |
CN113011186A (zh) * | 2021-01-25 | 2021-06-22 | 腾讯科技(深圳)有限公司 | 命名实体识别方法、装置、设备及计算机可读存储介质 |
Non-Patent Citations (1)
Title |
---|
结合Bert 字向量和卷积神经网络的新闻文本分类方法;刘凯洋;《电脑知识与技术》;第16卷(第1期);第187-188页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113761940A (zh) | 2021-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11348352B2 (en) | Contract lifecycle management | |
US11244203B2 (en) | Automated generation of structured training data from unstructured documents | |
CN112633419B (zh) | 小样本学习方法、装置、电子设备和存储介质 | |
CN109582948B (zh) | 评价观点抽取的方法及装置 | |
CN111709240A (zh) | 实体关系抽取方法、装置、设备及其存储介质 | |
CN113836992B (zh) | 识别标签的方法、训练标签识别模型的方法、装置及设备 | |
US20140214402A1 (en) | Implementation of unsupervised topic segmentation in a data communications environment | |
US20220179833A1 (en) | Metadata based mapping assist | |
CN114429566A (zh) | 一种图像语义理解方法、装置、设备及存储介质 | |
KR20230038087A (ko) | 영상 데이터에 포함된 텍스트 플레이트 비식별화 방법 및 이를 수행하기 위한 장치 | |
CN112784580A (zh) | 基于事件抽取的金融数据分析方法及装置 | |
CN114416995A (zh) | 信息推荐方法、装置及设备 | |
US20240012809A1 (en) | Artificial intelligence system for translation-less similarity analysis in multi-language contexts | |
CN113609866A (zh) | 文本标记方法、装置、设备及存储介质 | |
CN115952854B (zh) | 文本脱敏模型的训练方法、文本脱敏方法及应用 | |
CN113761940B (zh) | 新闻主体判断方法、设备及计算机可读介质 | |
CN116484878A (zh) | 电力异质数据的语义关联方法、装置、设备及存储介质 | |
CN116976341A (zh) | 实体识别方法、装置、电子设备、存储介质及程序产品 | |
CN113408265B (zh) | 基于人机交互的语义解析方法、装置、设备及存储介质 | |
US11347928B2 (en) | Detecting and processing sections spanning processed document partitions | |
US20210295036A1 (en) | Systematic language to enable natural language processing on technical diagrams | |
CN114398489A (zh) | 一种基于Transformer的实体关系联合抽取方法、介质及系统 | |
CN114780757A (zh) | 短媒体标签抽取方法、装置、计算机设备和存储介质 | |
CN114220505A (zh) | 病历数据的信息抽取方法、终端设备及可读存储介质 | |
US20200250275A1 (en) | Geographic location specific models for information extraction and knowledge discovery |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |