CN108829661A - 一种基于模糊匹配的新闻主体名称提取方法 - Google Patents

一种基于模糊匹配的新闻主体名称提取方法 Download PDF

Info

Publication number
CN108829661A
CN108829661A CN201810439150.0A CN201810439150A CN108829661A CN 108829661 A CN108829661 A CN 108829661A CN 201810439150 A CN201810439150 A CN 201810439150A CN 108829661 A CN108829661 A CN 108829661A
Authority
CN
China
Prior art keywords
news
main body
word
principal name
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810439150.0A
Other languages
English (en)
Other versions
CN108829661B (zh
Inventor
冯翱
陈郑淏
吴锡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Zhi Rui Tong Tuo Technology Co Ltd
Chengdu University of Information Technology
Original Assignee
Chengdu Zhi Rui Tong Tuo Technology Co Ltd
Chengdu University of Information Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Zhi Rui Tong Tuo Technology Co Ltd, Chengdu University of Information Technology filed Critical Chengdu Zhi Rui Tong Tuo Technology Co Ltd
Priority to CN201810439150.0A priority Critical patent/CN108829661B/zh
Publication of CN108829661A publication Critical patent/CN108829661A/zh
Application granted granted Critical
Publication of CN108829661B publication Critical patent/CN108829661B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本发明涉及一种基于模糊匹配的新闻主体名称提取方法,其包括:采集大量的领域新闻;对采集到的新闻进行人工标注,筛选出与领域相关具有新闻主体的新闻;使用分词工具对新闻进行分词;使用词嵌入工具在全量的新闻数据上做训练,得到词嵌入矩阵,从而将每一篇新闻表示为一个词嵌入向量;使用主体列表构建知识图谱;将知识图谱中每个节点的主体名称分词后做各种拆分组合,然后将拆分组合的结果用词嵌入向量表示;计算词嵌入相似度,取所有主体中与新闻词嵌入向量相似度得分最高的主体名称作为该新闻提取的主体名称。本发明能够有效地克服基于精确匹配对非标准化主体简称识别的缺陷,此外,本发明还能够适应更多的场景,匹配准确度更高。

Description

一种基于模糊匹配的新闻主体名称提取方法
技术领域
本发明涉及数据处理领域,尤其涉及一种基于模糊匹配的新闻主体名称提取方法。
背景技术
随着互联网的发展,信息的累积速度早已超过个人所能处理的范畴。在不同的垂直领域中,大量的新闻使得舆情分析成为可能,对原始新闻文本的新闻主体提取是该任务必不可少的步骤。在已有大量主体名称列表的前提下,如何从新闻中自动地提取主体名称,将一篇新闻对应到一个新闻主体,减少人工标注的工作量,兼顾准确度和效率,是实现舆情分析的重要部分。
对于不同的垂直领域,从新闻中提取主体名称,现有的主流方法是将新闻文本分词后的每个词在已有的主体名称表中匹配,若在主体列表中出现过,就标记该词为新闻侯选主体,然后通过一些启发式信息(例如词频、TF-IDF等)对新闻侯选主体进一步筛选,选择得分最高的主体名称作为新闻对应的主体。以财经新闻为例,通过精确匹配得到三个侯选的企业主体“腾讯”、“阿里巴巴”、“百度”,然后分别计算这三个词的TF-IDF值,选择TF-IDF值最大的作为该新闻对应的主体。但该方法存在一些问题。首先,新闻中会经常出现对主体名称的非标准化简称,精确匹配效果堪忧,人工扩展主体列表工作量太大,例如腾讯被称作企鹅、鹅厂等。其次,在构建主体列表时,不能有相同的主体简称,否则会出现匹配冲突,但大量的主体列表中难免不会出现类似或者完全一致的主体简称。
综上所述,现有技术方案为:将新闻文本进行分词,对分词处理后的每个词做精确匹配,判断该词是否出现在主体名称表中,如果出现,则作为新闻侯选主体,然后通过一些启发式信息对侯选主体进一步筛选,选择得分最高的作为新闻对应的主体。该方案存在以下不足:对于非标准化的主体简称,精确匹配效果堪忧;此外,主体列表中不能有相同的主体名称,当某些主体具有相同的简称时,会出现匹配冲突的情况。
发明内容
针对现有技术之不足,本发明提出了一种基于模糊匹配的新闻主体名称提取方法,其包括以下步骤:
步骤1:采集大量的领域新闻,所述领域新闻的新闻内容尽可能多样,以覆盖不同的相关新闻网站;
步骤2:对采集到的新闻进行人工标注,筛选出与领域相关具有新闻主体的新闻;
步骤3:使用分词工具对新闻进行分词,向分词工具中导入主体列表,以提升分词效果;
步骤4:使用词嵌入工具在全量的新闻数据上做训练,得到词嵌入矩阵,从而将每一篇新闻表示为一个词嵌入向量;
步骤5:使用主体列表构建知识图谱,所述知识图谱的每个节点代表一个主体名称或主体简称,将主体-主体、主体-简称联系起来,其中主体简称隶属于主体名称;
步骤6:将知识图谱中每个节点的主体名称分词后做各种拆分组合,然后将拆分组合的结果用词嵌入向量表示;
步骤7:计算词嵌入相似度,将第i篇新闻的词嵌入向量Ti与第j个主体的第k个组合方式Ejk做相似度计算,Ci为与第i篇新闻最相关的主体名称:
取所有主体中与新闻词嵌入向量相似度得分最高的主体名称作为该新闻提取的主体名称。
根据一个优选实施方式,在模糊匹配的过程中,将新闻词嵌入向量与由主体名称的各种组合对应的词向量做相似度计算,加权平均后得到该主体名称对应的得分,最后选择得分最高的主体名称作为该新闻匹配的主体。
本发明具有以下有益效果:
本发明针对垂直领域新闻中主体名称匹配,设计了一种基于模糊匹配的主体名称提取方法。该方法使用该领域已有的主体名称列表建立知识图谱,知识图谱的每个节点代表一个主体名称或主体简称,将主体-主体、主体-简称等联系起来。对知识图谱每个节点的主体名称分词后做各种拆分组合,然后用词嵌入向量表示所有可能的组合形式,与新闻的词嵌入向量做相似度计算,取距离最近的匹配作为新闻对应的主体。该方法能够有效地克服基于精确匹配对非标准化主体简称识别的缺陷,在遇到某些主体具有相同的简称时,也可以根据整篇新闻的语义信息匹配到最相近的主体。该方法通过语义信息来匹配与新闻语义最相近的主体,相比于精确匹配方法,能够适应更多的场景,匹配准确度更高。
附图说明
图1示出了本发明的流程图;
图2示出了本发明中词嵌入模型的示意图;
图3示出了本发明中模糊匹配过程的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
如图1所示,本发明的基于模糊匹配的新闻主体名称提取方法包括以下步骤:
步骤1:采集大量的领域新闻,新闻内容尽可能多样,覆盖不同的相关新闻网站。
步骤2:对采集到的新闻进行人工标注,筛选出与领域相关具有新闻主体的新闻。
步骤3:使用分词工具对新闻进行分词,向分词工具中导入主体列表,提升分词效果。
步骤4:使用词嵌入工具(例如word2vec、GloVe等)在全量的新闻数据上做训练,得到词嵌入矩阵,从而将每一篇新闻表示为一个词嵌入向量。
步骤5:使用主体列表构建知识图谱,知识图谱的每个节点代表一个主体名称或主体简称,将主体-主体、主体-简称等联系起来,其中主体简称隶属于主体名称。
步骤6:将知识图谱每个节点的主体名称分词后做各种拆分组合,以财经领域企业名为例,深圳市腾讯计算机系统有限公司可能的组合方式有腾讯、腾讯公司、深圳腾讯等。然后将这些组合的结果用词嵌入向量表示。
步骤7:将第i篇新闻的词嵌入向量Ti与第j个主体的第k个组合方式Ejk做相似度计算,Ci为与第i篇新闻最相关的主体名称。
取所有主体中与新闻词嵌入向量相似度得分最高的主体名称作为该新闻提取的主体。
具体地,如图2所示为嵌入模型的示意图。词嵌入可以理解为寻找一个函数或映射,生成新的空间上的表达,把单词one-hot所表达的X空间信息映射到Y的多维空间向量。由此将one-hot高维稀疏的向量表示变为低维稠密的向量表示,同时词嵌入向量还可以不同词之间的相似度,每个纬度上的值可以近似的看作每个词在某个属性值的大小。每一篇新闻的词嵌入向量是由所有词的词嵌入向量加权平均得到,进而寻找与该新闻词嵌入向量距离最近的主体,也就是在寻找与该新闻语义信息最相似的主体。该模型可以解决精确匹配中对非标准化主体简称匹配的缺陷,而且实现简单,效果更优。
图3示出了模糊匹配过程的示意图。在模糊匹配的过程中,将新闻词嵌入向量与由主体名称的各种组合对应的词向量做相似度计算,加权平均后得到该主体名称对应的得分,最后选择得分最高的主体名称作为该新闻匹配的主体。需要说明的是,图3中所示出的具体实施方式为示例性的,其用于说明本发明中的模糊匹配过程,并非构成对本发明的限制。
本发明针对垂直领域新闻中主体名称匹配,设计了一种基于模糊匹配的主体名称提取方法。该方法使用该领域已有的主体名称列表建立知识图谱,知识图谱的每个节点代表一个主体名称或主体简称,将主体-主体、主体-简称等联系起来。对知识图谱每个节点的主体名称分词后做各种拆分组合,然后用词嵌入向量表示所有可能的组合形式,与新闻的词嵌入向量做相似度计算,取距离最近的匹配作为新闻对应的主体。该方法能够有效地克服基于精确匹配对非标准化主体简称识别的缺陷,在遇到某些主体具有相同的简称时,也可以根据整篇新闻的语义信息匹配到最相近的主体。该方法通过语义信息来匹配与新闻语义最相近的主体,相比于精确匹配方法,能够适应更多的场景,匹配准确度更高。
需要注意的是,上述具体实施例是示例性的,本领域技术人员可以在本发明公开内容的启发下想出各种解决方案,而这些解决方案也都属于本发明的公开范围并落入本发明的保护范围之内。本领域技术人员应该明白,本发明说明书及其附图均为说明性而并非构成对权利要求的限制。本发明的保护范围由权利要求及其等同物限定。

Claims (2)

1.一种基于模糊匹配的新闻主体名称提取方法,其特征在于,包括以下步骤:
步骤1:采集大量的领域新闻,所述领域新闻的新闻内容尽可能多样,以覆盖不同的相关新闻网站;
步骤2:对采集到的新闻进行人工标注,筛选出与领域相关具有新闻主体的新闻;
步骤3:使用分词工具对新闻进行分词,向分词工具中导入主体列表,以提升分词效果;
步骤4:使用词嵌入工具在全量的新闻数据上做训练,得到词嵌入矩阵,从而将每一篇新闻表示为一个词嵌入向量;
步骤5:使用主体列表构建知识图谱,所述知识图谱的每个节点代表一个主体名称或主体简称,将主体-主体、主体-简称联系起来,其中主体简称隶属于主体名称;
步骤6:将知识图谱中每个节点的主体名称分词后做各种拆分组合,然后将拆分组合的结果用词嵌入向量表示;
步骤7:计算词嵌入相似度,将第i篇新闻的词嵌入向量Ti与第j个主体的第k个组合方式Ejk做相似度计算,Ci为与第i篇新闻最相关的主体名称:
取所有主体中与新闻词嵌入向量相似度得分最高的主体名称作为该新闻提取的主体名称。
2.如权利要求1所述的方法,其特征在于,在模糊匹配的过程中,将新闻词嵌入向量与由主体名称的各种组合对应的词向量做相似度计算,加权平均后得到该主体名称对应的得分,最后选择得分最高的主体名称作为该新闻匹配的主体。
CN201810439150.0A 2018-05-09 2018-05-09 一种基于模糊匹配的新闻主体名称提取方法 Active CN108829661B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810439150.0A CN108829661B (zh) 2018-05-09 2018-05-09 一种基于模糊匹配的新闻主体名称提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810439150.0A CN108829661B (zh) 2018-05-09 2018-05-09 一种基于模糊匹配的新闻主体名称提取方法

Publications (2)

Publication Number Publication Date
CN108829661A true CN108829661A (zh) 2018-11-16
CN108829661B CN108829661B (zh) 2020-03-27

Family

ID=64147675

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810439150.0A Active CN108829661B (zh) 2018-05-09 2018-05-09 一种基于模糊匹配的新闻主体名称提取方法

Country Status (1)

Country Link
CN (1) CN108829661B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109710773A (zh) * 2018-12-17 2019-05-03 北京百度网讯科技有限公司 事件主体的生成方法及其装置
CN110705292A (zh) * 2019-08-22 2020-01-17 成都信息工程大学 一种基于知识库和深度学习的实体名称提取方法
CN110807103A (zh) * 2019-10-18 2020-02-18 中国银联股份有限公司 知识图谱构建方法、装置、电子设备及存储介质
CN111488529A (zh) * 2020-06-28 2020-08-04 腾讯科技(深圳)有限公司 信息处理方法、装置、服务器及存储介质
CN113268986A (zh) * 2021-05-24 2021-08-17 交通银行股份有限公司 一种基于模糊匹配算法的单位名称匹配、查找方法及装置
CN113468315A (zh) * 2021-09-02 2021-10-01 北京华云安信息技术有限公司 漏洞厂商名称的匹配方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120089621A1 (en) * 2010-10-11 2012-04-12 Peng Liu Topic-oriented diversified item recommendation
US20160004764A1 (en) * 2014-07-03 2016-01-07 Palantir Technologies Inc. System and method for news events detection and visualization
CN107609121A (zh) * 2017-09-14 2018-01-19 深圳市玛腾科技有限公司 基于LDA和word2vec算法的新闻文本分类方法
CN107679144A (zh) * 2017-09-25 2018-02-09 平安科技(深圳)有限公司 基于语义相似度的新闻语句聚类方法、装置及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120089621A1 (en) * 2010-10-11 2012-04-12 Peng Liu Topic-oriented diversified item recommendation
US20160004764A1 (en) * 2014-07-03 2016-01-07 Palantir Technologies Inc. System and method for news events detection and visualization
US20160171083A1 (en) * 2014-07-03 2016-06-16 Palantir Technologies Inc. System and method for news events detection and visualization
CN107609121A (zh) * 2017-09-14 2018-01-19 深圳市玛腾科技有限公司 基于LDA和word2vec算法的新闻文本分类方法
CN107679144A (zh) * 2017-09-25 2018-02-09 平安科技(深圳)有限公司 基于语义相似度的新闻语句聚类方法、装置及存储介质

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109710773A (zh) * 2018-12-17 2019-05-03 北京百度网讯科技有限公司 事件主体的生成方法及其装置
CN110705292A (zh) * 2019-08-22 2020-01-17 成都信息工程大学 一种基于知识库和深度学习的实体名称提取方法
CN110705292B (zh) * 2019-08-22 2022-11-29 成都信息工程大学 一种基于知识库和深度学习的实体名称提取方法
CN110807103A (zh) * 2019-10-18 2020-02-18 中国银联股份有限公司 知识图谱构建方法、装置、电子设备及存储介质
CN111488529A (zh) * 2020-06-28 2020-08-04 腾讯科技(深圳)有限公司 信息处理方法、装置、服务器及存储介质
CN111488529B (zh) * 2020-06-28 2020-09-29 腾讯科技(深圳)有限公司 信息处理方法、装置、服务器及存储介质
CN113268986A (zh) * 2021-05-24 2021-08-17 交通银行股份有限公司 一种基于模糊匹配算法的单位名称匹配、查找方法及装置
CN113468315A (zh) * 2021-09-02 2021-10-01 北京华云安信息技术有限公司 漏洞厂商名称的匹配方法
CN113468315B (zh) * 2021-09-02 2021-12-10 北京华云安信息技术有限公司 漏洞厂商名称的匹配方法

Also Published As

Publication number Publication date
CN108829661B (zh) 2020-03-27

Similar Documents

Publication Publication Date Title
CN108829661A (zh) 一种基于模糊匹配的新闻主体名称提取方法
CN107169049B (zh) 应用的标签信息生成方法及装置
US9058383B2 (en) Document processing method and system
CN104462053B (zh) 一种文本内的基于语义特征的人称代词指代消解方法
CN105975499B (zh) 一种文本主题检测方法及系统
CN106156127B (zh) 选择数据内容向终端推送的方法及装置
TWI654530B (zh) Method and device for screening and promoting keywords
US10552422B2 (en) Extended search method and apparatus
CN103793697A (zh) 一种人脸图像的身份标注方法及人脸身份识别方法
CN107544988B (zh) 一种获取舆情数据的方法和装置
CN110413787B (zh) 文本聚类方法、装置、终端和存储介质
CN110532480B (zh) 一种用于人读威胁情报推荐的知识图谱构建方法及威胁情报推荐方法
CN107688630B (zh) 一种基于语义的弱监督微博多情感词典扩充方法
WO2022262266A1 (zh) 文本摘要生成方法、装置、计算机设备及存储介质
CN108536667A (zh) 中文文本识别方法及装置
CN109086355A (zh) 基于新闻主题词的热点关联关系分析方法及系统
CN109902284A (zh) 基于论辩挖掘的一种无监督论点提取方法
CN115248890B (zh) 用户兴趣画像的生成方法、装置、电子设备以及存储介质
WO2021114634A1 (zh) 文本标注方法、设备及存储介质
CN108427769B (zh) 一种基于社交网络的人物兴趣标签提取方法
CN107577667B (zh) 一种实体词处理方法和装置
CN109857746A (zh) 双语词库的自动更新方法、装置与电子设备
WO2018205460A1 (zh) 获取目标用户的方法、装置、电子设备及介质
CN113159363B (zh) 一种基于历史新闻报道的事件趋势预测方法
CN108280772A (zh) 社交网络中基于事件关联的故事脉络生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant