CN108829661B - 一种基于模糊匹配的新闻主体名称提取方法 - Google Patents
一种基于模糊匹配的新闻主体名称提取方法 Download PDFInfo
- Publication number
- CN108829661B CN108829661B CN201810439150.0A CN201810439150A CN108829661B CN 108829661 B CN108829661 B CN 108829661B CN 201810439150 A CN201810439150 A CN 201810439150A CN 108829661 B CN108829661 B CN 108829661B
- Authority
- CN
- China
- Prior art keywords
- news
- subject
- main body
- name
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于模糊匹配的新闻主体名称提取方法,其包括:采集大量的领域新闻;对采集到的新闻进行人工标注,筛选出与领域相关具有新闻主体的新闻;使用分词工具对新闻进行分词;使用词嵌入工具在全量的新闻数据上做训练,得到词嵌入矩阵,从而将每一篇新闻表示为一个词嵌入向量;使用主体列表构建知识图谱;将知识图谱中每个节点的主体名称分词后做各种拆分组合,然后将拆分组合的结果用词嵌入向量表示;计算词嵌入相似度,取所有主体中与新闻词嵌入向量相似度得分最高的主体名称作为该新闻提取的主体名称。本发明能够有效地克服基于精确匹配对非标准化主体简称识别的缺陷,此外,本发明还能够适应更多的场景,匹配准确度更高。
Description
技术领域
本发明涉及数据处理领域,尤其涉及一种基于模糊匹配的新闻主体名称提取方法。
背景技术
随着互联网的发展,信息的累积速度早已超过个人所能处理的范畴。在不同的垂直领域中,大量的新闻使得舆情分析成为可能,对原始新闻文本的新闻主体提取是该任务必不可少的步骤。在已有大量主体名称列表的前提下,如何从新闻中自动地提取主体名称,将一篇新闻对应到一个新闻主体,减少人工标注的工作量,兼顾准确度和效率,是实现舆情分析的重要部分。
对于不同的垂直领域,从新闻中提取主体名称,现有的主流方法是将新闻文本分词后的每个词在已有的主体名称表中匹配,若在主体列表中出现过,就标记该词为新闻侯选主体,然后通过一些启发式信息(例如词频、TF-IDF等)对新闻侯选主体进一步筛选,选择得分最高的主体名称作为新闻对应的主体。以财经新闻为例,通过精确匹配得到三个侯选的企业主体“腾讯”、“阿里巴巴”、“百度”,然后分别计算这三个词的TF-IDF值,选择TF-IDF值最大的作为该新闻对应的主体。但该方法存在一些问题。首先,新闻中会经常出现对主体名称的非标准化简称,精确匹配效果堪忧,人工扩展主体列表工作量太大,例如腾讯被称作企鹅、鹅厂等。其次,在构建主体列表时,不能有相同的主体简称,否则会出现匹配冲突,但大量的主体列表中难免不会出现类似或者完全一致的主体简称。
综上所述,现有技术方案为:将新闻文本进行分词,对分词处理后的每个词做精确匹配,判断该词是否出现在主体名称表中,如果出现,则作为新闻侯选主体,然后通过一些启发式信息对侯选主体进一步筛选,选择得分最高的作为新闻对应的主体。该方案存在以下不足:对于非标准化的主体简称,精确匹配效果堪忧;此外,主体列表中不能有相同的主体名称,当某些主体具有相同的简称时,会出现匹配冲突的情况。
发明内容
针对现有技术之不足,本发明提出了一种基于模糊匹配的新闻主体名称提取方法,其包括以下步骤:
步骤1:采集大量的领域新闻,所述领域新闻的新闻内容尽可能多样,以覆盖不同的相关新闻网站;
步骤2:对采集到的新闻进行人工标注,筛选出与领域相关具有新闻主体的新闻;
步骤3:使用分词工具对新闻进行分词,向分词工具中导入主体列表,以提升分词效果;
步骤4:使用词嵌入工具在全量的新闻数据上做训练,得到词嵌入矩阵,从而将每一篇新闻表示为一个词嵌入向量;
步骤5:使用主体列表构建知识图谱,所述知识图谱的每个节点代表一个主体名称或主体简称,将主体-主体、主体-简称联系起来,其中主体简称隶属于主体名称;
步骤6:将知识图谱中每个节点的主体名称分词后做各种拆分组合,然后将拆分组合的结果用词嵌入向量表示;
步骤7:计算词嵌入相似度,将第i篇新闻的词嵌入向量Ti与第j个主体的第k个组合方式Ejk做相似度计算,Ci为与第i篇新闻最相关的主体名称:
取所有主体中与新闻词嵌入向量相似度得分最高的主体名称作为该新闻提取的主体名称。
根据一个优选实施方式,在模糊匹配的过程中,将新闻词嵌入向量与由主体名称的各种组合对应的词向量做相似度计算,加权平均后得到该主体名称对应的得分,最后选择得分最高的主体名称作为该新闻匹配的主体。
本发明具有以下有益效果:
本发明针对垂直领域新闻中主体名称匹配,设计了一种基于模糊匹配的主体名称提取方法。该方法使用该领域已有的主体名称列表建立知识图谱,知识图谱的每个节点代表一个主体名称或主体简称,将主体-主体、主体-简称等联系起来。对知识图谱每个节点的主体名称分词后做各种拆分组合,然后用词嵌入向量表示所有可能的组合形式,与新闻的词嵌入向量做相似度计算,取距离最近的匹配作为新闻对应的主体。该方法能够有效地克服基于精确匹配对非标准化主体简称识别的缺陷,在遇到某些主体具有相同的简称时,也可以根据整篇新闻的语义信息匹配到最相近的主体。该方法通过语义信息来匹配与新闻语义最相近的主体,相比于精确匹配方法,能够适应更多的场景,匹配准确度更高。
附图说明
图1示出了本发明的流程图;
图2示出了本发明中词嵌入模型的示意图;
图3示出了本发明中模糊匹配过程的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
如图1所示,本发明的基于模糊匹配的新闻主体名称提取方法包括以下步骤:
步骤1:采集大量的领域新闻,新闻内容尽可能多样,覆盖不同的相关新闻网站。
步骤2:对采集到的新闻进行人工标注,筛选出与领域相关具有新闻主体的新闻。
步骤3:使用分词工具对新闻进行分词,向分词工具中导入主体列表,提升分词效果。
步骤4:使用词嵌入工具(例如word2vec、GloVe等)在全量的新闻数据上做训练,得到词嵌入矩阵,从而将每一篇新闻表示为一个词嵌入向量。
步骤5:使用主体列表构建知识图谱,知识图谱的每个节点代表一个主体名称或主体简称,将主体-主体、主体-简称等联系起来,其中主体简称隶属于主体名称。
步骤6:将知识图谱每个节点的主体名称分词后做各种拆分组合,以财经领域企业名为例,深圳市腾讯计算机系统有限公司可能的组合方式有腾讯、腾讯公司、深圳腾讯等。然后将这些组合的结果用词嵌入向量表示。
步骤7:将第i篇新闻的词嵌入向量Ti与第j个主体的第k个组合方式Ejk做相似度计算,Ci为与第i篇新闻最相关的主体名称。
取所有主体中与新闻词嵌入向量相似度得分最高的主体名称作为该新闻提取的主体。
具体地,如图2所示为嵌入模型的示意图。词嵌入可以理解为寻找一个函数或映射,生成新的空间上的表达,把单词one-hot所表达的X空间信息映射到Y的多维空间向量。由此将one-hot高维稀疏的向量表示变为低维稠密的向量表示,同时词嵌入向量还可以不同词之间的相似度,每个纬度上的值可以近似的看作每个词在某个属性值的大小。每一篇新闻的词嵌入向量是由所有词的词嵌入向量加权平均得到,进而寻找与该新闻词嵌入向量距离最近的主体,也就是在寻找与该新闻语义信息最相似的主体。该模型可以解决精确匹配中对非标准化主体简称匹配的缺陷,而且实现简单,效果更优。
图3示出了模糊匹配过程的示意图。在模糊匹配的过程中,将新闻词嵌入向量与由主体名称的各种组合对应的词向量做相似度计算,加权平均后得到该主体名称对应的得分,最后选择得分最高的主体名称作为该新闻匹配的主体。需要说明的是,图3中所示出的具体实施方式为示例性的,其用于说明本发明中的模糊匹配过程,并非构成对本发明的限制。
本发明针对垂直领域新闻中主体名称匹配,设计了一种基于模糊匹配的主体名称提取方法。该方法使用该领域已有的主体名称列表建立知识图谱,知识图谱的每个节点代表一个主体名称或主体简称,将主体-主体、主体-简称等联系起来。对知识图谱每个节点的主体名称分词后做各种拆分组合,然后用词嵌入向量表示所有可能的组合形式,与新闻的词嵌入向量做相似度计算,取距离最近的匹配作为新闻对应的主体。该方法能够有效地克服基于精确匹配对非标准化主体简称识别的缺陷,在遇到某些主体具有相同的简称时,也可以根据整篇新闻的语义信息匹配到最相近的主体。该方法通过语义信息来匹配与新闻语义最相近的主体,相比于精确匹配方法,能够适应更多的场景,匹配准确度更高。
需要注意的是,上述具体实施例是示例性的,本领域技术人员可以在本发明公开内容的启发下想出各种解决方案,而这些解决方案也都属于本发明的公开范围并落入本发明的保护范围之内。本领域技术人员应该明白,本发明说明书及其附图均为说明性而并非构成对权利要求的限制。本发明的保护范围由权利要求及其等同物限定。
Claims (2)
1.一种基于模糊匹配的新闻主体名称提取方法,其特征在于,包括以下步骤:
步骤1:采集领域新闻,所述领域新闻的新闻内容覆盖不同的相关新闻网站;
步骤2:对采集到的新闻进行人工标注,筛选出与领域相关具有新闻主体的新闻;
步骤3:使用分词工具对新闻进行分词,向分词工具中导入主体列表;
步骤4:使用词嵌入工具在全量的新闻数据上做训练,得到词嵌入矩阵,从而将每一篇新闻表示为一个词嵌入向量;
步骤5:使用主体列表构建知识图谱,所述知识图谱的每个节点代表一个主体名称或主体简称,将主体-主体、主体-简称联系起来,其中主体简称隶属于主体名称;
步骤6:将知识图谱中每个节点的主体名称分词后做各种拆分组合,然后将拆分组合的结果用词嵌入向量表示;
步骤7:计算词嵌入相似度,将第i篇新闻的词嵌入向量Ti与第j个主体的第k个组合方式Ejk做相似度计算,Ci为与第i篇新闻最相关的主体名称:
取所有主体中与新闻词嵌入向量相似度得分最高的主体名称作为该新闻提取的主体名称。
2.如权利要求1所述的方法,其特征在于,在模糊匹配的过程中,将新闻词嵌入向量与由主体名称的各种组合对应的词向量做相似度计算,加权平均后得到该主体名称对应的得分,最后选择得分最高的主体名称作为该新闻匹配的主体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810439150.0A CN108829661B (zh) | 2018-05-09 | 2018-05-09 | 一种基于模糊匹配的新闻主体名称提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810439150.0A CN108829661B (zh) | 2018-05-09 | 2018-05-09 | 一种基于模糊匹配的新闻主体名称提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108829661A CN108829661A (zh) | 2018-11-16 |
CN108829661B true CN108829661B (zh) | 2020-03-27 |
Family
ID=64147675
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810439150.0A Active CN108829661B (zh) | 2018-05-09 | 2018-05-09 | 一种基于模糊匹配的新闻主体名称提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108829661B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109710773B (zh) * | 2018-12-17 | 2021-10-08 | 北京百度网讯科技有限公司 | 事件主体的生成方法及其装置 |
CN110705292B (zh) * | 2019-08-22 | 2022-11-29 | 成都信息工程大学 | 一种基于知识库和深度学习的实体名称提取方法 |
CN110807103A (zh) * | 2019-10-18 | 2020-02-18 | 中国银联股份有限公司 | 知识图谱构建方法、装置、电子设备及存储介质 |
CN111488529B (zh) * | 2020-06-28 | 2020-09-29 | 腾讯科技(深圳)有限公司 | 信息处理方法、装置、服务器及存储介质 |
CN113268986B (zh) * | 2021-05-24 | 2024-05-24 | 交通银行股份有限公司 | 一种基于模糊匹配算法的单位名称匹配、查找方法及装置 |
CN113468315B (zh) * | 2021-09-02 | 2021-12-10 | 北京华云安信息技术有限公司 | 漏洞厂商名称的匹配方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107609121A (zh) * | 2017-09-14 | 2018-01-19 | 深圳市玛腾科技有限公司 | 基于LDA和word2vec算法的新闻文本分类方法 |
CN107679144A (zh) * | 2017-09-25 | 2018-02-09 | 平安科技(深圳)有限公司 | 基于语义相似度的新闻语句聚类方法、装置及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8589378B2 (en) * | 2010-10-11 | 2013-11-19 | Yahoo! Inc. | Topic-oriented diversified item recommendation |
US9256664B2 (en) * | 2014-07-03 | 2016-02-09 | Palantir Technologies Inc. | System and method for news events detection and visualization |
-
2018
- 2018-05-09 CN CN201810439150.0A patent/CN108829661B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107609121A (zh) * | 2017-09-14 | 2018-01-19 | 深圳市玛腾科技有限公司 | 基于LDA和word2vec算法的新闻文本分类方法 |
CN107679144A (zh) * | 2017-09-25 | 2018-02-09 | 平安科技(深圳)有限公司 | 基于语义相似度的新闻语句聚类方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108829661A (zh) | 2018-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108829661B (zh) | 一种基于模糊匹配的新闻主体名称提取方法 | |
CN109815308B (zh) | 意图识别模型的确定及检索意图识别方法、装置 | |
CN108628971B (zh) | 不均衡数据集的文本分类方法、文本分类器及存储介质 | |
US9043356B2 (en) | Document processing method and system | |
CN106776503B (zh) | 文本语义相似度的确定方法及装置 | |
CN108701161B (zh) | 为搜索查询提供图像 | |
CN107169079B (zh) | 一种基于Deepdive的领域文本知识抽取方法 | |
CN111104526A (zh) | 一种基于关键词语义的金融标签提取方法及系统 | |
CN109885675B (zh) | 基于改进lda的文本子话题发现方法 | |
CN109783812B (zh) | 基于自注意力机制的中文命名实体识别方法、系统、装置 | |
CN112559684A (zh) | 一种关键词提取及信息检索方法 | |
CN107506472B (zh) | 一种学生浏览网页分类方法 | |
CN107679075B (zh) | 网络监控方法和设备 | |
CN114238573A (zh) | 基于文本对抗样例的信息推送方法及装置 | |
CN110910175A (zh) | 一种旅游门票产品画像生成方法 | |
CN116263785A (zh) | 跨领域文本分类模型的训练方法、分类方法和装置 | |
CN110442736B (zh) | 一种基于二次判别分析的语义增强子空间跨媒体检索方法 | |
CN108153818B (zh) | 一种基于大数据的聚类方法 | |
CN103744958A (zh) | 一种基于分布式计算的网页分类算法 | |
CN107291686B (zh) | 情感标识的辨识方法和情感标识的辨识系统 | |
CN107291685B (zh) | 语义识别方法和语义识别系统 | |
CN112183093A (zh) | 一种企业舆情分析方法、装置、设备及可读存储介质 | |
CN108595453B (zh) | Url标识映射获取方法及装置 | |
CN115935082A (zh) | 一种用户冷启动内容推荐方法、计算设备及存储介质 | |
WO2022241987A1 (zh) | 图像检索方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |