CN113221559A - 利用语义特征的科技创新领域中文关键短语抽取方法及系统 - Google Patents

利用语义特征的科技创新领域中文关键短语抽取方法及系统 Download PDF

Info

Publication number
CN113221559A
CN113221559A CN202110600989.XA CN202110600989A CN113221559A CN 113221559 A CN113221559 A CN 113221559A CN 202110600989 A CN202110600989 A CN 202110600989A CN 113221559 A CN113221559 A CN 113221559A
Authority
CN
China
Prior art keywords
phrase
document
candidate
scientific
phrases
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110600989.XA
Other languages
English (en)
Other versions
CN113221559B (zh
Inventor
庄越挺
宗畅
陈泽群
鲁伟明
邵健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Liangzhi Data Technology Co ltd
Zhejiang University ZJU
Original Assignee
Hangzhou Liangzhi Data Technology Co ltd
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Liangzhi Data Technology Co ltd, Zhejiang University ZJU filed Critical Hangzhou Liangzhi Data Technology Co ltd
Priority to CN202110600989.XA priority Critical patent/CN113221559B/zh
Publication of CN113221559A publication Critical patent/CN113221559A/zh
Application granted granted Critical
Publication of CN113221559B publication Critical patent/CN113221559B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Animal Behavior & Ethology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种利用语义特征的科技创新领域中文关键短语抽取方法及系统。本发明通过挖掘中文科技创新文档语料特征,构建出中文停用词及停用模式库,实现对无效信息的高性能过滤;此外借助领域专家标注对各类关键短语抽取算法进行量化评估分析,从而选用更加适合领域认知的算法模型,并利用多种统计规则进行过滤以提升短语抽取性能;进一步利用文档的结构特点,对文档的主题语义进行向量空间嵌入表示,并综合利用所抽取短语与文档主题的语义相似度,和短语语义重要程度进行计算与排名,完成对关键短语的进一步筛选。该方法可支撑多种下游任务和应用,包括科技创新领域知识图谱构建、科技创新文档语义检索、科技创新实体精准搜索等场景。

Description

利用语义特征的科技创新领域中文关键短语抽取方法及系统
技术领域
本发明涉及计算机系统、大数据、人工智能、知识图谱构建、自然语言处理等领域,具体涉及一种利用语义特征的科技创新领域关键短语抽取方法。
背景技术
传统的科技创新领域关键短语抽取依赖于人工操作完成,需要相关工作人员拥有较丰富的相关专业知识,若所抽取的关键短语领域与人员知识领域不符,则常常会导致判断抽取短语错误等问题。通过人工方式抽取的关键短语容易出现不全、不细、不及时、与客观需要的方向不一致等问题。因此,传统人工关键短语抽取方法具有工作量大、效率低、错误率高、对人员专业素质要求较高等缺陷。
面向文本的自然语言处理技术,是人工智能的重要领域之一。机器通过对自然语言文本的自动化处理,可直接输出所需的对应信息,将非结构化文本数据转换为结构化知识,主要应用于人机交互、深度搜索、关键信息提取等方向。基于人工智能的关键短语抽取方法,与传统的人工关键短语抽取方法相对比,具有高效、准确率高、鲁棒性优等特点。
发明内容
本发明提供了一种利用语义特征的科技创新领域中文关键短语抽取方法,以构建面向科技文档的中文停用词及停用模式库为基础性工作,通过人工智能技术分析领域关键短语的统计特征和语义特征,形成关键短语抽取方法流程,并以领域专家标注结果对系统进行优化评估,得到最终的利用主题语义的科技创新领域关键短语抽取方法。与传统的人工关键短语抽取方法相对比,具有效率高、准确率高、鲁棒性优等特点。
本发明的目的是通过以下技术方案来实现的:
一种利用语义特征的科技创新领域中文关键短语抽取方法,其步骤如下:
S1、获取科技创新领域的多种中文文档,并转换为统一中文编码格式,形成科技创新领域文档库;
S2、对科技创新领域文档库中的文档进行分句、分词和词性标注后,利用符合科技创新领域中文文档特征的中文停用词及停用模式库进行候选短语的抽取,并针对每个抽取出的候选短语,利用Rake算法计算候选短语的关键程度;再对抽取得到的候选短语列表,通过基于科技创新文档统计分析得到的关键短语过滤规则,对候选短语进行过滤筛选,得到初步筛选后的关键短语列表;
S3、利用预训练的科技创新文档词向量对科技创新领域文档库中的文档字符进行向量化编码,得到向量化编码文档;然后针对每一篇科技创新文档,将对应的所述关键短语列表进行向量化编码,然后计算文档与关键短语列表之间的语义相似度,所述语义相似度包括候选短语与文档主题之间的语义相似度以及候选短语与候选短语之间的语义相似度;再基于所述语义相似度,利用图网络构建候选短语之间的语义相似度网络,并利用语义网络重要度计算算法得到候选短语的语义重要度,用于表示候选短语在文档中的重要程度;最后,对所述候选短语的关键程度、所述候选短语与文档主题之间的语义相似度以及所述候选短语的语义重要度进行综合,得到候选短语的综合得分,并以候选短语的综合得分为依据筛选得到科技创新领域的最终中文关键短语列表。
作为优选,所述科技创新领域文档库中的文档为文科技类文本文件,包含但不限于专利、论文、报告数据。
作为优选,所述统一中文编码格式包括ASCII、Unicode,若中文文档为不可直接转码至指定文字编码格式文件,则先通过文字转化工具进行文字识别。
作为优选,所述中文停用词及停用模式库中,中文停用词包括科技创新文档中的连词、副词、代词、比较动词以及不会出现在关键短语中的名词,所述停用模式库包括量词正则表达式、用于跳过歧义情况的介词正则表达式以及用于跳过固定搭配的动词正则表达式。
作为优选,所述S2中,利用中文停用词及停用模式库进行候选短语的抽取的具体方法为:
针对单字停用词,若单字停用词位于句子开头、结尾或句中且单字停用词在分词过程中被分词工具分开,则将其替换为标记符号“|”;
针对动词,若动词搭配在一个副词或介词之后,则将这种搭配替换为标记符号“|”;
针对多个字的停用词和停用模式,将针对单字停用词和动词处理后的结果拼接成句子,直接将该句子中的停用词及停用模式替换为标记符号“|”。
作为优选,所述S2中,关键短语过滤规则包括长短词过滤规则、后缀过滤规则、词性过滤规则和重复过滤规则,均预先基于领域专家标注结果分析获得;所述长短词过滤规则用于对超出预设的关键短语长度区间的候选短语进行过滤去除,所述后缀过滤规则用于对长度超出设定阈值且后缀不在预设的后缀词表中的候选短语进行过滤去除,所述词性过滤规则用于对短语后缀的词性不属于预设的后缀词性类型表的候选短语进行过滤去除,所述重复过滤规则用于对重复的候选短语进行过滤去除。
作为优选,所述S3中,预训练的科技创新文档词向量的训练方法如下:
首先,利用分句工具对批量的科技创新文档进行分句,形成科技创新文档句;然后,利用分词工具对科技创新文档句进行分词,形成科技创新文档语料库;最后,利用词向量训练工具和科技创新文档语料库,对由通用语料预训练的词向量进行更新学习,得到科技创新文档词向量。
作为优选,所述S3中,候选短语与文档主题之间的语义相似度计算方法如下:
Sim(topic,phrase)=Cosine(Avg(Vec(Cut(Ph(title)))),Vec(Cut(phrase)))
其中,title为科技创新文档标题,phrase为步骤S2构成的候选短语生成器最终输出的候选短语,Ph为步骤S2构成的候选短语生成器,Cut为分词工具,Vec为词向量编码方法,Avg为向量平均值计算方法,Cosine为余弦相似度计算方法,Sim(topic,phrase)为针对一篇文档所得到的候选短语与文档主题之间的语义相似度;
所述候选短语与候选短语之间的语义相似度计算方法如下:
Sim(pharse1,phrase2)=Cosine(Vec(Cut(phrase1)),Vec(Cut(phrase2)))
其中,phrase1和phrase2为候选短语生成器所输出的同一篇文档中的两个候选短语,Sim(pharse1,phrase2)为针对一篇文档所得到的两个候选短语之间的语义相似度;
所述候选短语的语义重要度计算方法如下:
SimGraph=List((phrase1,phrase2,Sim(phrase1,phrase2)))
Imp(phrase)=Get(WeightedPageRank(SimGraph),phrase)
其中,SimGraph为由一篇文档中所有候选短语及其之间的语义相似度所构成的带权全连通图,任意两个候选短语节点之间的边权重为两者的语义相似度,WeightedPageRank为基于权重的PageRank算法,用于计算图中每个短语节点的语义重要度,Get为获取候选短语的语义重要度方法,Imp(phrase)为针对一篇文档中候选短语phrase的语义重要度;
所述候选短语的综合得分计算方法如下:
Figure BDA0003092971300000041
其中,Rake、Sim、Imp分别为所述候选短语的关键程度、所述候选短语与文档主题之间的语义相似度、所述候选短语的语义重要度,Score(phrase)为候选短语phrase的综合得分。
作为优选,所述科技创新领域文档库不断进行包含新增、更改、删除在内的更新,从而对最终所得到的科技创新领域中文关键短语列表也保持不断更新。
另一方面,与前述利用语义特征的科技创新领域中文关键短语抽取方法对应,本发明还提供了一种利用语义特征的科技创新领域中文关键短语抽取系统,其包括科技创新领域文档库、候选短语生成器、关键短语库生成器和科技创新领域关键短语库;
所述科技创新领域文档库,用于获取并存储科技创新领域的多种中文文档,且均转换为统一中文编码格式;
所述候选短语生成器包括中文停用词及停用模式库、分句工具、分词及词性标注工具、候选短语抽取工具和短语过滤工具;
所述中文停用词及停用模式库,用于存储符合科技创新领域中文文档特征的中文停用词及停用模式;
所述分句工具,用于对科技创新领域文档库中的文档进行分句;
所述分词及词性标注工具,用于对分句工具分句后的文档句进行分词和词性标注;
所述候选短语抽取工具,用于利用中文停用词及停用模式库进行候选短语的抽取,并针对每个抽取出的候选短语,利用Rake算法计算候选短语的关键程度得分;
所述短语过滤工具,用于对抽取得到的候选短语列表,通过基于科技创新文档统计分析得到的关键短语过滤规则,对候选短语进行过滤筛选,得到初步筛选后的关键短语列表;
所述关键短语库生成器包括中文词向量工具、语义相似度计算工具、语义重要度计算工具和短语综合排名过滤工具;
所述中文词向量工具,用于利用预训练的科技创新文档词向量对科技创新领域文档库中的文档字符进行向量化编码,得到向量化编码文档;
所述语义相似度计算工具,用于针对每一篇科技创新文档,将对应的所述关键短语列表进行向量化编码,然后计算文档与关键短语列表之间的语义相似度,所述语义相似度包括候选短语与文档主题之间的语义相似度以及候选短语与候选短语之间的语义相似度;
所述语义重要度计算工具,用于基于所述语义相似度,利用图网络构建候选短语之间的语义相似度网络,并利用语义网络重要度计算算法得到候选短语的语义重要度,用于表示候选短语在文档中的重要程度;
所述短语综合排名过滤工具,用于对所述候选短语的关键程度得分、所述候选短语与文档主题之间的语义相似度以及所述候选短语的语义重要度进行综合,得到候选短语的综合得分,并以候选短语的综合得分为依据筛选得到科技创新领域的最终中文关键短语列表。
相对于现有技术而言,本发明的有益效果如下:本发明提供了一种利用语义特征的中文科技创新领域关键短语抽取方法,可以克服人工关键短语抽取方法工作量大、效率低、抽取短语与主题不匹配等缺陷。方法中所定义的流程简洁高效,充分利用统计特征和语义特征对关键短语的影响,提升关键短语抽取时与主题的相关性和短语本身的重要程度。通过本发明所述方法得到的科技创新领域关键短语库,可用于包含但不限于科技创新领域知识图谱构建、科技创新文档语义检索、科技创新实体精准搜索,具有适用范围广、识别准确率高、时效性高、稳健鲁棒等优点。
附图说明
图1为科技创新领域中文关键短语抽取系统组成示意图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步阐述和说明。
如图1所示,在本发明的一个较佳实施例中,提供了一种利用语义特征的科技创新领域中文关键短语抽取方法,该方法可对应于通过一个利用语义特征的科技创新领域中文关键短语抽取系统来实现,系统由科技创新领域文档库、候选短语生成器、关键短语库生成器、科技创新领域关键短语库四部分构成。
其具体过程如下:
S1、获取科技创新领域的多种中文文档,并转换为统一中文编码格式,形成科技创新领域文档库。
其中的科技创新领域文档库中的中文文档可以是收集的任意中文科技类文本文件,其中科技类文本文件包含但不限于专利、论文、报告数据。这些科技类文本文件需为转化为统一中文编码格式的中文文件,其中编码格式包含但不限于ASCII、Unicode,若科技类文本文件为不可直接转码至指定文字编码格式文件,包含但不限于图片、PDF文档,则需要先通过文字转化工具进行文字识别。
科技类文本中若有非标准编码表中文字,包含但不限于公式、特殊字符,则使用占位字符代替、或直接忽略无法识别字符;另外所有英文字符均进行小写化处理。
S2、利用候选短语生成器生成关键短语列表,候选短语生成器由中文停用词及停用模式库、分句工具、分词及词性标注工具、候选短语抽取工具和短语过滤工具几部分组成,各部分的基本功能如下:
中文停用词及停用模式库,用于存储符合科技创新领域中文文档特征的中文停用词及停用模式。
分句工具,用于对科技创新领域文档库中的文档进行分句。
分词及词性标注工具,用于对分句工具分句后的文档句进行分词和词性标注。
候选短语抽取工具,用于利用中文停用词及停用模式库进行候选短语的抽取,并针对每个抽取出的候选短语,利用Rake算法计算候选短语的关键程度得分。
短语过滤工具,用于对抽取得到的候选短语列表,通过基于科技创新文档统计分析得到的关键短语过滤规则,对候选短语进行过滤筛选,得到初步筛选后的关键短语列表。
其中,中文停用词及停用模式库是通过对科技创新领域文档库中的内容经语言特征分析与人工收集积累得到的,该库中含有大量符合科技创新领域中文文档特征的停用词及停用模式,并且可通过运营持续扩充和更新,具备显著的科技创新文档特征。一般而言中文停用词包括科技创新文档中的连词、副词、代词、比较动词以及不会出现在关键短语中的名词,停用模式库包括量词正则表达式、用于跳过歧义情况的介词正则表达式以及用于跳过固定搭配的动词正则表达式。
在本实施例中,停用词及停用模式积累主要采用如下语言特征:
1.将科技创新文档常见连词作为停用词,如“因此”、“另外”、“以及”、“进而”、“然后”、“不仅”、“由于”等;
2.将科技创新文档常见副词作为停用词,如“更快”、“太慢”、“很细”、“大幅”、“快要”、“快速”、“逐一”、“逐渐”等;
3.将科技创新文档常见代词作为停用词,如“本”、“该”、“此”、“它”等;
4.将科技创新文档常见程度量词作为停用词,如“一种”、“一次”、“三步”、“多台”、“几层”、“数个”、“诸多”等;
5.将科技创新文档常见比较动词作为停用词,如“大于”、“低于”、“超过”、“优于”等;
6.一些在科技创新文档中不会出现在关键短语的动词,如“不能”、“达到”、“下述”、“面临”、“开展”、“变成”、“经过”、“属于”、“落入”等;
7.一些在科技创新文档中不会出现在关键短语的名词,如“局限性”、“可靠性”、“高性能”、“关键技术”、“目标产物”等;
8.将量词正则表达式作为停用模式,如“\d+个”、“\d+块”、“\d+种”、“\d+组”等;
9.将跳过歧义情况的介词正则表达式作为停用模式,如“(?<![自])由”、“从(?![动])”、“因(?![子])”、“对(?![称位])”等;
10.将跳过固定搭配的常用动词正则表达式作为停用模式,如“接收(?!(装置|工艺|技术|系统|模块|单元|结构|模组|系数|能力”等。
当然,该库中具体的停用词及停用模式可根据实际需要进行调整。
在S2步骤中,可先将科技创新领域文档库中文档内容输入分句工具,得到分句后的文档。分句工具可针对常见中文分句标点进行句子切分,如句号、冒号、分号、问号等。分句后的科技创新领域文档直接输入分词与词性标注工具,得到标注后的文档句子集合。此处的分词与词性标注工具可采用开源中文分词和词性标注工具完成。候选短语抽取工具接收停用词及停用模式,对使用分词工具得到的分词后的文档进行候选短语的抽取并计算候选短语的关键程度得分。
在本实施例中,候选短语抽取工具的具体实现过程如下:
1.针对单字停用词如“本”、“并”、“和”、“将”等,由于其既可作为停用词,又可作为关键短语的一部分,考虑与分词结果结合,进行如下判断:
分别针对单字停用词作为句子开头、结尾、句中三种情况,如果单字停用词被分词工具分开,则将其替换为标记符号“|”;
2.针对一个动词,如果其不作为关键短语的一部分,通常会跟在一个副词或介词之后,如“再”、“通过”,当遇到这种搭配,则将其替换为标记符号“|”;
3.针对多个字的停用词和停用模式,将前两步的结果拼接成句子,直接对该句子进行替换,将停用词及停用模式替换为标记符号“|”;
4.针对每个抽取出的候选短语,利用Rake算法,计算短语关键程度得分,计算方法如下:
Figure BDA0003092971300000081
其中,phrase为所抽取的候选短语,Cut为中文分词工具,Deg为短语中每个词与其他词共同出现次数的总和,越长的短语该值越大,Freq为短语中每个词出现次数,Rake为某候选短语的关键程度得分。
另外,当候选短语抽取工具得到的候选短语列表后,可将其传送给短语过滤工具,短语过滤工具内需要预设基于对专家标注数据进行统计分析所得到的过滤规则。本发明中,短语过滤工具中过滤规则包含但不限于长短词过滤规则、词性过滤规则、后缀过滤规则、重复过滤规则,长短词过滤规则用于对超出预设的关键短语长度区间的候选短语进行过滤去除,后缀过滤规则用于对长度超出设定阈值且后缀不在预设的后缀词表中的候选短语进行过滤去除,词性过滤规则用于对短语后缀的词性不属于预设的后缀词性类型表的候选短语进行过滤去除,重复过滤规则用于对重复的候选短语进行过滤去除。
本实施例中,上述长短词过滤规则、词性过滤规则、后缀过滤规则的具体算法如下:
1.通过分析专家标注的关键短语长度的区间分布,对于候选短语中长度小于3和长度大于30的短语进行去除;
2.通过分析专家标注的较长关键短语后缀词分布,构建短语后缀词表,如“器件”、“模块”、“工艺”、“方法”、“结构”、“装置”等,对于候选短语中长度大于18的短语,如果其后缀不在词表中,则进行去除;
3.通过分析专家标注的关键短语后缀词词性分布,构建短语后缀词性类型表,如“普通名词”、“普通动词”、“专有名词”、“动名词”等,对于候选短语中后缀词性不属于该类型表的短语进行去除。
S3、通过关键短语库生成器,根据科技创新领域文档库和候选短语生成器生成的候选短语决策出所需关键短语,科技创新领域关键短语库为关键短语库生成器输出集合,数据库中集合了大量科技创新领域文档经利用语义特征的科技创新领域关键短语所抽取得到的关键短语。
关键短语库生成器由中文词向量工具、语义相似度计算工具、语义重要度计算工具、短语综合排名过滤工具几部分组成,各部分的基本功能如下:
中文词向量工具,用于利用预训练的科技创新文档词向量对科技创新领域文档库中的文档字符进行向量化编码,得到向量化编码文档;
语义相似度计算工具,用于针对每一篇科技创新文档,将对应的前述关键短语列表进行向量化编码,然后计算文档与关键短语列表之间的语义相似度,前述语义相似度包括候选短语与文档主题之间的语义相似度以及候选短语与候选短语之间的语义相似度;
语义重要度计算工具,用于基于前述语义相似度,利用图网络构建候选短语之间的语义相似度网络,并利用语义网络重要度计算算法得到候选短语的语义重要度,用于表示候选短语在文档中的重要程度;
短语综合排名过滤工具,用于对前述候选短语的关键程度得分、前述候选短语与文档主题之间的语义相似度以及前述候选短语的语义重要度进行综合,得到候选短语的综合得分,并以候选短语的综合得分为依据筛选得到科技创新领域的最终中文关键短语列表。
其中,上述中文词向量工具中,预训练的科技创新文档词向量可采用以下过程构建:
1)利用分句工具对批量的科技创新文档进行分句,形成科技创新文档句;
2)利用分词工具对科技创新文档句进行分词,形成科技创新文档语料库;
3)利用词向量训练工具和科技创新文档语料库,对由通用语料预训练的词向量进行更新学习,得到科技创新文档词向量。通用语料预训练的词向量包含但不限于百度百科词向量、中文维基百科词向量、人民日报词向量等,考虑百科的语境与本场景较为接近,且百度百科中文语料较为丰富,故选用百度百科词向量作为预训练词向量。
另外,对于上述关键短语库生成器中的其余几部分而言,语义相似度计算工具接收候选短语生成器中短语过滤工具的输出,以及中文词向量工具对科技创新领域文档的向量化编码后的文档,计算不同短语之间的语义相似度,而语义重要度计算工具接收语义相似度计算工具的计算结果,通过构建候选短语之间的语义相似度网络,利用语义网络重要度计算算法,得到候选短语语义重要度。在该过程中,具体的候选短语的关键程度得分、候选短语与文档主题之间的语义相似度以及候选短语的语义重要度计算公式如下:
候选短语与文档主题之间的语义相似度计算方法如下:
Sim(topic,phrase)=Cosine(Avg(Vec(Cut(Ph(title)))),Vec(Cut(phrase)))
其中,title为科技创新文档标题,phrase为步骤S2构成的候选短语生成器最终输出的候选短语,Ph为步骤S2构成的候选短语生成器,Cut为分词工具,Vec为词向量编码方法,Avg为向量平均值计算方法,Cosine为余弦相似度计算方法,Sim(topic,phrase)为针对一篇文档所得到的候选短语与文档主题之间的语义相似度;
所述候选短语与候选短语之间的语义相似度计算方法如下:
Sim(pharse1,phrase2)=Cosine(Vec(Cut(phrase1)),Vec(Cut(phrase2)))
其中,phrase1和phrase2为候选短语生成器所输出的同一篇文档中的两个候选短语,Sim(pharse1,phrase2)为针对一篇文档所得到的两个候选短语之间的语义相似度;
所述候选短语的语义重要度计算方法如下:
SimGraph=List((phrase1,phrase2,Sim(phrase1,phrase2)))
Imp(phrase)=Get(WeightedPageRank(SimGraph),phrase)
其中,SimGraph为由一篇文档中所有候选短语及其之间的语义相似度所构成的带权全连通图,任意两个候选短语节点之间的边权重为两者的语义相似度,WeightedPageRank为基于权重的PageRank算法,用于计算图中每个短语节点的语义重要度,Get为获取候选短语的语义重要度方法,Imp(phrase)为针对一篇文档中候选短语phrase的语义重要度。
当计算得到上述三种指标的得分后,即可由短语综合排名工具接收候选短语生成器中的候选短语抽取工具、短语库生成器中的语义相似度计算工具和语义重要度计算工具的输出,利用短语综合排名过滤工具进行评分、排名与过滤。
本实施例中,候选短语的综合得分计算方法如下:
Figure BDA0003092971300000111
其中,Rake、Sim、Imp分别为前述候选短语的关键程度、前述候选短语与文档主题之间的语义相似度、前述候选短语的语义重要度,Score(phrase)为候选短语phrase的综合得分。
本实施例中,过滤规则如下:
Keyphrase=List(phrase If Score(phrase)≥Threshold)
其中,Threshold为最终关键短语所需满足的最低综合得分,可根据实际优化设置,Keyphrase为最终得到的关键短语列表,用于构建科技创新领域关键短语库。
本发明中,最终得到的科技创新领域关键短语库为关键短语库生成器中短语综合排名工具的输出集合所形成的数据库。在实际中,为了满足科技创新领域知识迭代更新的需求,可通过对科技创新领域文档库的不断更新,包含但不限于新增、更改、删除文档,使用如上算法最终所得到的科技创新领域关键短语库也不断更新,最终可获得优质科技创新领域关键短语库。
综上,本发明通过挖掘中文科技创新文档语料特征,构建出中文停用词及停用模式库,能够更加适应科技创新领域的文本表达,实现对无效信息的高性能过滤;此外,借助领域专家所标注的少量样本,对各类关键短语抽取算法进行量化评估分析,从而选用更加适合领域认知的算法模型,并利用多种统计规则进行过滤以提升短语抽取性能;进一步,利用文档的结构特点,对文档的主题语义进行向量空间嵌入表示,并综合利用所抽取短语与文档主题的语义相似度,和短语语义重要程度进行计算与排名,完成对关键短语的进一步筛选,实现高质量领域关键短语的抽取。该方法可支撑多种下游任务和应用,包括科技创新领域知识图谱构建、科技创新文档语义检索、科技创新实体精准搜索等场景。
以上所述的实施例只是本发明的一种较佳的方案,然其并非用以限制本发明。有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型。例如,系统中科技创新领域文档库、候选短语生成器、关键短语库生成器、科技创新领域关键短语库四部分本质均为软件、代码模块,可根据需要进行子模块的设计、合并和分解,对此不做限制。因此凡采取等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。

Claims (10)

1.一种利用语义特征的科技创新领域中文关键短语抽取方法,其特征在于,步骤如下:
S1、获取科技创新领域的多种中文文档,并转换为统一中文编码格式,形成科技创新领域文档库;
S2、对科技创新领域文档库中的文档进行分句、分词和词性标注后,利用符合科技创新领域中文文档特征的中文停用词及停用模式库进行候选短语的抽取,并针对每个抽取出的候选短语,利用Rake算法计算候选短语的关键程度;再对抽取得到的候选短语列表,通过基于科技创新文档统计分析得到的关键短语过滤规则,对候选短语进行过滤筛选,得到初步筛选后的关键短语列表;
S3、利用预训练的科技创新文档词向量对科技创新领域文档库中的文档字符进行向量化编码,得到向量化编码文档;然后针对每一篇科技创新文档,将对应的所述关键短语列表进行向量化编码,然后计算文档与关键短语列表之间的语义相似度,所述语义相似度包括候选短语与文档主题之间的语义相似度以及候选短语与候选短语之间的语义相似度;再基于所述语义相似度,利用图网络构建候选短语之间的语义相似度网络,并利用语义网络重要度计算算法得到候选短语的语义重要度,用于表示候选短语在文档中的重要程度;最后,对所述候选短语的关键程度、所述候选短语与文档主题之间的语义相似度以及所述候选短语的语义重要度进行综合,得到候选短语的综合得分,并以候选短语的综合得分为依据筛选得到科技创新领域的最终中文关键短语列表。
2.如权利要求1所述的利用语义特征的科技创新领域中文关键短语抽取方法,其特征在于,所述科技创新领域文档库中的文档为文科技类文本文件,包含但不限于专利、论文、报告数据。
3.如权利要求1所述的利用语义特征的科技创新领域中文关键短语抽取方法,其特征在于,所述统一中文编码格式包括ASCII、Unicode,若中文文档为不可直接转码至指定文字编码格式文件,则先通过文字转化工具进行文字识别。
4.如权利要求1所述的利用语义特征的科技创新领域中文关键短语抽取方法,其特征在于,所述中文停用词及停用模式库中,中文停用词包括科技创新文档中的连词、副词、代词、比较动词以及不会出现在关键短语中的名词,所述停用模式库包括量词正则表达式、用于跳过歧义情况的介词正则表达式以及用于跳过固定搭配的动词正则表达式。
5.如权利要求1所述的利用语义特征的科技创新领域中文关键短语抽取方法,其特征在于,所述S2中,利用中文停用词及停用模式库进行候选短语的抽取的具体方法为:
针对单字停用词,若单字停用词位于句子开头、结尾或句中且单字停用词在分词过程中被分词工具分开,则将其替换为标记符号“|”;
针对动词,若动词搭配在一个副词或介词之后,则将这种搭配替换为标记符号“|”;
针对多个字的停用词和停用模式,将针对单字停用词和动词处理后的结果拼接成句子,直接将该句子中的停用词及停用模式替换为标记符号“|”。
6.如权利要求1所述的利用语义特征的科技创新领域中文关键短语抽取方法,其特征在于,所述S2中,关键短语过滤规则包括长短词过滤规则、后缀过滤规则、词性过滤规则和重复过滤规则,均预先基于领域专家标注结果分析获得;所述长短词过滤规则用于对超出预设的关键短语长度区间的候选短语进行过滤去除,所述后缀过滤规则用于对长度超出设定阈值且后缀不在预设的后缀词表中的候选短语进行过滤去除,所述词性过滤规则用于对短语后缀的词性不属于预设的后缀词性类型表的候选短语进行过滤去除,所述重复过滤规则用于对重复的候选短语进行过滤去除。
7.如权利要求1所述的利用语义特征的科技创新领域中文关键短语抽取方法,其特征在于,所述S3中,预训练的科技创新文档词向量的训练方法如下:
首先,利用分句工具对批量的科技创新文档进行分句,形成科技创新文档句;然后,利用分词工具对科技创新文档句进行分词,形成科技创新文档语料库;最后,利用词向量训练工具和科技创新文档语料库,对由通用语料预训练的词向量进行更新学习,得到科技创新文档词向量。
8.如权利要求1所述的利用语义特征的科技创新领域中文关键短语抽取方法,其特征在于,所述S3中,候选短语与文档主题之间的语义相似度计算方法如下:
Sim(topic,phrase)=Cosine(Avg(Vec(Cut(Ph(title)))),Vec(Cut(phrase)))
其中,title为科技创新文档标题,phrase为步骤S2构成的候选短语生成器最终输出的候选短语,Ph为步骤S2构成的候选短语生成器,Cut为分词工具,Vec为词向量编码方法,Avg为向量平均值计算方法,Cosine为余弦相似度计算方法,Sim(topic,phrase)为针对一篇文档所得到的候选短语与文档主题之间的语义相似度;
所述候选短语与候选短语之间的语义相似度计算方法如下:
Sim(pharse1,phrase2)=Cosine(Vec(Cut(phrase1)),Vec(Cut(phrase2)))
其中,phrase1和phrase2为候选短语生成器所输出的同一篇文档中的两个候选短语,Sim(pharse1,phrase2)为针对一篇文档所得到的两个候选短语之间的语义相似度;
所述候选短语的语义重要度计算方法如下:
SimGraph=List((phrase1,phrase2,Sim(phrase1,phrase2)))
Imp(phrase)=Get(WeightedPageRank(SimGraph),phrase)
其中,SimGraph为由一篇文档中所有候选短语及其之间的语义相似度所构成的带权全连通图,任意两个候选短语节点之间的边权重为两者的语义相似度,WeightedPageRank为基于权重的PageRank算法,用于计算图中每个短语节点的语义重要度,Get为获取候选短语的语义重要度方法,Imp(phrase)为针对一篇文档中候选短语phrase的语义重要度;
所述候选短语的综合得分计算方法如下:
Figure FDA0003092971290000031
其中,Rake、Sim、Imp分别为所述候选短语的关键程度、所述候选短语与文档主题之间的语义相似度、所述候选短语的语义重要度,Score(phrase)为候选短语phrase的综合得分。
9.如权利要求1所述的利用语义特征的科技创新领域中文关键短语抽取方法,其特征在于,所述科技创新领域文档库不断进行包含新增、更改、删除在内的更新,从而对最终所得到的科技创新领域中文关键短语列表也保持不断更新。
10.一种利用语义特征的科技创新领域中文关键短语抽取系统,其特征在于,包括科技创新领域文档库、候选短语生成器、关键短语库生成器和科技创新领域关键短语库;
所述科技创新领域文档库,用于获取并存储科技创新领域的多种中文文档,且均转换为统一中文编码格式;
所述候选短语生成器包括中文停用词及停用模式库、分句工具、分词及词性标注工具、候选短语抽取工具和短语过滤工具;
所述中文停用词及停用模式库,用于存储符合科技创新领域中文文档特征的中文停用词及停用模式;
所述分句工具,用于对科技创新领域文档库中的文档进行分句;
所述分词及词性标注工具,用于对分句工具分句后的文档句进行分词和词性标注;
所述候选短语抽取工具,用于利用中文停用词及停用模式库进行候选短语的抽取,并针对每个抽取出的候选短语,利用Rake算法计算候选短语的关键程度得分;
所述短语过滤工具,用于对抽取得到的候选短语列表,通过基于科技创新文档统计分析得到的关键短语过滤规则,对候选短语进行过滤筛选,得到初步筛选后的关键短语列表;
所述关键短语库生成器包括中文词向量工具、语义相似度计算工具、语义重要度计算工具和短语综合排名过滤工具;
所述中文词向量工具,用于利用预训练的科技创新文档词向量对科技创新领域文档库中的文档字符进行向量化编码,得到向量化编码文档;
所述语义相似度计算工具,用于针对每一篇科技创新文档,将对应的所述关键短语列表进行向量化编码,然后计算文档与关键短语列表之间的语义相似度,所述语义相似度包括候选短语与文档主题之间的语义相似度以及候选短语与候选短语之间的语义相似度;
所述语义重要度计算工具,用于基于所述语义相似度,利用图网络构建候选短语之间的语义相似度网络,并利用语义网络重要度计算算法得到候选短语的语义重要度,用于表示候选短语在文档中的重要程度;
所述短语综合排名过滤工具,用于对所述候选短语的关键程度得分、所述候选短语与文档主题之间的语义相似度以及所述候选短语的语义重要度进行综合,得到候选短语的综合得分,并以候选短语的综合得分为依据筛选得到科技创新领域的最终中文关键短语列表。
CN202110600989.XA 2021-05-31 2021-05-31 利用语义特征的科技创新领域中文关键短语抽取方法及系统 Active CN113221559B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110600989.XA CN113221559B (zh) 2021-05-31 2021-05-31 利用语义特征的科技创新领域中文关键短语抽取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110600989.XA CN113221559B (zh) 2021-05-31 2021-05-31 利用语义特征的科技创新领域中文关键短语抽取方法及系统

Publications (2)

Publication Number Publication Date
CN113221559A true CN113221559A (zh) 2021-08-06
CN113221559B CN113221559B (zh) 2023-11-03

Family

ID=77082148

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110600989.XA Active CN113221559B (zh) 2021-05-31 2021-05-31 利用语义特征的科技创新领域中文关键短语抽取方法及系统

Country Status (1)

Country Link
CN (1) CN113221559B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113761902A (zh) * 2021-11-10 2021-12-07 中科雨辰科技有限公司 目标关键词提取系统
CN114490941A (zh) * 2022-01-27 2022-05-13 南京烽火天地通信科技有限公司 一种基于预加载权重词性组合的中文关键短语抽取的方法
CN114781379A (zh) * 2022-06-22 2022-07-22 中科雨辰科技有限公司 一种获取关键短语的数据处理系统
CN115114915A (zh) * 2022-05-25 2022-09-27 腾讯科技(深圳)有限公司 短语识别方法、装置、设备和介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001024053A2 (en) * 1999-09-28 2001-04-05 Xmlexpress, Inc. System and method for automatic context creation for electronic documents
CN110472005A (zh) * 2019-06-27 2019-11-19 中山大学 一种无监督关键词提取方法
US20200081909A1 (en) * 2017-05-23 2020-03-12 Huawei Technologies Co., Ltd. Multi-Document Summary Generation Method and Apparatus, and Terminal
CN111694927A (zh) * 2020-05-22 2020-09-22 电子科技大学 一种基于改进词移距离算法的文档自动评阅方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001024053A2 (en) * 1999-09-28 2001-04-05 Xmlexpress, Inc. System and method for automatic context creation for electronic documents
US20200081909A1 (en) * 2017-05-23 2020-03-12 Huawei Technologies Co., Ltd. Multi-Document Summary Generation Method and Apparatus, and Terminal
CN110472005A (zh) * 2019-06-27 2019-11-19 中山大学 一种无监督关键词提取方法
CN111694927A (zh) * 2020-05-22 2020-09-22 电子科技大学 一种基于改进词移距离算法的文档自动评阅方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
谢靖;王敬东;吴振新;张智雄;王颖;叶志飞: "科技文献检索系统语义丰富化框架的设计与实践", 数据分析与知识发现, vol. 1, no. 4 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113761902A (zh) * 2021-11-10 2021-12-07 中科雨辰科技有限公司 目标关键词提取系统
CN113761902B (zh) * 2021-11-10 2022-02-11 中科雨辰科技有限公司 目标关键词提取系统
CN114490941A (zh) * 2022-01-27 2022-05-13 南京烽火天地通信科技有限公司 一种基于预加载权重词性组合的中文关键短语抽取的方法
CN114490941B (zh) * 2022-01-27 2024-04-09 南京烽火天地通信科技有限公司 一种基于预加载权重词性组合的中文关键短语抽取的方法
CN115114915A (zh) * 2022-05-25 2022-09-27 腾讯科技(深圳)有限公司 短语识别方法、装置、设备和介质
CN115114915B (zh) * 2022-05-25 2024-04-12 腾讯科技(深圳)有限公司 短语识别方法、装置、设备和介质
CN114781379A (zh) * 2022-06-22 2022-07-22 中科雨辰科技有限公司 一种获取关键短语的数据处理系统
CN114781379B (zh) * 2022-06-22 2022-09-16 中科雨辰科技有限公司 一种获取关键短语的数据处理系统

Also Published As

Publication number Publication date
CN113221559B (zh) 2023-11-03

Similar Documents

Publication Publication Date Title
CN113221559B (zh) 利用语义特征的科技创新领域中文关键短语抽取方法及系统
CN101079025B (zh) 一种文档相关度计算系统和方法
CN114065758B (zh) 一种基于超图随机游走的文档关键词抽取方法
CN114020768A (zh) 中文自然语言的sql语句生成模型的构建方法及应用
EP3483747A1 (en) Preserving and processing ambiguity in natural language
WO2018056423A1 (ja) シナリオパッセージ分類器、シナリオ分類器、及びそのためのコンピュータプログラム
Zu et al. Resume information extraction with a novel text block segmentation algorithm
CN111949774A (zh) 一种智能问答方法和系统
KR100847376B1 (ko) 질의어 자동 추출을 이용한 검색 방법 및 장치
CN113312922B (zh) 一种改进的篇章级三元组信息抽取方法
WO2020074786A1 (en) System for searching natural language documents
WO2020074788A1 (en) Method of training a natural language search system, search system and corresponding use
Jain et al. Context sensitive text summarization using k means clustering algorithm
JPH0816620A (ja) データ分類装置/方法、データ分類木生成装置/方法、派生語抽出装置/方法、シソーラス構築装置/方法、データ処理システム
CN109815497B (zh) 基于句法依存的人物属性抽取方法
Aejas et al. Named entity recognition for cultural heritage preservation
Li et al. Chinese frame identification using t-crf model
Tohalino et al. Using virtual edges to extract keywords from texts modeled as complex networks
Shrawankar et al. Construction of news headline from detailed news article
Jafar Tafreshi et al. A novel approach to conditional random field-based named entity recognition using Persian specific features
Das et al. Analysis of Bangla transformation of sentences using machine learning
Rabin et al. Development of the algorithm for graphematic analysis and isolating of semantically significant constructions in poorly structured text
Gholami-Dastgerdi et al. Part of speech tagging using part of speech sequence graph
Shahade et al. Deep learning approach-based hybrid fine-tuned Smith algorithm with Adam optimiser for multilingual opinion mining
Ariffin et al. Improved POS Tagging Model for Malay Twitter Data based on Machine Learning Algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant