CN106776562B - 一种关键词提取方法和提取系统 - Google Patents

一种关键词提取方法和提取系统 Download PDF

Info

Publication number
CN106776562B
CN106776562B CN201611186254.2A CN201611186254A CN106776562B CN 106776562 B CN106776562 B CN 106776562B CN 201611186254 A CN201611186254 A CN 201611186254A CN 106776562 B CN106776562 B CN 106776562B
Authority
CN
China
Prior art keywords
text
word
vocabulary
speech
text vocabulary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611186254.2A
Other languages
English (en)
Other versions
CN106776562A (zh
Inventor
贾祯
白杨
朱频频
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Xiaoi Robot Technology Co Ltd
Original Assignee
Shanghai Xiaoi Robot Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Xiaoi Robot Technology Co Ltd filed Critical Shanghai Xiaoi Robot Technology Co Ltd
Priority to CN201611186254.2A priority Critical patent/CN106776562B/zh
Publication of CN106776562A publication Critical patent/CN106776562A/zh
Application granted granted Critical
Publication of CN106776562B publication Critical patent/CN106776562B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

一种关键词提取方法和提取系统。本发明的关键词提取方法和提取系统,用于解决无法准确获得正确语义表达的关键词汇的技术问题,包括:对问题文本进行向量化处理,形成包含关键词的向量特征的问题语料;利用BLSTM RNN对问题语料中的关键词进行抽取。

Description

一种关键词提取方法和提取系统
技术领域
本发明涉及自然语言处理方法和系统,特别涉及一种关键词提取方法和提取系统。
背景技术
在对知识库的人工智能构建过程中,需要对以语言为载体的问题进行确定,获取提问问题的具体语义表达的内容含义,即需要准确抽取出用户想要问的最为核心的问题。问题的具体内容通常与问题中具体的关键词汇高度相关。
在现有技术中对语句中的关键词提取通常采用pLSA,LDA,SVD,LSA,TFIDF等技术方案,但各方案在关键词提取上存在缺陷。
TFIDF(词频逆文本频率分析)方案主要适用于区别对文档最有意义的词语,是通过那些在文档中出现频率高、而在整个语料库中的其他文档中出现频率少的词语来实现的。但无法捕捉文档内部与文档间的统计特征,更不能解决同义词/多义词问题,因此精确度不是很高。
LSA(隐性语义分析)与SVD(奇异值分解)方案利用浅语义分析模型,基于奇异值分解技术将一个比较复杂的矩阵转化几个更小、更简单矩阵的乘积,而这些小矩阵描述了矩阵的重要特征,其中的对角线元素为奇异值(特征值的平方根),用于表示这个特征的重要性程度、表示与特征值相关的特征向量组成的矩阵,用于表示有哪些特征,这类方案其实可以看做是文本关键词的一种降维算法,优点是计算速度快,但准确率不是很高。
pLSA(概率潜在语义分析)及LDA(潜在狄利克雷分布文档主题生成模型)方案是基于概率意义下的关键词抽取方法,需要先验给定主题数目,通过算法对语料抽样,统计出文档对应主题的多项分布和主题上的词语的多项分布。
现有技术方案在关键词汇提取过程中不能有效反映出提问问题的词汇间的相互影响对关键词汇的语义含义影响。
发明内容
有鉴于此,本发明实施例提供了一种关键词提取方法和提取系统,用于解决无法准确获得正确语义表达的关键词汇的技术问题。
本发明实施例的关键词提取方法,包括:
对问题文本进行向量化处理,形成包含关键词的向量特征的问题语料;
利用双向长短时效递归神经网络对问题语料中的关键词进行抽取。
本发明实施例的关键词提取系统,包括:
问题语料量化模块,用于对问题文本进行向量化处理,形成包含关键词的向量特征的问题语料;
问题关键词提取模块,用于利用双向长短时效递归神经网络对问题语料中的关键词进行抽取。
本发明实施例的关键词提取方法和系统,利用BLSTM RNN(双向长短时效递归神经网络)对问题语料的上下文隐含含义进行分析以获得问题预料中的正确语义表达的关键词。将在隐语义状态下的上下文信息的状态表达在BLSTM RNN层中得到识别,通过池化层得到这些语义与词性表达的最主要信息,形成关键词信息。问题语料的形成基于词向量和特定的词性特征数据,较好的将词汇的语义和词性相结合,强化了上下文信息与词性信息的隐形含义,完善了语义表达上的关键信息抽取,从而可以更加准确地提取关键词。
附图说明
图1为本发明一实施例一种关键词提取方法的流程示意图。
图2为本发明一实施例一种关键词提取方法中问题文本向量化的流程示意图。
图3为本发明一实施例一种关键词提取方法中利用双向长短时效循环神经网络进行关键词提取的流程示意图。
图4为本发明一实施例一种关键词提取方法中双向长短时效循环神经网络的结构示意图。
图5为本发明一实施例一种关键词提取方法中双向长短时效循环神经网络的记忆模块示意图。
图6为本发明一实施例一种关键词提取系统的架构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图纸中的步骤编号仅用于作为该步骤的附图标记,不表示执行顺序。
图1为本发明关键词提取方法一实施例的流程示意图。如图1所示包括:
步骤100:对问题文本进行向量化处理,形成包含关键词的向量特征的问题语料;
步骤200:利用BLSTM RNN(双向长短时效递归神经网络)对问题语料中的关键词进行抽取。
本实施例的关键词提取方法,将问题文本向量化,在向量化的语料中体现相应语料的频率特征、词性特征、类别特征等语料的隐性或显性特定属性。向量特征数据通过BLSTM RNN进行计算,体现了关键词与上下文的隐性内在联系,可以大幅提高问题文本中具有上下文关联的关键词的提取精度。
本发明一种关键词提取方法一实施例中包括问题文本的词汇特征的量化过程和问题文本的词汇特征的融合过程。
图2为本发明一种关键词提取方法一实施例中问题文本向量化的流程示意图。如图2所示,其中的词汇特征的量化过程包括:
步骤110:将问题文本分割形成语句的文本词汇。
问题文本分割可以包括分句、分词、过滤,分句包括按标点将问题文本进行语句分割,分词包括对语句进行分割形成词汇并保留词汇的顺序,过滤包括消除无效的文本格式,以及消除敏感词汇。
现有技术包括多种分词方法,主要有最大匹配方法和Viterbi(维特比)方法。
最大匹配方法是指以词典为依据,取词典中最长单词为首次扫描串,在词典中进行扫描(为提升扫描效率,还可以根据字数多少设计多个字典,然后根据字数分别从不同字典中进行扫描)。例如:词典中最长词为“中华人民共和国”共7个汉字,则最大匹配起始字数为7个汉字。然后逐字递减,在对应的词典中进行查找。
按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法如下:
1)正向最大匹配法(由左到右的方向);
2)逆向最大匹配法(由右到左的方向);
3)最少切分(使每一句中切出的词数最小)。
还可以将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。
而Viterbi(维特比)方法解决的是HMM(隐马尔科夫模型)经典问题中最优状态序列的选择问题。词性标注问题映射到隐马尔科夫模型可以表述为:模型中状态(词性)的数目为词性符号的个数N;从每个状态可能输出的不同符号(单词)的数目为词汇的个数M。假设在统计意义上每个词性的概率分布只与上一个词的词性有关(即词性的二元语法),而每个单词的概率分布只与其词性相关。
步骤120:将每个语句的文本词汇进行词性标注,形成相应的词性特征数据。
词性是指以词的特点为根据,来划分词类。现代汉语的词可以分为两类12种词性。一类是实词:名词、动词、形容词、数词、量词和代词。一类是虚词:副词、介词、连词、助词、叹词和拟声词。
现有技术中已有较为成熟的词性标注算法,包括HanLP算法和Jieba(结巴)算法,以上两种算法都提供开源的软件包,实际使用中,直接进行调用即可。本发明中,给每个词性分别随机分配一个数值标记,例如将名词、动词、形容词、数词、量词、代词、副词、介词、连词、助词、叹词和拟声词分别分配1、2、3、4、5、6、7、8、9、10、11、12作为各自的(离散)数值标记,那么,本发明中词性数值为3的那些词的词性即为形容词,其他数值标记代表的词性以此类推。
词性特征数据采用二维矩阵形式[词汇样本序号,文本词汇的词性标注],利用离散数值记载每个词性标注。
在本发明一实施例中,具体包括:
获取词性类型表,将词性类型表中的类型离散化为相应的数值;
对每个语句的文本词汇进行标注,标记文本词汇的词性数值;
形成[词汇样本序号,文本词汇的词性数值]的二维矩阵形式的词性特征数据。
步骤130:将每个语句的文本词汇进行命名实体识别标注,形成相应的命名实体识别特征数据。
命名实体可以是人名、机构名、地名以及其他所有以名称为标识的实体,也包括数字、日期、货币、地址、百分比等等。
命名实体识别包括但不限于实体边界识别和确定实体类别。命名实体识别特征数据采用二维矩阵形式[词汇样本序号,文本词汇的命名实体识别标注],利用离散数值记载每个命名实体标注。
在本发明一实施例中,具体包括:
采用以下一种命名实体的标注方法进行标注:
标注方法1:
获取类别词典,将词典类型和词典中的实体离散化为相应的数值;
对每个语句的文本词汇进行标注,标记文本词汇的命名实体数值;
形成[词汇样本序号,文本词汇的命名实体数值]的二维矩阵形式的命名实体特征数据。
标注方法2:
获取类别词典,将词典类型和词典中的实体离散化为相应的数值;
获取词性类型表,将词性类型表中的类型离散化为相应的数值;
根据文本词汇的词性确定命名实体,标记文本词汇的命名实体数值;
形成[词汇样本序号,文本词汇的命名实体数值]的二维矩阵形式的命名实体特征数据。
根据文本词汇的词性确定命名实体,是利用词性特征对文本词汇的位置约束提高命名实体的准确性和标记效率,可以有效识别词性类型表未涵盖的命名实体。
步骤140:利用词频统计,形成文本词汇的统计特征数据。
在词频统计过程中,将文本词汇的词频统计信息进行分桶操作,形成离散区间,词频统计信息通过离散区间进行离散化。统计特征数据采用二维矩阵形式[词汇样本序号,文本词汇的统计特征数据],利用离散数值记载每个统计特征。
本发明为文本词汇加入统计信息。统计信息是指通过数学方法得出一个词出现的频率的大小,通常情况下,词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
可以使用TF-IDF算法来为词加入统计信息,TF-IDF算法的主要思想是:如果词W在一篇文档D中出现的频率高,并且在其他文档中很少出现,则认为词W具有很好的区分能力,适合用来把文档D和其他文章区分开来。得到的统计信息本身就是数值表达,所以不需要像前述的词性标注那样再进行数值化的操作。
在本发明一实施例中,具体包括:
采用以下一种词频(TF)统计:
以问题文本中一个文本词汇的出现次数,和/或该文本词汇在问题文本中的出现次数与所有文本词汇总数的比值作为词频(TF)。
以所有语句数量(问题文本中的所有语句数量为定值)与一个文本词汇在所有语句中的出现次数的对数值作为逆文档频率(IDF)。
以一个文本词汇的词频(TF)与逆文档频率(IDF)的乘积作为该文本词汇的统计特征数据;
形成所有文本词汇的统计特征数据(TF-IDF);
对所有文本词汇的统计特征数据分桶处理,通过形成离散区间,进行离散化。
步骤150:根据文本词汇的特征数据,将文本词汇索引化。
作为一个实施例,可以采用文本词汇的词频特征数据的数值形成文本词汇的索引值。
利用索引值形成相应文本词汇的词汇样本序号,将索引值应用于词性特征数据、命名实体识别特征数据和统计特征数据的二维矩阵的形式。使得通过文本词汇的索引值可以获得任一文本词汇的各特征数据。
在另外一个实施例中,提供词索引关系库,包括了词到索引的映射关系,索引化操作包括:将文本词汇和词索引关系库中的词进行匹配度运算,将匹配度最高的词索引关系库中的词对应的索引作为文本词汇的索引。
此处的索引化过程,为词汇添加了语义信息。通常词索引关系库可以选用例如搜狗词库之类的包含有几乎所有中文词的词库,可以首先随机索引化搜狗词库中的词,为每一个搜狗词库中的词分配一个索引数值,这样就完成了词索引关系库的构建。
随后,将文本中的词汇与词库中的词进行语义匹配度运算,将匹配度最高的词的索引作为文本中的词汇的索引。那么,文本中的相同的词都在词索引关系库中对应了同样的匹配度最高的词,进而拥有相同的索引数值。采用此方法可以使得相同的词拥有相同的索引数值,进而可以认为词的索引数值越接近则语义越接近。也就完成了从语言文字表达语义到数值表达语义的操作。
步骤160:将文本词汇通过向量化训练模型向量化,形成相应的词向量。
文本词汇通过词向量(Word Embedding)技术形成词向量矩阵。
可以采用多维度(例如128维度的)隐语义空间模型进行训练形成。文本词汇的词向量采用三维矩阵形式[文本词汇的索引值,词表序号,词向量维度数据],其中词表序号为隐语义空间模型中的文本词汇的序列号。
在每个文本词汇的词向量维度数据上还可以增加相应的词频的统计特征数据和词性特征数据形成130维度的词向量。
可以将每个文本词汇的词向量维度数据等效为一个长度为128或130维度的一维向量,可以表示为(1,128)或(1,130)。
文本词汇的词向量作为问题语料,与相应的统计特征数据和词性特征数据等特征数据同步输入双向长短时效循环神经网络,最终形成融合了语义,词性,TFIDF值的向量。
本实施例的关键词提取方法,在文本词汇的向量化过程中,利用隐语义空间模型保留了文本词汇间的潜在联系信息,在隐语义空间中可以表示一些人们很难利用观察手段得出的维度表示,进一步将隐语义空间中的维度特征数据与词性特征融合可以得到隐语义状态下词性和词向量的结合表达。形成的词向量的低维度表达方式,可以有效降低运算资源消耗,去除不必要的数据冗余和信息噪声。
图3为本发明一种关键词提取方法一实施例中利用双向长短时效循环神经网络关键词提取的流程示意图。如图3所示,包括:
步骤210:利用问题语料形成BLSTM RNN层的输入层。
BLSTM RNN层可以是由BLSTM节点构成的单层结构,也可以是单层结构叠加形成。为单层结构叠加形成时,底层BLSTM节点的输入对应输入层的相应输出。
BLSTM RNN层的输入层还可以包括与词向量相应的特征数据。
步骤220:利用BLSTM RNN层进行问题语料的向量运算。
步骤230:利用池化层形成BLSTM RNN层的输出层。
BLSTM RNN层为单层结构叠加形成时,顶层BLSTM节点的输出对应池化层的相应输入。
池化层采用Max pooling方法,调整变长度问题文本的长度同一,将不同维度的向量规约到相同的一个维度上。本实施例中可以规约到128维度。通过Max pooling方法对各BLSTM节点的输出向量数据进行最优值提取。
本发明一种关键词提取方法一实施例中还包括:
步骤240:利用SoftMax层连接池化层,形成关键词的分类抽取。
池化层的节点输出连接SoftMax层的相应输入。
SoftMax层通过向量数据的概率分布提取相关的关键词。
为防止SoftMax层连接池化层出现过拟合,本发明一实施例采用BatchNormalization处理或者Dropout处理进行池化层与SoftMax层的连接限制。
本实施例的关键词提取方法将在隐语义状态下的上下文信息的状态表达在BLSTMRNN层中得到识别,通过池化层得到这些语义与词性表达的最主要信息,形成关键词信息。本实施例的关键词提取方法较好的将词汇的语义和词性相结合,优化了上下文信息与词性信息的隐形含义判别,完成了语义表达上的关键信息抽取。
图4为本发明一种关键词提取方法一实施例中双向长短时效循环神经网络的结构示意图。如图4所示,由词向量和词性特征数据形成双向长短时效循环神经网络的输入层,双向长短时效循环神经网络由两层对应的BLSTM节点构成,在双向长短时效循环神经网络的输出端包括顺序连接的池化层和SoftMax层。
图5为本发明一实施例一种关键词提取方法中双向长短时效循环神经网络的记忆模块示意图。如图5所示,it、ft和ot分别为input gate、forget gate和output gate,分别控制每次迭代的输入、遗忘和输出比例;
ht-1表示上一时刻的输出;
c_int:t时刻的输入;
Ct:t时刻的单元状态;
Ct-1:t-1时刻的单元状态;
最终输出t时刻的隐语义空间下的状态ht,而ht又反向输出给上一时刻的Cell,这样就通过双向的LSTM来得到上下文信息。
图6为本发明一实施例的关键词提取系统架构示意图。如图6所示,包括:
问题语料量化模块300,用于对问题文本进行向量化处理,形成包含关键词的向量特征的问题语料;
问题关键词提取模块400,用于利用BLSTM RNN对问题语料中的关键词进行抽取。
在本发明一实施例的关键词提取系统中,问题语料量化模块300包括:
文本分割单元310,用于将问题文本分割形成语句的文本词汇;
词汇词性量化单元320,用于将每个语句的文本词汇进行词性标注,形成相应的词性特征数据;
词汇命名实体量化单元330,用于将每个语句的文本词汇进行命名实体识别标注,形成相应的命名实体识别特征数据;
词汇词频量化单元340,用于利用词频统计,形成文本词汇的统计特征数据;
索引化单元350,用于根据文本词汇的特征数据,将文本词汇索引化;
词汇向量化单元360,用于将文本词汇通过向量化训练模型向量化,生成相应的词向量,形成问题语料。
在本发明一实施例中,文本分割单元310可以包括:
语句分割子单元311,用于按标点将问题文本进行语句分割;
分词子单元312,用于利用最大匹配算法或Viterbi算法进行分词,并保留文本词汇顺序;
过滤子单元313,用于过滤文本词汇的无效文本格式以及消除敏感词汇。
在本发明一实施例中,词汇词性量化单元320可以包括:
词性类型表获取子单元321,用于将词性类型表中的类型离散化为相应的数值;
词性标注子单元322,用于对每个语句的文本词汇进行标注,标记文本词汇的词性数值。
在本发明一实施例中,词汇命名实体量化单元330可以包括:
类别词典获取子单元331,用于将词典类型和词典中的实体离散化为相应的数值;
第一命名实体标记子单元332,用于对每个语句的文本词汇进行标注,标记文本词汇的命名实体数值。
在本发明另一实施例中,词汇命名实体量化单元330可以包括:
类别词典获取子单元331,用于将词典类型和词典中的实体离散化为相应的数值;
第二命名实体标记子单元333,用于获取词性类型表,将词性类型表中的类型离散化为相应的数值;
命名实体特征数据生成子单元334,用于根据文本词汇的词性确定命名实体,标记文本词汇的命名实体数值。
在本发明一实施例中,词汇词频量化单元340可以包括:
词频统计子单元341,用于将文本词汇的词频统计信息进行分桶操作,形成离散区间,词频统计信息通过离散区间进行离散化。
在本发明一实施例中,索引化单元350可以包括:
索引建立子单元351,用于采用文本词汇的词频特征数据的数值进行形成文本词汇的索引值;
索引应用子单元352,用于将索引值作为特征数据的词汇样本序号。
在本发明另一实施例中,索引化单元350可以包括:
词索引关系库子单元353,用于提供词索引关系库,包括词到索引的映射关系;
索引匹配子单元354,用于将所述文本词汇和所述词索引关系库中的词执行匹配度运算,将与所述文本词汇具有最高匹配度的词索引关系库中的词所对应的索引作为所述文本词汇的索引。
在本发明一种关键词提取系统一实施例中,问题关键词提取模块400包括:
神经网络输入层单元410,用于利用问题语料形成BLSTM RNN层的输入层;
神经网络运算单元420,用于利用BLSTM RNN层进行问题语料的向量运算;
神经网络池化单元430,用于利用池化层形成BLSTM RNN层的输出层;
神经网络输出分类单元440,用于利用SoftMax层连接池化层,形成关键词的分类抽取。
本发明实施例中关键词提取系统的具体实现和有益效果可参见关键词提取方法的具体实现和有益效果,在此不再赘述。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换等,均应包含在本发明的保护范围之内。

Claims (18)

1.一种关键词提取方法,其特征在于,包括:
对问题文本进行向量化处理,形成包含词向量和关键词的向量特征的问题语料,所述向量特征包括:频率特征、词性特征和类别特征,所述频率特征、所述词性特征和所述类别特征均为矩阵形式;
利用双向长短时效递归神经网络对所述词向量和所述向量特征进行处理,以实现对所述问题语料中的关键词的抽取,所述频率特征包括统计特征数据,所述词性特征包括词性特征数据,所述类别特征包括命名实体识别特征数据,
其中所述对问题文本进行向量化处理包括:
将问题文本分割形成语句的文本词汇;
将每个语句的文本词汇进行词性标注,形成相应的词性特征数据;
将每个语句的文本词汇进行命名实体识别标注,形成相应的命名实体识别特征数据;
利用词频统计,形成文本词汇的统计特征数据;
根据文本词汇的特征数据,将文本词汇索引化;
将文本词汇通过向量化训练模型向量化,形成相应的词向量,
文本词汇的词向量采用三维矩阵形式[文本词汇的索引值,词表序号,词向量维度数据],其中词表序号为所述向量化训练模型中的文本词汇的序列号。
2.如权利要求1所述的关键词提取方法,其特征在于,所述将问题文本分割形成语句的文本词汇,包括:
按标点将问题文本进行语句分割;
利用最大匹配算法或Viterbi算法进行分词,并保留文本词汇顺序;
过滤文本词汇的无效文本格式以及消除敏感词汇。
3.如权利要求1所述的关键词提取方法,其特征在于,所述将每个语句的文本词汇进行词性标注,形成相应的词性特征数据包括:
将不同的词性分别设置对应的数值;以及
将所述词的词性对应的数值作为所述词的词性标注。
4.如权利要求1所述的关键词提取方法,其特征在于,所述将每个语句的文本词汇进行命名实体识别标注,形成相应的命名实体识别特征数据包括:
获取类别词典,将词典类型和词典中的实体离散化为相应的数值;
对每个语句的文本词汇进行标注,标记文本词汇的命名实体数值。
5.如权利要求1所述的关键词提取方法,其特征在于,所述将每个语句的文本词汇进行命名实体识别标注,形成相应的命名实体识别特征数据包括:
获取类别词典,将词典类型和词典中的实体离散化为相应的数值;
获取词性类型表,将词性类型表中的类型离散化为相应的数值;
根据文本词汇的词性确定命名实体,标记文本词汇的命名实体数值。
6.如权利要求1所述的关键词提取方法,其特征在于,所述利用词频统计,形成文本词汇的统计特征数据包括:
将文本词汇的词频统计信息进行分桶操作,形成离散区间,词频统计信息通过离散区间进行离散化。
7.如权利要求1所述的关键词提取方法,其特征在于,所述根据文本词汇的特征数据,将文本词汇索引化包括:
采用文本词汇的词频特征数据的数值进行形成文本词汇的索引值;
索引值作为词汇样本序号。
8.如权利要求1所述的关键词提取方法,其特征在于,所述根据文本词汇的特征数据,将文本词汇索引化包括:
提供词索引关系库,包括词到索引的映射关系;以及
所述将文本词汇索引化的步骤,进一步包括:
将所述文本词汇和所述词索引关系库中的词执行匹配度运算,将与所述文本词汇具有最高匹配度的词索引关系库中的词所对应的索引作为所述文本词汇的索引。
9.如权利要求1所述的关键词提取方法,其特征在于,所述利用双向长短时效递归神经网络对所述词向量和所述向量特征进行处理,以实现对所述问题语料中的关键词的抽取包括:
利用所述词向量和所述向量特征形成BLSTM RNN层的输入层;
利用BLSTM RNN层进行问题语料的向量运算;
利用池化层形成BLSTM RNN层的输出层;
利用SoftMax层连接池化层,形成关键词的分类抽取。
10.一种关键词提取系统,其特征在于,包括
问题语料量化模块,用于对问题文本进行向量化处理,形成包含词向量和关键词的向量特征的问题语料,其中所述向量特征包括:频率特征、词性特征、类别特征,所述频率特征、所述词性特征和所述类别特征均为矩阵形式;
问题关键词提取模块,用于利用双向长短时效递归神经网络对所述词向量和所述向量特征进行处理,以实现对所述问题语料中的关键词的抽取,所述频率特征包括统计特征数据,所述词性特征包括词性特征数据,所述类别特征包括命名实体识别特征数据,其中所述问题语料量化模块包括:
文本分割单元,用于将问题文本分割形成语句的文本词汇;
词汇词性量化单元,用于将每个语句的文本词汇进行词性标注,形成相应的词性特征数据;
词汇命名实体量化单元,用于将每个语句的文本词汇进行命名实体识别标注,形成相应的命名实体识别特征数据;
词汇词频量化单元,用于利用词频统计,形成文本词汇的统计特征数据;
索引化单元,用于根据文本词汇的特征数据,将文本词汇索引化;
词汇向量化单元,用于将文本词汇通过向量化训练模型向量化,生成相应的词向量,形成问题语料,
文本词汇的词向量采用三维矩阵形式[文本词汇的索引值,词表序号,词向量维度数据],其中词表序号为所述向量化训练模型中的文本词汇的序列号。
11.如权利要求10所述的关键词提取系统,其特征在于,所述问题关键词提取模块包括:
神经网络输入层单元,用于利用所述词向量和所述向量特征形成BLSTM RNN层的输入层;
神经网络运算单元,用于利用BLSTM RNN层进行问题语料的向量运算;
神经网络池化单元,用于利用池化层形成BLSTM RNN层的输出层;
神经网络输出分类单元,用于利用SoftMax层连接池化层,形成关键词的分类抽取。
12.如权利要求11所述的关键词提取系统,其特征在于,所述文本分割单元包括:
语句分割子单元,用于按标点将问题文本进行语句分割;
分词子单元,用于利用最大匹配算法或Viterbi算法进行分词,并保留文本词汇顺序;
过滤子单元,用于过滤文本词汇的无效文本格式以及消除敏感词汇。
13.如权利要求11所述的关键词提取系统,其特征在于,所述词汇词性量化单元包括:
词性类型表获取子单元,用于将词性类型表中的类型离散化为相应的数值;
词性标注子单元,用于对每个语句的文本词汇进行标注,标记文本词汇的词性数值。
14.如权利要求11所述的关键词提取系统,其特征在于,所述词汇命名实体量化单元包括:
类别词典获取子单元,用于将词典类型和词典中的实体离散化为相应的数值;
第一命名实体标记子单元,用于对每个语句的文本词汇进行标注,标记文本词汇的命名实体数值。
15.如权利要求11所述的关键词提取系统,其特征在于,所述词汇命名实体量化单元包括:
类别词典获取子单元,用于将词典类型和词典中的实体离散化为相应的数值;
第二命名实体标记子单元,用于获取词性类型表,将词性类型表中的类型离散化为相应的数值;
命名实体特征数据生成子单元,用于根据文本词汇的词性确定命名实体,标记文本词汇的命名实体数值。
16.如权利要求11所述的关键词提取系统,其特征在于,所述词汇词频量化单元包括:词频统计子单元,用于将文本词汇的词频统计信息进行分桶操作,形成离散区间,词频统计信息通过离散区间进行离散化。
17.如权利要求11所述的关键词提取系统,其特征在于,所述索引化单元包括:
索引建立子单元,用于采用文本词汇的词频特征数据的数值进行形成文本词汇的索引值;
索引应用子单元,用于将索引值作为特征数据的词汇样本序号。
18.如权利要求11所述的关键词提取系统,其特征在于,所述索引化单元包括:
词索引关系库子单元,用于提供词索引关系库,包括词到索引的映射关系;
索引匹配子单元,用于将所述文本词汇和所述词索引关系库中的词执行匹配度运算,将与所述文本词汇具有最高匹配度的词索引关系库中的词所对应的索引作为所述文本词汇的索引。
CN201611186254.2A 2016-12-20 2016-12-20 一种关键词提取方法和提取系统 Active CN106776562B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611186254.2A CN106776562B (zh) 2016-12-20 2016-12-20 一种关键词提取方法和提取系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611186254.2A CN106776562B (zh) 2016-12-20 2016-12-20 一种关键词提取方法和提取系统

Publications (2)

Publication Number Publication Date
CN106776562A CN106776562A (zh) 2017-05-31
CN106776562B true CN106776562B (zh) 2020-07-28

Family

ID=58893663

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611186254.2A Active CN106776562B (zh) 2016-12-20 2016-12-20 一种关键词提取方法和提取系统

Country Status (1)

Country Link
CN (1) CN106776562B (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109388793B (zh) * 2017-08-03 2023-04-07 阿里巴巴集团控股有限公司 实体标注方法、意图识别方法及对应装置、计算机存储介质
CN107423439B (zh) * 2017-08-04 2021-03-02 识因智能科技(北京)有限公司 一种基于lda的中文问题映射方法
CN107943525A (zh) * 2017-11-17 2018-04-20 魏茨怡 一种基于循环神经网络的手机app交互方式
CN110019676A (zh) * 2017-12-01 2019-07-16 北京搜狗科技发展有限公司 一种在查询信息中识别核心词的方法、装置和设备
CN109086303B (zh) * 2018-06-21 2021-09-28 深圳壹账通智能科技有限公司 基于机器阅读理解的智能对话方法、装置、终端
CN109033082B (zh) * 2018-07-19 2022-06-10 深圳创维数字技术有限公司 语义模型的学习训练方法、装置及计算机可读存储介质
CN109388806B (zh) * 2018-10-26 2023-06-27 北京布本智能科技有限公司 一种基于深度学习及遗忘算法的中文分词方法
CN109657127B (zh) * 2018-12-17 2021-04-20 北京百度网讯科技有限公司 一种答案获取方法、装置、服务器及存储介质
CN109858280A (zh) * 2019-01-21 2019-06-07 深圳昂楷科技有限公司 一种基于机器学习的脱敏方法、装置及脱敏设备
CN110008474B (zh) * 2019-04-04 2023-06-02 科大讯飞股份有限公司 一种关键短语确定方法、装置、设备及存储介质
CN110019758B (zh) * 2019-04-11 2021-07-06 北京百度网讯科技有限公司 一种核心要素提取方法、装置及电子设备
CN110674243A (zh) * 2019-07-02 2020-01-10 厦门耐特源码信息科技有限公司 一种基于动态k-均值算法的语料库索引构建方法
CN110705304B (zh) * 2019-08-09 2020-11-06 华南师范大学 一种属性词提取方法
CN111046189A (zh) * 2019-11-27 2020-04-21 广东电网有限责任公司 一种配电网知识图谱模型的建模方法
CN111128173A (zh) * 2019-12-31 2020-05-08 重庆和贯科技有限公司 基于语音识别技术的智能家居语音交互方法
CN111339763B (zh) * 2020-02-26 2022-06-28 四川大学 一种基于多层级神经网络的英文邮件主题生成方法
CN111460797B (zh) * 2020-06-09 2021-01-15 平安国际智慧城市科技股份有限公司 关键字抽取方法、装置、电子设备及可读存储介质
CN112364153A (zh) * 2020-11-10 2021-02-12 中数通信息有限公司 一种基于干扰特征的关键词识别方法及装置
CN112732893B (zh) * 2021-01-13 2024-01-19 上海明略人工智能(集团)有限公司 文本信息的提取方法和装置、存储介质和电子设备
CN113076127B (zh) * 2021-04-25 2023-08-29 南京大学 编程环境下问答内容的提取方法、系统、电子设备及介质
CN113569009B (zh) * 2021-07-23 2024-01-30 北京智慧星光信息技术有限公司 基于文本相关性的文本匹配方法、系统和电子设备
CN114611507A (zh) * 2022-03-10 2022-06-10 北京思源智通科技有限责任公司 一种文本关键词分析方法、系统及计算机可读介质
CN114912440A (zh) * 2022-05-10 2022-08-16 平安科技(深圳)有限公司 文本摘要生成方法、装置、电子设备及可读存储介质
CN117494726B (zh) * 2023-12-29 2024-04-12 成都航空职业技术学院 一种情报关键词提取方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101377777A (zh) * 2007-09-03 2009-03-04 北京百问百答网络技术有限公司 一种自动问答方法和系统
CN104573046A (zh) * 2015-01-20 2015-04-29 成都品果科技有限公司 一种基于词向量的评论分析方法及系统
CN104615589A (zh) * 2015-02-15 2015-05-13 百度在线网络技术(北京)有限公司 训练命名实体识别模型的方法、命名实体识别方法及装置
CN105701084A (zh) * 2015-12-28 2016-06-22 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于互信息的文本分类的特征提取方法
CN106066856A (zh) * 2016-05-24 2016-11-02 北京工商大学 一种基于编辑距离以及词频和词向量的实体关系识别方法
CN106095749A (zh) * 2016-06-03 2016-11-09 杭州量知数据科技有限公司 一种基于深度学习的文本关键词提取方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5754018B2 (ja) * 2011-07-11 2015-07-22 日本電気株式会社 多義語抽出システム、多義語抽出方法、およびプログラム
CN104375989A (zh) * 2014-12-01 2015-02-25 国家电网公司 自然语言文本关键词关联网络构建系统
CN106095758B (zh) * 2016-06-17 2018-12-04 北京理工大学 一种基于词向量模型的文学作品竞猜方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101377777A (zh) * 2007-09-03 2009-03-04 北京百问百答网络技术有限公司 一种自动问答方法和系统
CN104573046A (zh) * 2015-01-20 2015-04-29 成都品果科技有限公司 一种基于词向量的评论分析方法及系统
CN104615589A (zh) * 2015-02-15 2015-05-13 百度在线网络技术(北京)有限公司 训练命名实体识别模型的方法、命名实体识别方法及装置
CN105701084A (zh) * 2015-12-28 2016-06-22 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于互信息的文本分类的特征提取方法
CN106066856A (zh) * 2016-05-24 2016-11-02 北京工商大学 一种基于编辑距离以及词频和词向量的实体关系识别方法
CN106095749A (zh) * 2016-06-03 2016-11-09 杭州量知数据科技有限公司 一种基于深度学习的文本关键词提取方法

Also Published As

Publication number Publication date
CN106776562A (zh) 2017-05-31

Similar Documents

Publication Publication Date Title
CN106776562B (zh) 一种关键词提取方法和提取系统
CN107122413B (zh) 一种基于图模型的关键词提取方法及装置
CN108287822B (zh) 一种中文相似问题生成系统与方法
CN106997382B (zh) 基于大数据的创新创意标签自动标注方法及系统
CN112989834B (zh) 一种基于平格增强线性转换器的命名实体识别方法和系统
CN109190117B (zh) 一种基于词向量的短文本语义相似度计算方法
Justeson et al. Technical terminology: some linguistic properties and an algorithm for identification in text
CN107229610B (zh) 一种情感数据的分析方法及装置
CN106502994B (zh) 一种文本的关键词提取的方法和装置
US8131539B2 (en) Search-based word segmentation method and device for language without word boundary tag
CN106970910B (zh) 一种基于图模型的关键词提取方法及装置
CN113011533A (zh) 文本分类方法、装置、计算机设备和存储介质
CN110263325B (zh) 中文分词系统
CN114254653A (zh) 一种科技项目文本语义抽取与表示分析方法
CN108874896B (zh) 一种基于神经网络和幽默特征的幽默识别方法
CN111061882A (zh) 一种知识图谱构建方法
CN118245564B (zh) 一种支持语义查重查新的特征比对库构建方法及装置
CN114265936A (zh) 一种科技项目文本挖掘的实现方法
CN115169349A (zh) 基于albert的中文电子简历命名实体识别方法
Indhuja et al. Text based language identification system for indian languages following devanagiri script
Varghese et al. Lexical and semantic analysis of sacred texts using machine learning and natural language processing
CN110633468B (zh) 一种关于对象特征提取的信息处理方法及装置
Zhang et al. Dual attention model for citation recommendation with analyses on explainability of attention mechanisms and qualitative experiments
CN114003773A (zh) 一种基于自构建多场景的对话追踪方法
Li et al. Sentiment classification of financial microblogs through automatic text summarization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A Keyword Extraction Method and Extraction System

Effective date of registration: 20231221

Granted publication date: 20200728

Pledgee: Bank of Beijing Limited by Share Ltd. Shanghai branch

Pledgor: SHANGHAI XIAOI ROBOT TECHNOLOGY Co.,Ltd.

Registration number: Y2023980073227