CN108052500B - 一种基于语义分析的文本关键信息提取方法及装置 - Google Patents

一种基于语义分析的文本关键信息提取方法及装置 Download PDF

Info

Publication number
CN108052500B
CN108052500B CN201711332910.XA CN201711332910A CN108052500B CN 108052500 B CN108052500 B CN 108052500B CN 201711332910 A CN201711332910 A CN 201711332910A CN 108052500 B CN108052500 B CN 108052500B
Authority
CN
China
Prior art keywords
adjacent
text
character string
information entropy
character strings
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711332910.XA
Other languages
English (en)
Other versions
CN108052500A (zh
Inventor
任东英
朱瑾鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dataocean Smart Technology Co ltd
Original Assignee
Beijing Dataocean Smart Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dataocean Smart Technology Co ltd filed Critical Beijing Dataocean Smart Technology Co ltd
Priority to CN201711332910.XA priority Critical patent/CN108052500B/zh
Publication of CN108052500A publication Critical patent/CN108052500A/zh
Application granted granted Critical
Publication of CN108052500B publication Critical patent/CN108052500B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Abstract

本发明公开了一种基于语义分析的文本关键信息提取方法及装置,不限制搭配成词的原词语数目,用以发现文本中可表征明确含义的候选字符串,解决了词典依赖及只能提取词语的问题。相对于传统的权重计算方法,通过分析文本特点,发现上下文语义信息丰富度可以反映出字符串表达意图能力的强弱,因此,在字符串权重计算公式中加入外部丰富度影响因子,不仅考虑了字符串本身特点,也考虑了字符串外部上下文的环境,有效地补充了指标体系,提高了结果准确性。

Description

一种基于语义分析的文本关键信息提取方法及装置
技术领域
本公开涉及文本信息提取技术领域,具体涉及一种基于语义分析的文本关键信息提取方法及装置。
背景技术
目前,全球数据量以平均每年50%的增长率呈现爆炸式增长,每个人都置身于信息的海洋,面对如此大量的数据,如何准确、快速地定位真正想要的内容成为人们日益迫切的需求,文本关键信息提取技术应运而生。
传统的文本关键信息提取多为提取关键词,首先依据词典进行文本分词,然后利用TF-IDF方法计算词语权重,取排名靠前的若干个词作为关键词。
现有技术中的方法存在如下弊端:1)词语粒度过小,无法有效表征完整含义;2)强烈依赖于分词词典,而不同领域常用词千差万别,词典维护成本高,准确性及全面性均不能保证;3)权重计算仅从词语本身特点出发,只考虑了词频及文档频率,没有充分考虑词语所在的上下文环境。
发明内容
鉴于上述问题,提出了本公开以便提供一种克服上述问题或者至少部分地解决上述问题的基于语义分析的文本关键信息提取方法及装置。
根据本公开的一个方面,提供了一种基于语义分析的文本关键信息提取方法,其包括:
将待处理文本以字为单位进行分割,形成字串c1,c2,...,ci,ci+1,...,cn,其中,ci表征一个汉字,n为所述文本中汉字总数;
计算相邻的任意两个所述汉字ci,ci+1的点间互信息、左邻信息熵和右邻信息熵;若所述点间互信息、左邻信息熵和右邻信息熵均满足第一预设阈值,则合并两个汉字为一个字符串;
直到无法对所述文本中相邻汉字进行合并为止,所述文本的划分结果为T:t1,t2,...,tk,...,tm,其中,tk为字、词、短语或短句的字符串,m为所述文本中字、词、短语或短句的字符串的总数;
取所述tk中长度大于1且不属于停止词的字、词、短语或短句的字符串,作为候选字符串,计算各个候选字符串的权重;
将所述权重大于第二预设阈值的若干个所述候选字符串作为所述文本的关键信息。
所述计算相邻的任意两个所述汉字ci,ci+1的点间互信息、左邻信息熵和右邻信息熵;若所述点间互信息、左邻信息熵和右邻信息熵均满足第一预设阈值,则合并两个汉字为一个字符串,包括:
计算相邻的任意两个所述字、词、短语或短句的字符串的点间互信息、左邻信息熵和右邻信息熵;若所述点间互信息、左邻信息熵和右邻信息熵均满足预设阈值,则合并两个字、词、短语或短句的字符串为一个字符串。
所述点间互信息、左邻信息熵和右邻信息熵根据如下公式计算:
点间互信息PMI,左邻信息熵LE,右邻信息熵RE,具体公式如下:
Figure GDA0003050776420000021
Figure GDA0003050776420000022
Figure GDA0003050776420000023
其中,P(ci,ci+1)为ci,ci+1共同出现的概率,P(ci)为ci出现的概率,L为ci,ci+1左邻元素的集合,R为ci,ci+1右邻元素的集合。
所述点间互信息、左邻信息熵和右邻信息熵均满足第一预设阈值,包括:
设置预设阈值ε1,ε2,当PMI>ε1且min(LE,RE)>ε2时,即合并两个汉字ci,ci+1为一个字符串;所述PMI为点间互信息,LE为左邻信息熵,RE为右邻信息熵。
所述计算各个候选字符串权重,包括:
针对文本划分结果T:t1,t2,...,tk,...,tm,取长度大于2且出现频率大于设定值f的字符串作为候选字符串;
计算候选字符串tk外部丰富度ec(tk),公式如下:
Figure GDA0003050776420000031
其中,m为所述文本中包含tk的句子数,wi为第i个句子的字符串总数,C为将所有句子中相同字符串进行合并后,得到的互不相同的字符串类型数;
统计计算tk的出现频次tf和逆文档频率idf;
计算候选字符串tk的权重weigth(tk),公式如下:
Figure GDA0003050776420000032
其中:D为文本集合中的文本总数,Dw为包含tk的文本数。
所述针对文本划分结果T:t1,t2,...,tk,...,tm,首先过滤掉其中的停止词。
根据本公开的另一个方面,提供了一种基于语义分析的文本关键信息提取系统,包括:
分割单元,用于将待处理文本以字为单位进行分割,形成字串c1,c2,...,ci,ci+1,...,cn,其中,ci表征一个汉字,n为所述文本中汉字总数;
计算单元,用于计算相邻的任意两个所述汉字ci,ci+1的点间互信息、左邻信息熵和右邻信息熵;若所述点间互信息、左邻信息熵和右邻信息熵均满足第一预设阈值,则合并两个汉字为一个字符串;
合并单元,用于直到无法对所述文本中相邻汉字进行合并为止,所述文本的划分结果为T:t1,t2,...,tk,...,tm,其中,tk为字、词、短语或短句的字符串,m为所述文本中字、词、短语或短句的字符串的总数;
权重计算单元,用于取所述tk中长度大于1且不属于停止词的字、词、短语或短句的字符串,作为候选字符串,计算各个候选字符串的权重;
关键信息提取单元,用于将所述权重大于第二预设阈值的若干个所述候选字符串作为所述文本的关键信息。
所述计算单元,还用于:
计算相邻的任意两个所述字、词、短语或短句的字符串的点间互信息、左邻信息熵和右邻信息熵;若所述点间互信息、左邻信息熵和右邻信息熵均满足预设阈值,则合并两个字、词、短语或短句的字符串为一个字符串。
所述点间互信息、左邻信息熵和右邻信息熵根据如下方式获取:
点间互信息PMI,左邻信息熵LE,右邻信息熵RE,具体计算公式如下:
Figure GDA0003050776420000041
Figure GDA0003050776420000042
Figure GDA0003050776420000043
其中,P(ci,ci+1)为ci,ci+1共同出现的概率,P(ci)为ci出现的概率,L为ci,ci+1左邻元素的集合,R为ci,ci+1右邻元素的集合。
所述权重计算单元,具体用于:
针对文本划分结果T:t1,t2,...,tk,...,tm,取长度大于2且出现频率大于设定值f的字符串作为候选字符串;
计算候选字符串tk外部丰富度ec(tk),公式如下:
Figure GDA0003050776420000044
其中,m为所述文本中包含tk的句子数,wi为第i个句子的字符串总数,C为将所有句子中相同字符串进行合并后,得到的互不相同的字符串类型数;
统计计算tk的出现频次tf和逆文档频率idf;
计算候选字符串tk的权重weigth(tk),公式如下:
Figure GDA0003050776420000051
其中:D为文本集合中的文本总数,Dw为包含tk的文本数。
根据本公开上述的一个或多个技术方案,其提供了一种基于语义分析的文本关键信息提取的方案,不限制搭配成词的原词语数目,用以发现文本中可表征明确含义的候选字符串(可能是词、短语、短句),解决了词典依赖及只能提取词语的问题;一般而言,字符串单独出现的频次越高,与其它字符串搭配出现的机会越少,则该字符串表达意图的能力越强。因此,在计算候选字符串权重时,考虑其外部的语义信息,增加字符串外部复杂度因子,使权重计算指标体系更加全面,提取效果更加准确。
本公开各个实施例的方案,相对于传统的权重计算方法,通过分析文本特点,发现上下文语义信息丰富度可以反映出字符串表达意图能力的强弱,因此,在字符串权重计算公式中加入外部丰富度影响因子,不仅考虑了字符串本身特点,也考虑了字符串外部上下文的环境,有效地补充了指标体系,提高了结果准确性。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本公开的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本公开一个实施例的基于语义分析的文本关键信息提取方法的流程图;
图2示出了根据本公开一个实施例的基于语义分析的文本关键信息提取装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本申请的方案,不限制搭配成词的原词语数目,用以发现文本中可表征明确含义的候选字符串(可能是词、短语、短句),解决了词典依赖及只能提取词语的问题;一般而言,字符串单独出现的频次越高,与其它字符串搭配出现的机会越少,则该字符串表达意图的能力越强。因此,在计算候选字符串权重时,考虑其外部的语义信息,增加字符串外部复杂度因子ec,使权重计算指标体系更加全面,提取效果更加准确。
实施例一
图1示出了本实施例的基于语义分析的文本关键信息提取方法流程图,参照图1,所述方法可以包括:
步骤11,将待处理文本以汉字为单位进行分割,形成字串c1,c2,...,ci,ci+1,...,cn,其中,ci表征一个汉字,n为所述文本中汉字总数。
为了消除对分词词典的依赖,避免因词典不同导致的结果差异,将文本以字为单位进行分割。这里的字可以是汉字,也可以是英文单词或其它字符,也可以是任何语种的文字单词。本实施例以汉字为例,说明具体的实施方式,并不限定本实施例方案的应用范围。
具体来说,设定文本D,共含有n个汉字,分割后形成文本串c1,c2,...,ci,ci+1,...,cn,其中,ci表征一个汉字,n为所述文本D中汉字总数。
步骤12,计算相邻的任意两个所述汉字ci,ci+1的点间互信息、左邻信息熵和右邻信息熵;若所述点间互信息、左邻信息熵和右邻信息熵均满足第一预设阈值,则合并两个汉字为一个字符串。
计算任意两个相邻汉字ci,ci+1的点间互信息PMI、左邻信息熵LE及右邻信息熵RE。PMI值越大,表明ci与ci+1越经常搭配出现,而非独立出现,则ci与ci+1组成短语的可能性越大,反之则越小;LE与RE值越大,说明ci,ci+1左(右)邻字越丰富,自由运用程度越高,组成短语的可能性越大,反之则越小。三者计算公式如下:
Figure GDA0003050776420000071
Figure GDA0003050776420000072
Figure GDA0003050776420000073
其中,P(ci,ci+1)为ci,ci+1共同出现的概率,P(ci)为ci出现的概率,L为ci,ci+1左邻元素的集合,R为ci,ci+1右邻元素的集合。
当然,这里的ci与ci+1并不限定为汉字字符,还可以是分割之后的字、词、短语或短句的字符串。因为本步骤需要重复执行,直到所有的字符串再无法再次合并为止。
具体的第一预设阈值,可以是设置阈值ε1,ε2,当PMI>ε1且min(LE,RE)>ε2时,即认为ci,ci+1合并后是一个有明确意义的字符串,可以合并。
步骤13,直到无法对所述文本中相邻汉字进行合并为止,所述文本的划分结果为T:t1,t2,...,tk,...,tm,其中,tk为字、词、短语或短句的字符串,m为所述文本中字、词、短语或短句的字符串的总数。
将所有符合条件的字串合并后,形成新的文本串c′1,c′2,...,c′i,c′i+1,...,c′n′,其中,c′i表征一个字或一个词。
针对步骤12产生的文本串,重复步骤12,直到所有相邻字符串间都不能满足要求,不能进行合并为止,最终文档D的划分结果为T:t1,t2,...,tk,...,tm,其中,tk可能为字、词、短语或短句,为了避免引起混淆,统称为字符串。
这里,所有可以合并的字符串都得到了合并,得到的tk应该是具有实际意义的字、词、短语或短句,这些字、词、短语或短句可以作为候选关键词的字符串。
步骤14,取所述tk中长度大于1且不属于停止词的字、词、短语或短句的字符串,作为候选字符串,计算各个候选字符串的权重。
这里的长度大于1,可以是长度大于等于2。针对上述的T,依据停止词典,过滤停止词。
取长度大于2且出现频率大于f的字符串作为候选字符串;以候选字符串tk为例,计算其外部丰富度ec,ec值越大,表明tk的上下文语义信息越不丰富,tk表征意图的能力越强。计算公式如下:
Figure GDA0003050776420000081
其中,M为文本D中包含tk的句子数,wi为第i个句子的字符串总数,C为将所有句子中相同字符串进行合并后,得到的互不相同的字符串类型数。
统计计算tk的出现频次tf,逆文档频率idf。tf越高,表明tk在文本中越被经常提及,重要性越高;idf越高,表明tk出现的文本广泛性越低,即具有较高的区分度。
计算候选字符串tk的权重,公式如下:
Figure GDA0003050776420000082
其中:D为文本集合中的文本总数,Dw为包含tk的文本数。
步骤15,将所述权重大于第二预设阈值的若干个所述候选字符串作为所述文本的关键信息。
按字符串的权重降序排序,根据需要,取排名靠前的若干字符串作为文本的关键信息。
这里的第二预设阈值,根据需要设定,可以随时调整。
本实施例的方案,相对于传统的权重计算方法,通过分析文本特点,发现上下文语义信息丰富度可以反映出字符串表达意图能力的强弱,因此,在字符串权重计算公式中加入外部丰富度影响因子,不仅考虑了字符串本身特点,也考虑了字符串外部上下文的环境,有效地补充了指标体系,提高了结果准确性。
实施例二
如图2所示,其中公开了一种基于语义分析的文本关键信息提取装置,其中,
分割单元21,用于将待处理文本以字为单位进行分割,形成字串c1,c2,...,ci,ci+1,...,cn,其中,ci表征一个汉字,n为所述文本中汉字总数;
计算单元22,用于计算相邻的任意两个所述汉字ci,ci+1的点间互信息、左邻信息熵和右邻信息熵;若所述点间互信息、左邻信息熵和右邻信息熵均满足第一预设阈值,则合并两个汉字为一个字符串;
合并单元23,用于直到无法对所述文本中相邻汉字进行合并为止,所述文本的划分结果为T:t1,t2,...,tk,...,tm,其中,tk为字、词、短语或短句的字符串,m为所述文本中字、词、短语或短句的字符串的总数;
权重计算单元24,用于取所述tk中长度大于1且不属于停止词的字、词、短语或短句的字符串,作为候选字符串,计算各个候选字符串的权重;
关键信息提取单元25,用于将所述权重大于第二预设阈值的若干个所述候选字符串作为所述文本的关键信息。
所述计算单元22,还用于:
计算相邻的任意两个所述字、词、短语或短句的字符串的点间互信息、左邻信息熵和右邻信息熵;若所述点间互信息、左邻信息熵和右邻信息熵均满足预设阈值,则合并两个字、词、短语或短句的字符串为一个字符串。
所述点间互信息、左邻信息熵和右邻信息熵根据如下方式获取:
点间互信息PMI,左邻信息熵LE,右邻信息熵RE,具体计算公式如下:
Figure GDA0003050776420000101
Figure GDA0003050776420000102
Figure GDA0003050776420000103
其中,P(ci,ci+1)为ci,ci+1共同出现的概率,P(ci)为ci出现的概率,L为ci,ci+1左邻元素的集合,R为ci,ci+1右邻元素的集合。
所述权重计算单元24,具体用于:
针对文本划分结果T:t1,t2,...,tk,...,tm,取长度大于2且出现频率大于设定值f的字符串作为候选字符串;
计算候选字符串tk外部丰富度ec(tk),公式如下:
Figure GDA0003050776420000104
其中,m为所述文本中包含tk的句子数,wi为第i个句子的字符串总数,C为将所有句子中相同字符串进行合并后,得到的互不相同的字符串类型数;
统计计算tk的出现频次tf和逆文档频率idf;
计算候选字符串tk的权重weigth(tk),公式如下:
Figure GDA0003050776420000105
其中:D为文本集合中的文本总数,Dw为包含tk的文本数。
根据本公开上述的一个或多个技术方案,不限制搭配成词的原词语数目,用以发现文本中可表征明确含义的候选字符串(可能是词、短语、短句),解决了词典依赖及只能提取词语的问题;一般而言,字符串单独出现的频次越高,与其它字符串搭配出现的机会越少,则该字符串表达意图的能力越强。因此,在计算候选字符串权重时,考虑其外部的语义信息,增加字符串外部复杂度因子,使权重计算指标体系更加全面,提取效果更加准确。
本公开各个实施例的方案,相对于传统的权重计算方法,通过分析文本特点,发现上下文语义信息丰富度可以反映出字符串表达意图能力的强弱,因此,在字符串权重计算公式中加入外部丰富度影响因子,不仅考虑了字符串本身特点,也考虑了字符串外部上下文的环境,有效地补充了指标体系,提高了结果准确性。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本公开的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本公开的示例性实施例的描述中,本公开的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本公开要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本公开的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本公开的范围之内并且形成不同的实施例。例如,在权利要求书中所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本公开的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本公开还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本公开的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本公开进行说明而不是对本公开进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本公开可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。
以上所述仅是本公开的具体实施方式,应当指出的是,对于本领域的普通技术人员来说,在不脱离本公开精神的前提下,可以作出若干改进、修改、和变形,这些改进、修改、和变形都应视为落在本申请的保护范围内。

Claims (8)

1.一种基于语义分析的文本关键信息提取方法,其特征在于,包括:
将待处理文本以汉字为单位进行分割,形成字串c1,c2,...,ci,ci+1,...,cn,其中,ci表征一个汉字,n为所述文本中汉字总数;
计算相邻的任意两个所述汉字ci,ci+1的点间互信息、左邻信息熵和右邻信息熵;若所述点间互信息、左邻信息熵和右邻信息熵均满足第一预设阈值,则合并两个汉字为一个字符串;
直到无法对所述文本中相邻汉字进行合并为止,所述文本的划分结果为T:t1,t2,...,tk,...,tm,其中,tk为字、词、短语或短句的字符串,m为所述文本中字、词、短语或短句的字符串的总数;
取所述tk中长度大于1且不属于停止词的字、词、短语或短句的字符串,作为候选字符串,计算各个候选字符串的权重;
将所述权重大于第二预设阈值的若干个所述候选字符串作为所述文本的关键信息;
所述计算各个候选字符串权重,包括:
针对文本划分结果T:t1,t2,...,tk,...,tm,取长度大于2且出现频率大于设定值f的字符串作为候选字符串;
计算候选字符串tk的外部丰富度ec(tk),公式如下:
Figure FDA0003050776410000011
其中,wi为第i个句子的字符串总数,C为将所有句子中相同字符串进行合并后,得到的互不相同的字符串类型数;
统计计算tk的出现频次tf和逆文档频率idf;
计算候选字符串tk的权重weigth(tk),公式如下:
Figure FDA0003050776410000012
其中:D为文本集合中的文本总数,Dw为包含tk的文本数。
2.如权利要求1所述的方法,其特征在于,所述计算相邻的任意两个所述汉字ci,ci+1的点间互信息、左邻信息熵和右邻信息熵;若所述点间互信息、左邻信息熵和右邻信息熵均满足第一预设阈值,则合并两个汉字为一个字符串,包括:
计算相邻的任意两个所述字、词、短语或短句的字符串的点间互信息、左邻信息熵和右邻信息熵;若所述点间互信息、左邻信息熵和右邻信息熵均满足第一预设阈值,则合并两个字、词、短语或短句的字符串为一个字符串。
3.如权利要求1或2所述的方法,其特征在于,所述点间互信息、左邻信息熵和右邻信息熵根据如下公式计算:
点间互信息PMI,左邻信息熵LE,右邻信息熵RE,具体公式如下:
Figure FDA0003050776410000021
Figure FDA0003050776410000022
Figure FDA0003050776410000023
其中,P(ci,ci+1)为ci,ci+1共同出现的概率,P(ci)为ci出现的概率,L为ci,ci+1左邻元素的集合,R为ci,ci+1右邻元素的集合。
4.如权利要求1所述的方法,其特征在于,所述点间互信息、左邻信息熵和右邻信息熵均满足第一预设阈值,包括:
设置预设阈值ε1,ε2,当PMI>ε1且min(LE,RE)>ε2时,即合并两个汉字ci,ci+1为一个字符串;所述PMI为点间互信息,LE为左邻信息熵,RE为右邻信息熵。
5.如权利要求1所述的方法,其特征在于,所述针对文本划分结果T:t1,t2,...,tk,...,tm,首先过滤掉其中的停止词。
6.一种基于语义分析的文本关键信息提取系统,其特征在于,包括:
分割单元,用于将待处理文本以字为单位进行分割,形成字串c1,c2,...,ci,ci+1,...,cn,其中,ci表征一个汉字,n为所述文本中汉字总数;
计算单元,用于计算相邻的任意两个所述汉字ci,ci+1的点间互信息、左邻信息熵和右邻信息熵;若所述点间互信息、左邻信息熵和右邻信息熵均满足第一预设阈值,则合并两个汉字为一个字符串;
合并单元,用于直到无法对所述文本中相邻汉字进行合并为止,所述文本的划分结果为T:t1,t2,...,tk,...,tm,其中,tk为字、词、短语或短句的字符串,m为所述文本中字、词、短语或短句的字符串的总数;
权重计算单元,用于取所述tk中长度大于1且不属于停止词的字、词、短语或短句的字符串,作为候选字符串,计算各个候选字符串的权重;
关键信息提取单元,用于将所述权重大于第二预设阈值的若干个所述候选字符串作为所述文本的关键信息;
所述权重计算单元,具体用于:
针对文本划分结果T:t1,t2,...,tk,...,tm,取长度大于2且出现频率大于设定值f的字符串作为候选字符串;
计算候选字符串tk的外部丰富度ec(tk),公式如下:
Figure FDA0003050776410000031
其中,wi为第i个句子的字符串总数,C为将所有句子中相同字符串进行合并后,得到的互不相同的字符串类型数;
统计计算tk的出现频次tf和逆文档频率idf;
计算候选字符串tk的权重weigth(tk),公式如下:
Figure FDA0003050776410000032
其中:D为文本集合中的文本总数,Dw为包含tk的文本数。
7.如权利要求6所述的系统,其特征在于,所述计算单元,还用于:
计算相邻的任意两个所述字、词、短语或短句的字符串的点间互信息、左邻信息熵和右邻信息熵;若所述点间互信息、左邻信息熵和右邻信息熵均满足第一预设阈值,则合并两个字、词、短语或短句的字符串为一个字符串。
8.如权利要求6所述的系统,其特征在于,所述点间互信息、左邻信息熵和右邻信息熵根据如下方式获取:
点间互信息PMI,左邻信息熵LE,右邻信息熵RE,具体计算公式如下:
Figure FDA0003050776410000041
Figure FDA0003050776410000042
Figure FDA0003050776410000043
其中,P(ci,ci+1)为ci,ci+1共同出现的概率,P(ci)为ci出现的概率,L为ci,ci+1左邻元素的集合,R为ci,ci+1右邻元素的集合。
CN201711332910.XA 2017-12-13 2017-12-13 一种基于语义分析的文本关键信息提取方法及装置 Active CN108052500B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711332910.XA CN108052500B (zh) 2017-12-13 2017-12-13 一种基于语义分析的文本关键信息提取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711332910.XA CN108052500B (zh) 2017-12-13 2017-12-13 一种基于语义分析的文本关键信息提取方法及装置

Publications (2)

Publication Number Publication Date
CN108052500A CN108052500A (zh) 2018-05-18
CN108052500B true CN108052500B (zh) 2021-06-22

Family

ID=62132738

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711332910.XA Active CN108052500B (zh) 2017-12-13 2017-12-13 一种基于语义分析的文本关键信息提取方法及装置

Country Status (1)

Country Link
CN (1) CN108052500B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108874921A (zh) * 2018-05-30 2018-11-23 广州杰赛科技股份有限公司 提取文本特征词的方法、装置、终端设备及存储介质
CN109064191A (zh) * 2018-07-16 2018-12-21 杭州骑轻尘信息技术有限公司 车源数据解析方法、装置及电子设备
CN111222328B (zh) * 2018-11-26 2023-06-16 百度在线网络技术(北京)有限公司 标签提取方法、装置和电子设备
CN109918658B (zh) * 2019-02-28 2023-04-07 云孚科技(北京)有限公司 一种从文本中获取目标词汇的方法及系统
CN112163421B (zh) * 2020-10-09 2022-05-17 厦门大学 一种基于N-Gram的关键词提取方法
CN114385396B (zh) * 2021-12-27 2023-03-24 华青融天(北京)软件股份有限公司 一种日志解析方法、装置、设备及介质
CN114385792B (zh) * 2022-03-23 2022-06-24 北京零点远景网络科技有限公司 一种工单数据提取词语的方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853284A (zh) * 2010-05-24 2010-10-06 哈尔滨工程大学 面向互联网的有意义串的提取方法及装置
CN104077274A (zh) * 2014-06-13 2014-10-01 清华大学 一种从文档集中抽取热词短语的方法和装置
CN106066866A (zh) * 2016-05-26 2016-11-02 同方知网(北京)技术有限公司 一种英文文献关键短语自动抽取方法与系统
CN107330022A (zh) * 2017-06-21 2017-11-07 腾讯科技(深圳)有限公司 一种获取热点话题的方法及装置
CN107463548A (zh) * 2016-06-02 2017-12-12 阿里巴巴集团控股有限公司 短语挖掘方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101404401B1 (ko) * 2009-01-29 2014-06-05 닛본 덴끼 가부시끼가이샤 특징량 선택 장치
CN102479191B (zh) * 2010-11-22 2014-03-26 阿里巴巴集团控股有限公司 提供多粒度分词结果的方法及其装置
US20170139899A1 (en) * 2015-11-18 2017-05-18 Le Holdings (Beijing) Co., Ltd. Keyword extraction method and electronic device

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853284A (zh) * 2010-05-24 2010-10-06 哈尔滨工程大学 面向互联网的有意义串的提取方法及装置
CN104077274A (zh) * 2014-06-13 2014-10-01 清华大学 一种从文档集中抽取热词短语的方法和装置
CN106066866A (zh) * 2016-05-26 2016-11-02 同方知网(北京)技术有限公司 一种英文文献关键短语自动抽取方法与系统
CN107463548A (zh) * 2016-06-02 2017-12-12 阿里巴巴集团控股有限公司 短语挖掘方法及装置
CN107330022A (zh) * 2017-06-21 2017-11-07 腾讯科技(深圳)有限公司 一种获取热点话题的方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Automatic key term extraction from spoken course lectures using branching entropy and prosodic/sematic features;Yun-Nung Chen等;《IEEE Xplore》;20110124;第265-270页 *
基于词内部结合度和边界自由度的新词发现;李文坤;《计算机应用研究》;20150831;第32卷(第8期);第2302-2304、2342页 *

Also Published As

Publication number Publication date
CN108052500A (zh) 2018-05-18

Similar Documents

Publication Publication Date Title
CN108052500B (zh) 一种基于语义分析的文本关键信息提取方法及装置
Hamidian et al. Rumor identification and belief investigation on twitter
US10346257B2 (en) Method and device for deduplicating web page
US7461056B2 (en) Text mining apparatus and associated methods
WO2015149533A1 (zh) 一种基于网页内容分类进行分词处理的方法和装置
WO2017107566A1 (zh) 基于词向量相似度的检索方法和系统
WO2015196909A1 (zh) 一种分词方法和装置
CN108920633B (zh) 一种论文相似度的检测方法
CN108776709B (zh) 计算机可读存储介质及词典更新方法
US10565253B2 (en) Model generation method, word weighting method, device, apparatus, and computer storage medium
CN102622338A (zh) 一种短文本间语义距离的计算机辅助计算方法
Tan et al. Authorship identification for online text
CN110083832B (zh) 文章转载关系的识别方法、装置、设备及可读存储介质
CN108052509B (zh) 一种文本相似度计算方法、装置及服务器
CN111680152B (zh) 目标文本的摘要提取方法及装置、电子设备、存储介质
Twinandilla et al. Multi-document summarization using k-means and latent dirichlet allocation (lda)–significance sentences
Bashir et al. Automatic Hausa LanguageText Summarization Based on Feature Extraction using Naïve Bayes Model
US10572525B2 (en) Determining an optimized summarizer architecture for a selected task
CN111199151A (zh) 数据处理方法、及数据处理装置
JP6867963B2 (ja) 要約評価装置、方法、プログラム、及び記憶媒体
Sagcan et al. Toponym recognition in social media for estimating the location of events
CN108021595B (zh) 检验知识库三元组的方法及装置
CN109344397B (zh) 文本特征词语的提取方法及装置、存储介质及程序产品
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
Chaibi et al. Topic segmentation for textual document written in arabic language

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant