CN105975475A - 基于中文短语串的细粒度主题信息抽取方法 - Google Patents

基于中文短语串的细粒度主题信息抽取方法 Download PDF

Info

Publication number
CN105975475A
CN105975475A CN201610207374.XA CN201610207374A CN105975475A CN 105975475 A CN105975475 A CN 105975475A CN 201610207374 A CN201610207374 A CN 201610207374A CN 105975475 A CN105975475 A CN 105975475A
Authority
CN
China
Prior art keywords
word
adv
phrase
adj
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610207374.XA
Other languages
English (en)
Inventor
黄翰
丁东辉
林伟佳
郝志峰
杨晓伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201610207374.XA priority Critical patent/CN105975475A/zh
Publication of CN105975475A publication Critical patent/CN105975475A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出了一种基于中文短语串的细粒度主题信息抽取方法,首先对输入的原始文本集进行预处理,主要分为中文分词、停用词处理和词性标注。在进行预处理的同时,进行扩展词汇输入,从而提高中文分词的准确度。预处理阶段完成后,得到处理后的结构化文本集合。然后进行基于词性的正则表达式匹配,得到一个初步的短语筛选结果。然后统计每个词语的串频信息,选取种子词,对短语进行扩展,最终得到短语抽取结果。通过实验证明,该文本抽取方法能够有效且精炼地抽取文本短语,具有一定的可靠性和应用性。

Description

基于中文短语串的细粒度主题信息抽取方法
技术领域
本发明一般涉及文本挖掘领域,具体涉及基于中文短语串的细粒度主题信息抽取方法。
背景技术
随着互联网时代的不断发展,信息呈现爆炸式的增长。近几年,“大数据”和云计算技术一直被炒得很热,也在一些领域中得到了不同的应用。本方法是基于中文短语串的主题信息抽取,属于文本挖掘技术。在信息爆炸的时代,人们被动地接受大量的无效信息,如电子邮件、广告以及互联网上的虚假消息等,浪费了人们大量的时间和精力。虽然搜索引擎在一定程度上能够帮助人们获取到特定的信息,但还是不能更深入地挖掘出背后隐藏的有用信息。故人们迫切地需要在网络中搜索到精确的信息,提供更全面的网络话题挖掘服务。从而人们在知道网络所覆盖主题的一般性描述的同时,也能够学习其他人的评价和讨论话题的具体细节。
由于中文文字的复杂性和缺乏对中文文本挖掘技术的研究,导致国内的文本挖掘技术发展比较晚。主要分为两类:一是基于词语规则的方法基于词语规则方法本质是总结并分析不同词语之间相互关系来进行规则归纳,并对待处理文本执行后续工作;二是基于文本语义的规则方法,基于语义方法本质是搜索通用知识库来进行文本语义信息的抽取。
发明内容
本发明以文本短语为基本语义信息单位,针对中文短语抽取进行研究。本发明提供了基于中文短语串的细粒度主题信息抽取方法。本发明的目的在于通过提供的文本集合,能够有效地挖掘和提炼出里面潜在的信息,从而提供决策支持。
本发明的目的通过如下技术方案实现。
一种基于中文短语串的细粒度主题信息抽取方法,其包括以下步骤:
(a)对原始文本进行常规的文本分析的预处理步骤,包括中文分词、停用词处理和词性标注;
(b)针对语料中存在的大量专有名词引入另外的扩展词库来进行处理,从而得到结构化的文本集合;
(c)利用步骤(a,b)中得到的结构化文本集合,进行基于词性长度的正则表达式匹配,以7个词语作为短语长度的上限;
(d)利用步骤(c)过滤得到的短语抽取的中间结果,进行词语串频信息统计,包括前缀短语串频集合和后缀短语串频集合的信息统计;
(e)基于步骤(d)统计得到的信息进行词语串频信息参数分析;
基于步骤(e)进行候选种子词选取与短语扩展向前进行短语扩展和向后进行短语扩展。
进一步地,在文本预处理阶段,对原始文本进行处理的步骤主要是中文分词、停用词处理和词性标注。由于中文的词与词之间不像英文那样有固定的间隔符,所以对原始文本第一步操作是中文分词和停用词处理,本文使用的是基于词库的分词算法,正向最大匹配、逆向匹配和逐词遍历匹配法。在进行预处理的同时,由于大量专有名词主体的存在,本文引入额外的扩展词库,为了提高中文分词的准确度和精密度,扩展词库需要不断地更新维护。之后进行词性标注,主要分为四种词性,名词n、动词v、形容词adj和副词adv。
进一步地,通过对搜狗语料库的新闻文章进行调查,主要的中文短语含词的数目在4个和5个,90%以上的中文短语含词数目不超过7个,故本方法的上限为7个词。对其中的语料短语进行结构上的分析,短语的词性包括4种词性:名词n,动词v,形容词adj和副词adv。参考目前中文语法范畴,主要分为以下四种类型的短语:
(1)并列短语:n+n/v+v/adj+adj/adv+adv
(2)偏正短语:adj+n/adv+adj/adv+v
(3)动宾短语:v+n/v+v/v+adj
(4)主谓结构:n+v/n+adj
正则表达式(Regular Expressions)的本质核心是通过语法格式匹配字符,现在已经是公认的ISO标准,且被广泛地应用到各种信息技术领域。许多计算机应用平台和脚本语言现在都已经支持正则表达式。根据中文短语7个词最长匹配原则,下面将列举按照词性有效长度的词性短语组成的正则表达式:
a.1种词性有效长度的短语
(1)n+
b.2个词性有效长度的短语
(1)n+adv*v+
(2)v+adv*v+
(3)n+adv*adj+
(4)v+adj*n+
(5)adj+n+
c.3个词性有效长度的短语
(1)n+adv*v+adj*n+
(2)n+adv*v+adv*adj+
(3)adj+n+adv*v+
(4)adj+n+adv*adj+
(5)adv+adj+n+
(6)adv+v+adv*v+
(7)adv+v+adj*n+
d.4个词性有效长度的短语
(1)n+adv*v+adv*adj+
(2)adj+n+adv*v+adj*n+
(3)adj+n+adv*v+adv*adj+
(4)adv+adj+n+adv*adj+
(5)adv+adj+n+adv*v+
e.5个词性有效长度的词语
(1)adv+adj+n+adv*v+adv*adj+
(2)adv+adj+n+adv*v+adj*n+
以上基本包含了7个词语长度以下5个词性有效长度以下的短语结构的组成方式。
进一步地,步骤(d)中,词语串频信息包括前缀词语串频集合和后缀词语串频集合。前缀词语串频集合是指候选种子词的前缀词语所组成的集合,包括前缀词语的词语内容以及出现频次。同理后缀词语串频集合是指候选种子词的后缀词语所组成的集合,也包括后缀词语的词语内容以及出现频次。本方法用数学集合进行表示,对于某一种子词t,前缀词语串频集合pre_s(prefix‐set)定义如下:
pre_st={(ew1,ef1),(ew2,ef2),...,(ewn,efn)}
其中(ewi,efi)表示第i个前缀词ewi和第i个前缀词ewi出现的频次efi。类似地后缀词语串频集合post‐set(postfix‐set)定义如下:
post_st={(ow1,of1),(ow2,of2),…(own,ofn)}
其中(owj,ofj)表示第j个前缀词owj和第j个前缀词owj出现的频次ofj
对于种子词,最频繁前缀词是前缀词语集合中频次最高的前缀词max_ewt,而最频繁后缀词是后缀词语集合中频次最高的后缀词max_owt。其定义分别如下,k、l分别表示频数最大的前缀词和后缀词的下标:
max _ ew t = { ew k | ef k = m a x 1 ≤ i ≤ n ( ef i ) }
max _ ow t = { ow l | of l = m a x 1 ≤ j ≤ n ( of i ) }
前缀词最高频比max_p_freqt是最频繁前缀词的频次比上所有前缀词频次求和。
max _ e _ freq t = max _ ew t Σ 1 ≤ i ≤ n ( ef i )
后缀词最高频比max_s_freqt是最频繁后缀词的频次比上所有后缀词频次求和。
max _ o _ freq t = max _ ow t Σ 1 ≤ j ≤ n ( of j )
进一步地,步骤(e)中,前缀词语串频集合pre_s和后缀词语串频集合pos_s代表了种子词在上下文中出现的信息。pre_s和post_s的集合越大,表示该种子词与其他词语进行组合的概率越大,从而进行对词语的扩展。通过对文档分析,pre_s和post_s中每个前缀词语和后缀词语相对应的频次ef和of大小决定了对应的前缀词语或后缀词语能否会成为种子词的扩展。通过定义一个阈值(threshold)ftrh与ef和of进行比较,当ef和of的值大于等于阈值ftrh,则判断前缀或后缀词语符合短语扩展的条件从而能够进行短语扩展。假设bi,t为布尔变量表示某个前缀或后缀词语能否作为种子词t的扩展词来来进行短语扩展,那么定义
b i , t = 1 , e f i &GreaterEqual; f t r h 0 , ef i < f t r h
b j , t = 1 , o j i &GreaterEqual; f t r h 0 , of j < f t r h
进一步地,步骤(f)中,基于对种子词的分析,可以得出pre_s和post_set的集合越大越容易成为种子词。但是单纯计算pre_s和post_s的集合元素的个数进行求和是有所欠缺的。在选择候选种子词上,仿照笛卡尔乘积的思想,对pre_s和post_s集合中元素的个数分别加上1,再计算乘积作为判断依据,用seed_value来表示:
seed_valuet=(|pre_si|+1)·(|post_si|+1)
之所以对两个乘数加上1,主要是考虑到避免某些词语的pre_s或者post_s元素个数为0从而导致其的值为0,然而实际上该词语在进行选取候选种子词时依然有其自身贡献度。
假设seed_word是用于扩展所选择的候选种子词,{t1,t2,…tn}是短语中的词语集合,k为最大种子词的下标,m为最大种子词的下标,那么
s e e d _ w o r d = { t m | s e e d _ value k = m a x 1 &le; i &le; n { s e e d _ value i } }
在选取候选种子词后,进行前缀短语扩展和后缀短语扩展。在扩展的过程中,终止短语扩展的条件是,达到短语扩展终止条件或者当找不到新的前缀词或者后缀词作为新的种子词。
与现有技术相比,本发明具有如下优点和技术效果:
本发明考虑使用的是较低层次的短语作为语义单元。中文短语串相对于句子而言也有类似的语法结构(主谓结构、动宾结构等等),为了满足最基本的语义要求。中文的句子短语串相对来说处于低层次的词汇水平,并且在词汇短语之间能够搭配表达的信息远远多出纯粹词汇之间拼凑出的信息。目前在表示文本特征的步骤中,词汇仅仅只是以一个标签的属性值的形式存在,词汇本身并没有为特征表示提供更多的语义信息。本方法不需要对语料样本进行词性语义模型的建立和知识库输入,通用性相对更强,具有比较好的短语抽取效果。
附图说明
图1为基于种子词“股市”的前缀词语串频集合和后缀词语串频集合示意图。
具体实施方式
以下结合实施例对本发明的实施方式作进一步说明,但本发明的实施不限于此。
下面是针对中国经济在网络上进行搜索,摘录了一些句子文本集合进行举例说明,进行接下来步骤的实施。
(1)全球经济贸易增长乏力,原因是2008年以来的国际经济危机还没有完全退出,它的影响还在。
(2)因全随着中国经济总量成为世界第二,很多大国对中国有了一些防范心理,周边国家也对中国有些芥蒂。
(3)中国进入中等收入阶段,贫富差距仍然比较大,社会矛盾一部分在加剧,老百姓对权利的诉求在增加。
(4)资源越来越短缺,环境污染的压力仍然很大。大气、水、土壤,这些污染的增量控制可以有所成效,但是已经污染了的存量部分的解决还需要时间。
(5)作为世界第二大经济体,中国经济走势受到大家关注,中国经济的一举一动与世界经济的关联度可谓与日俱增。
(6)目前资本市场的改革和发展还不能完全适应国民经济健康稳定发展的需要,也不能完全支持国家经济金融安全的需要。随着全面深化改革的持续推进,资本市场的深改也将提速,以实现与经济“新常态”相匹配。
(7)目前我国经济发展处于工业化中后期,虽然近年来消费在经济增加值中所占比重越来越大,但是以制造业为核心的实体经济仍然是我国经济的主体。
(8)在“十三五”规划期间,稳健增长的中国经济将为亚太经济带来新的活力。
(9)只有通过股市融资,才能“提高直接融资比重,降低杠杆率”,也才能有效化解过剩产能,让那些有创新活力的企业,主要通过股权融资做优、做强、做大。股市,特别是加快股票融资,肩负着经济转型产业升级的重任。
(10)中国经济增长需要进一步推进改革,更多取决于结构改革。
第一步,进行文本预处理,中文分词、停用词处理和词性标注,得到一个结构化的文本集合。
第二步,进行基于词性的正则表达式的匹配,主要有以下4中词性(名词n,动词v,形容词adj,和副词adv)的正则表达式匹配,最高词长度为7。
短语抽取结果有:“全球经济贸易增长乏力”、“国际经济危机”、“中国经济总量”、“中国经济走势”、“世界第二大经济体”、“适应国民经济健康稳定发展的需要”、“稳健增长的中国经济”、“经济转型产业升级的重任”、“国家经济金融安全”、“消费在经济增加值中所占比重越来越大”、“世界经济的关联度可谓与日俱增”等。
第三步,对上述文本集合进行词语串频信息统计。按公式计算出的候选种子词“股市”的词语串频信息如下:
前缀词语串频集合pre_s:{(中国,5),(国际,2),(全球,1),(世界,1),(实体,1)}
最频繁前缀词语max_ewt:中国
前缀词最高频比max_e_freq:
后缀词语串频集合post_s:{(增长,3),(发展,2),(稳定,2),(危机,1),(转型,1),(升级,1)}
最频繁后缀词语max_ow:增长
后缀词最高频比max_s_freq:
基于种子词“经济”的前缀词语串频集合和后缀词语串频集合见说明书附图1所示。
第四步,对词语串频信息参数进行分析。
定义一个阈值ftrh来与ef和of进行对比,当ef和of的值大于等于阈值ftrh,则判断前缀词语或者后缀词语满足短语扩展条件从而进行短语扩展。根据ftrh的公式计算,当ftrh=2时,那么“经济”作为其种子词将会在文本中扩展为“中国经济”和“世界经济”,“经济增长”,“经济发展”,“经济稳定”,“中国经济发展”和“世界经济发展”。
从实例中可以看到,通过本方法抽取出的中文短语串较好地表达了这些文档的文本特征,也直观的反映了文本的语义信息,有助于对中文自然语言的处理提供指导性的意见。

Claims (5)

1.一种基于中文短语串的细粒度主题信息抽取方法,其特征在于,包括以下步骤:
(a)对原始文本进行常规的文本分析的预处理步骤,包括中文分词、停用词处理和词性标注;
(b)针对语料中存在的大量专有名词引入另外的扩展词库来进行处理,从而得到结构化的文本集合;
(c)利用步骤(a),(b)中得到的结构化文本集合,进行基于词性长度的正则表达式匹配,以7个词语作为短语长度的上限;
(d)利用步骤(c)过滤得到的短语抽取的中间结果,进行词语串频信息统计,包括前缀短语串频集合和后缀短语串频集合的信息统计;
(e)基于步骤(d)统计得到的信息进行词语串频信息参数分析;
(f)基于步骤(e)进行候选种子词选取与短语扩展向前进行短语扩展和向后进行短语扩展。
2.根据权利要求1所述基于中文短语串的细粒度主题信息抽取方法,其特征在于:步骤(c)中分析结构化文本集合其中的语料短语的结构,主要是4种词性的词语:动词v,名词n,形容词adj和副词adv;参考目前中文语法范畴,主要分为以下四种类型的短语:
(1)并列短语:n+n/v+v/adj+adj/adv+adv
(2)偏正短语:adj+n/adv+adj/adv+v
(3)动宾短语:v+n/v+v/v+adj
(4)主谓结构:n+v/n+adj;
基于中文短语以7个字为上限的长度,对词性长度进行统计,主要分为:
a.1种词性有效长度的短语
(1)n+
b.2个词性有效长度的短语
(1)n+adv*v+
(2)v+adv*v+
(3)n+adv*adj+
(4)v+adj*n+
(5)adj+n+
c.3个词性有效长度的短语
(1)n+adv*v+adj*n+
(2)n+adv*v+adv*adj+
(3)adj+n+adv*v+
(4)adj+n+adv*adj+
(5)adv+adj+n+
(6)adv+v+adv*v+
(7)adv+v+adj*n+
d.4个词性有效长度的短语
(1)n+adv*v+adv*adj+
(2)adj+n+adv*v+adj*n+
(3)adj+n+adv*v+adv*adj+
(4)adv+adj+n+adv*adj+
(5)adv+adj+n+adv*v+
e.5个词性有效长度的词语
(1)adv+adj+n+adv*v+adv*adj+
(2)adv+adj+n+adv*v+adj*n+。
3.根据权利要求1所述基于中文短语串的细粒度主题信息抽取方法,其特征在于:步骤(d)中,前缀词语串频和后缀词语串频集合指的是候选种子词的前缀词语、后缀短语所组成的集合,包含了词语的出现频次和内容;对于某一种子词t,用数学集合进行表示,前缀词语串频集合缩写pre_st定义如下:
pre_st={(ew1,ef1),(ew2,ef2),...,(ewn,efn)}
其中(ewi,efi)是第i个前缀词ewi,efi是前缀词ewi出现的频次,n表示前缀词总的个数;同理,后缀词语串频集合(postfix‐set)定义如下:
post_st={(ow1,of1),(ow2,of2),...,(own,ofn)}
其中(ewj,efj)是第j个后缀词,ofj是第j个后缀词owj出现的频次;对于种子词t,最频繁前缀词是前缀词语集合中频次最高的前缀词max_ewt,而最频繁后缀词是后缀词语集合中频次最高的后缀词max_owt;其定义分别如下,k、l分别表示频数最大的前缀词和后缀词的下标:
前缀词最高频次比max_e_freqt是最频繁前缀词的频次比上所有前缀词频次的和;后缀词最高频次比max_o_freqt是最频繁后缀词的频次比上所有后缀词频次的和,
4.根据权利要求1所述基于中文短语串的细粒度主题信息抽取方法,其特征在于:步骤(e)中,前缀词语串频集合pre_s和后缀词语串频集合pos_s代表了种子词在上下文中出现的信息;pre_s和post_s的集合越大,表示该种子词与其他词语进行组合的概率越大,从而进行对词语的扩展;通过对文档分析,pre_s和post_s中每个前缀词语和后缀词语相对应的频次ef和of大小决定了对应的前缀词语或后缀词语能否会成为种子词的扩展;通过定义一个阈值ftrh与ef和of进行比较,当ef和of的值大于等于阈值ftrh,则判断前缀或后缀词语符合短语扩展的条件从而能够进行短语扩展;假设bi,t为布尔变量表示某个前缀或后缀词语能否作为种子词t的扩展词来来进行短语扩展,那么定义
5.根据权利要求4所述基于中文短语串的细粒度主题信息抽取方法,其特征在于:基于对种子词的分析,可以得出pre_s和post_set的集合越大越容易成为种子词;但是单纯计算pre_s和post_s的集合元素的个数进行求和是有所欠缺的;在选择候选种子词上,仿照笛卡尔乘积的思想,对pre_s和post_s集合中元素的个数分别加上1,再计算乘积作为判断依据,用seed_value来表示:
seed_valuet=(|pre_si|+1)·(|post_si|+1)
假设seed_word是用于扩展所选择的候选种子词,{t1,t2,…tn}是短语中的词语集合,m为最大种子词的下标,那么
CN201610207374.XA 2016-03-31 2016-03-31 基于中文短语串的细粒度主题信息抽取方法 Pending CN105975475A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610207374.XA CN105975475A (zh) 2016-03-31 2016-03-31 基于中文短语串的细粒度主题信息抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610207374.XA CN105975475A (zh) 2016-03-31 2016-03-31 基于中文短语串的细粒度主题信息抽取方法

Publications (1)

Publication Number Publication Date
CN105975475A true CN105975475A (zh) 2016-09-28

Family

ID=56988886

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610207374.XA Pending CN105975475A (zh) 2016-03-31 2016-03-31 基于中文短语串的细粒度主题信息抽取方法

Country Status (1)

Country Link
CN (1) CN105975475A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106777168A (zh) * 2016-12-21 2017-05-31 深圳中兴网信科技有限公司 数据管理方法及数据管理系统
CN107608949A (zh) * 2017-10-16 2018-01-19 北京神州泰岳软件股份有限公司 一种基于语义模型的文本信息抽取方法及装置
CN107977435A (zh) * 2017-12-04 2018-05-01 北京神州泰岳软件股份有限公司 一种文本信息的预处理方法及装置
CN108009155A (zh) * 2017-12-22 2018-05-08 联想(北京)有限公司 数据处理方法及系统和服务器
CN108460021A (zh) * 2018-03-16 2018-08-28 安徽大学 一种提取论文标题中的问题方法对的方法
CN110427621A (zh) * 2019-07-23 2019-11-08 北京语言大学 一种汉语分类词语提取方法及系统
CN110516237A (zh) * 2019-08-15 2019-11-29 重庆长安汽车股份有限公司 短文本短语提取方法、系统及存储介质
WO2020134008A1 (zh) * 2018-12-27 2020-07-02 中国银联股份有限公司 一种将语义文本数据与标签匹配的方法、装置以及一种储存指令的计算机可读存储介质
CN113177410A (zh) * 2021-05-07 2021-07-27 多点(深圳)数字科技有限公司 一种文本分词方法、装置、存储介质及电子设备
CN116562281A (zh) * 2023-07-07 2023-08-08 中国农业科学院农业信息研究所 一种基于词性标记的领域新词提取方法、系统及设备
CN118313376A (zh) * 2024-06-07 2024-07-09 腾讯科技(深圳)有限公司 文本处理方法、装置、设备、存储介质及产品

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103294689A (zh) * 2012-02-23 2013-09-11 北京云泓道元信息技术有限公司 基于海量数据的社会化人际关系网络生成系统
CN103885934A (zh) * 2014-02-19 2014-06-25 中国专利信息中心 一种专利文献关键短语自动提取方法
CN105159927A (zh) * 2015-08-04 2015-12-16 北京金山安全软件有限公司 目标文本主题词的选取方法、装置及终端

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103294689A (zh) * 2012-02-23 2013-09-11 北京云泓道元信息技术有限公司 基于海量数据的社会化人际关系网络生成系统
CN103885934A (zh) * 2014-02-19 2014-06-25 中国专利信息中心 一种专利文献关键短语自动提取方法
CN105159927A (zh) * 2015-08-04 2015-12-16 北京金山安全软件有限公司 目标文本主题词的选取方法、装置及终端

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
林伟佳: "基于中文短语串的细粒度主题信息抽取及文本聚类算法", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106777168A (zh) * 2016-12-21 2017-05-31 深圳中兴网信科技有限公司 数据管理方法及数据管理系统
CN107608949A (zh) * 2017-10-16 2018-01-19 北京神州泰岳软件股份有限公司 一种基于语义模型的文本信息抽取方法及装置
CN107608949B (zh) * 2017-10-16 2019-04-16 北京神州泰岳软件股份有限公司 一种基于语义模型的文本信息抽取方法及装置
CN107977435B (zh) * 2017-12-04 2020-05-22 中科鼎富(北京)科技发展有限公司 一种文本信息的预处理方法及装置
CN107977435A (zh) * 2017-12-04 2018-05-01 北京神州泰岳软件股份有限公司 一种文本信息的预处理方法及装置
CN108009155A (zh) * 2017-12-22 2018-05-08 联想(北京)有限公司 数据处理方法及系统和服务器
CN108460021A (zh) * 2018-03-16 2018-08-28 安徽大学 一种提取论文标题中的问题方法对的方法
CN108460021B (zh) * 2018-03-16 2021-10-12 安徽大学 一种提取论文标题中的问题方法对的方法
WO2020134008A1 (zh) * 2018-12-27 2020-07-02 中国银联股份有限公司 一种将语义文本数据与标签匹配的方法、装置以及一种储存指令的计算机可读存储介质
US11586658B2 (en) 2018-12-27 2023-02-21 China Unionpay Co., Ltd. Method and device for matching semantic text data with a tag, and computer-readable storage medium having stored instructions
CN110427621A (zh) * 2019-07-23 2019-11-08 北京语言大学 一种汉语分类词语提取方法及系统
CN110427621B (zh) * 2019-07-23 2020-11-20 北京语言大学 一种汉语分类词语提取方法及系统
CN110516237A (zh) * 2019-08-15 2019-11-29 重庆长安汽车股份有限公司 短文本短语提取方法、系统及存储介质
CN110516237B (zh) * 2019-08-15 2022-12-09 重庆长安汽车股份有限公司 短文本短语提取方法、系统及存储介质
CN113177410A (zh) * 2021-05-07 2021-07-27 多点(深圳)数字科技有限公司 一种文本分词方法、装置、存储介质及电子设备
CN116562281A (zh) * 2023-07-07 2023-08-08 中国农业科学院农业信息研究所 一种基于词性标记的领域新词提取方法、系统及设备
CN118313376A (zh) * 2024-06-07 2024-07-09 腾讯科技(深圳)有限公司 文本处理方法、装置、设备、存储介质及产品
CN118313376B (zh) * 2024-06-07 2024-08-27 腾讯科技(深圳)有限公司 文本处理方法、装置、设备、存储介质及产品

Similar Documents

Publication Publication Date Title
CN105975475A (zh) 基于中文短语串的细粒度主题信息抽取方法
CN110633409B (zh) 一种融合规则与深度学习的汽车新闻事件抽取方法
CN103970729B (zh) 一种基于语义类的多主题提取方法
CN103473280B (zh) 一种网络可比语料的挖掘方法
CN104933027A (zh) 一种利用依存分析的开放式中文实体关系抽取方法
CN107832229A (zh) 一种基于nlp的系统测试用例自动生成方法
CN112183059B (zh) 一种中文结构化事件抽取方法
CN104268197A (zh) 一种行业评论数据细粒度情感分析方法
CN106503049A (zh) 一种基于svm融合多种情感资源的微博情感分类方法
CN104391942A (zh) 基于语义图谱的短文本特征扩展方法
CN103970730A (zh) 一种从单个中文文本中提取多主题词的方法
CN106055623A (zh) 一种跨语言推荐方法和系统
CN113312922B (zh) 一种改进的篇章级三元组信息抽取方法
CN103646112A (zh) 利用了网络搜索的依存句法的领域自适应方法
CN103631858A (zh) 一种科技项目相似度计算方法
CN105095430A (zh) 构建词语网络及抽取关键词的方法和装置
CN112069312B (zh) 一种基于实体识别的文本分类方法及电子装置
CN109086355A (zh) 基于新闻主题词的热点关联关系分析方法及系统
CN106503256B (zh) 一种基于社交网络文档的热点信息挖掘方法
CN106202039B (zh) 基于条件随机场的越南语组合词消歧方法
CN109783819A (zh) 一种正则表达式的生成方法及系统
Wang et al. Mongolian named entity recognition with bidirectional recurrent neural networks
CN101763403A (zh) 面向多语言信息检索系统的查询翻译方法
CN111611404A (zh) 一种基于地质文本语料预测目标区矿产的方法
CN105389303A (zh) 一种异源语料自动融合方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160928