CN109684642B - 一种结合页面解析规则和nlp文本向量化的摘要提取方法 - Google Patents

一种结合页面解析规则和nlp文本向量化的摘要提取方法 Download PDF

Info

Publication number
CN109684642B
CN109684642B CN201811604934.0A CN201811604934A CN109684642B CN 109684642 B CN109684642 B CN 109684642B CN 201811604934 A CN201811604934 A CN 201811604934A CN 109684642 B CN109684642 B CN 109684642B
Authority
CN
China
Prior art keywords
text
sentences
sentence
language
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811604934.0A
Other languages
English (en)
Other versions
CN109684642A (zh
Inventor
陈玮
刘德彬
孙世通
严开
吴涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Yijin Technology Co ltd
Chongqing Yucun Technology Co ltd
Zhongdian Zhi'an Technology Co ltd
Original Assignee
Chongqing Socialcredits Big Data Technology Co ltd
Chongqing Telecommunication System Integration Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Socialcredits Big Data Technology Co ltd, Chongqing Telecommunication System Integration Co ltd filed Critical Chongqing Socialcredits Big Data Technology Co ltd
Priority to CN201811604934.0A priority Critical patent/CN109684642B/zh
Publication of CN109684642A publication Critical patent/CN109684642A/zh
Application granted granted Critical
Publication of CN109684642B publication Critical patent/CN109684642B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种结合页面解析规则和NLP文本向量化的摘要提取方法,包括以下步骤:S1:运用Readability包对网页类的文本数据的“body”标签内html格式的正文数据进行抽取;S2:获取所述文本语料的文本长度,排除不合格的文本语料;S3:判断所述文本语料的句子数量是否大于阈值;S4:判断能否获取段落小标题语段;S5:定义正则匹配关键词,剔除匹配到正则匹配关键词的文本得到过滤后的文本语料S6:对语段进行合规性判定;S7:训练Word2Vec模型,将所述文本语料拆分成句子,再将句子拆分成词做向量化操作并用EMD求句子相似度,再运用TextRank算法基于句子相似度给予权重并认定权重最高的句子为文本摘要句子。本发明可以对于长篇博客、新闻类的文章可以获取较核心的句子从而快速了解主旨。

Description

一种结合页面解析规则和NLP文本向量化的摘要提取方法
技术领域
本发明涉及自然语言处理技术领域,特别是涉及一种结合页面解析规则和 NLP文本向量化的摘要提取方法。
背景技术
文本摘要的重要性在生活中都能体现,在这个信息和数据爆炸的时代,越 来越多的信息让人们难以在短时间内接收,过滤掉烦琐的文字信息,用几个简 单的句子就能把核心的信息表达出来的方式显得尤为重要,最常见的就是日常 我们经常接触的新闻、微博等。技术应用方面,通过获取的摘要信息,可以拿 来做分类、主旨分析等NLP任务。目前对摘要提取是采用textrank+word2vec 模型对整个文本进行核心句子的抽取,但是,对于长篇文章来说,用word2vec 模型将文本划分为句子,再将句子拆分成词,然后将词向量化并求距离的过程 会有很高的计算复杂度,而且textrank是基于句子的相似度给予的权重,根据实际的抽取结果来看,尤其是对于类似新闻这一类的文本,内容和段落形态各 异,很多干扰性的句子会影响抽取结果。
发明内容
针对上述现有技术的不足,本发明提供了一种结合页面解析规则和NLP文 本向量化的摘要提取方法,快速对类似新闻的多样性文本核心句子进行抽取。
为了解决上述技术问题,本发明采用了如下的技术方案:
一种结合页面解析规则和NLP文本向量化的摘要提取方法,包括以下步骤:
S1:运用Readability包对网页类的文本数据的“body”标签内html格式 的正文数据进行抽取,得到页面正文的文本语料;
S2:获取所述文本语料的文本长度,排除不合格的文本语料,合格的文本 语料进入S3;
S3:判断所述文本语料的句子数量是否大于阈值;若不大于阈值,进入步 骤S7,若大于阈值,进入步骤S4;
S4:判断能否获取段落小标题语段,如果能,获取段落小标题语段后进入 S6;如果不能,进入S5;
S5:定义正则匹配关键词,剔除匹配到正则匹配关键词的文本得到过滤后 的文本语料;对所述过滤后的文本语料取一定长度的首尾段语段进入S6;
S6:对语段进行合规性判定,若语段的合规性符合要求,则认定所述语段 为文本摘要句子;若语段的合规性不符合要求,则返回至步骤S4;
S7:训练Word2Vec模型,将所述文本语料拆分成句子,再将句子拆分成词 做向量化操作并用EMD求句子相似度,再运用TextRank算法基于句子相似度给 予权重并认定权重最高的句子为文本摘要句子。
作为优化,运用python的内置函数的方式来获取步骤S2所述的文本语料 的文本长度,在经过对文本语料的句子做过滤后,排除句子数量小于2或在ascii 编码条件下句子长度不大于45或包含正则匹配关键词的文本语料。
作为优化,步骤S4的具体步骤为在HTML格式的文本中抽取h2、h3、h4、 h5、strong标签,若抽取结果为空则代表没有获取到小标题语段,若不为空,则 将h2、h3、h4、h5、strong标签作为小标题语段并进入步骤S6。
作为优化,步骤S7的具体步骤为将文本划分为句子,采用CBOW与skip-gram 模型和负采样与层次softmax方法的组合将句子拆分成词做向量化,将基于词 向量的句子用EMD求句子的相似度,再运用TextRank算法基于句子相似度给予 权重并认定权重最高的句子为文本摘要句子。
作为优化,步骤S6的合规性判定为:对于能获取小标题的语段,选取语段 段落大于5且不包含正则匹配关键词且带有h2、h3、h4、h5、strong标签的段 落位置不相邻的文本语段;对于不能获取小标题的语段,选取在unicode编码 下长度大于5且不包含正则匹配关键词的文本语料。
作为优化,步骤S3的阈值为28。
本发明的有益效果是:
本发明所述的一种结合页面解析规则和NLP文本向量化的摘要提取方法可 以对于长篇的博客、新闻类的文章可以获取较核心的句子从而快速了解主旨。
附图说明
图1为本发明所述的一种结合页面解析规则和NLP文本向量化的摘要提取 方法的方法流程图。
图2为本发明所述的一种结合页面解析规则和NLP文本向量化的摘要提取 方法的具体实施流程图。
具体实施方式
下面结合附图对本发明作进一步的详细说明。
一种结合页面解析规则和NLP文本向量化的摘要提取方法,包括以下步骤:
S1:运用Readability包对网页类的文本数据的“body”标签内html格式 的正文数据进行抽取,得到页面正文的文本语料。
例如需要提取的正文:
from readability.readability import Document
from scrapy.selector import HtmlXPathSelector
from scrapy.http import HtmlResponse
import urllib
html=urllib.urlopen(url).read()
content_t= html.split(‘<divclass="arti-conrel">‘)[-1].strip().split(‘<div class="clearfix page-n-p-con"‘)[0].strip()
content_t=‘<div class="arti-con rel">‘+content_t
readable_article=Document(content_t).summary()
response=HtmlResponse(url=“,body=readable_article, encoding=‘utf8‘)
hxs=HtmlXPathSelector(response)
html_content=
“.join(hxs.select(‘//text()‘).extract()).strip()
S2:获取所述文本语料的文本长度,排除不合格的文本语料,合格的文本 语料进入S3。运用python的内置函数的方式来获取步骤S2的文本语料的文本 长度,在经过对文本语料的句子做过滤后,排除句子数量小于2或在ascii编码 条件下句子长度不大于45且包含正则匹配关键词的文本语料。判断句子数量是 以句末为句号、问号和叹号为判断标准的,长度是指包括标点符号在内的字数 统计。
S3:判断所述文本语料的句子数量是否大于阈值;若不大于阈值,进入步 骤S7,若大于阈值,进入步骤S4。本实施例中,句子的数量阈值为28。
S4:判断能否获取段落小标题语段,如果能,获取段落小标题语段后进入 S6;如果不能,进入S5。在HTML格式的文本中抽取h2、h3、h4、h5、strong 标签,若抽取结果为空则代表没有获取到小标题语段,若不为空,则将h2、h3、 h4、h5、strong标签作为小标题语段。
例如有文本:
Figure BDA0001923382770000041
Figure BDA0001923382770000051
需要把table标签提取出来,代码如下:
[div/table]
from lxml import etree
div=etree.HTML(html)
table=div.xpath('//div/table')[0]
content=etree.tostring(table,print_pretty=True,method='html'), 也可以采用其他代码来实现提取标签。
S5:定义正则匹配关键词,剔除匹配到正则匹配关键词的文本得到过滤后 的文本语料;对所述过滤后的文本语料取一定长度的首尾段语段进入S6。
正则匹配关键词包括"(作者|备注|来源|编辑|免责声明)[::]+|未经.*(同 意|许可)*.*严禁转载|如需转载.*注明出处|图为|关注.*(微信|同花顺财经)| 保证.*内容.*(虚假记载|真实)|^第[一二三四五六七八九十]+|^[\((]*[\d]+[、 \.]*|^特别说明[::]"。
S6:若语段的合规性符合要求,则认定所述语段为文本摘要句子;若语段 的合规性不符合要求,则返回至步骤S4;
本实施例中,语段的合规性具体判断标准为:对于能获取小标题的语段, 选取语段段落大于5且不包含正则匹配关键词且带有h2、h3、h4、h5、strong 标签的段落位置不相邻的文本语段;对于不能获取小标题的语段,选取在 unicode编码下长度大于5且不包含正则匹配关键词的文本语料。
S7:训练Word2Vec模型,将所述文本语料拆分成句子,再将句子拆分成词 做向量化操作并用EMD求句子相似度,再运用TextRank算法基于句子相似度给 予权重并认定权重最高的句子为文本摘要句子。
本实施例中,步骤S7的具体步骤为将文本划分为句子,采用CBOW与 skip-gram模型和负采样与层次softmax方法的组合将句子拆分成词做向量化, 将基于词向量的句子用EMD求句子的相似度,再运用TextRank算法基于句子相 似度给予权重并认定权重最高的句子为文本摘要句子。
CBOW(Continuous Bag-of-Word Model,CBOW),称为连续词袋模型,是一 个三层神经网络,输入已知上下文输出对下个单词的预测。
CBOW模型的第一层是输入层,输入已知上下文的词向量.中间一层称为线性 隐含层,它将所有输入的词向量累加。
第三层是一棵哈夫曼树,树的的叶节点与语料库中的单词一一对应,而树 的每个非叶节点是一个二分类器(一般是softmax感知机等),树的每个非叶节 点都直接与隐含层相连。
将上下文的词向量输入CBOW模型,由隐含层累加得到中间向量.将中间向 量输入哈夫曼树的根节点,根节点会将其分到左子树或右子树。
每个非叶节点都会对中间向量进行分类,直到达到某个叶节点.该叶节点 对应的单词就是对下个单词的预测。首先根据预料库建立词汇表,词汇表中所 有单词拥有一个随机的词向量.我们从语料库选择一段文本进行训练。将单词W 的上下文的词向量输入CBOW,由隐含层累加,在第三层的哈夫曼树中沿着某个 特定的路径到达某个叶节点,从给出对单词W的预测。训练过程中我们已经知 道了单词W,根据W的哈夫曼编码我们可以确定从根节点到叶节点的正确路径, 也确定了路径上所有分类器应该作出的预测。我们采用梯度下降法调整输入的 词向量,使得实际路径向正确路径靠拢。在训练结束后我们可以从词汇表中得 到每个单词对应的词向量。
skip-gram模型同样是一个三层神经网络,skip-gram模型的结构与CBOW 模型正好相反,skip-gram模型输入某个单词输出对它上下文词向量的预测。输 入一个单词,输出对上下文的预测。Skip-gram的核心同样是一个哈夫曼树,每 一个单词从树根开始到达叶节点可以预测出它上下文中的一个单词。对每个单 词进行N-1次迭代,得到对它上下文中所有单词的预测,根据训练数据调整词 向量得到足够精确的结果。
用EMD求句子的相似度的具体步骤为:
假设有两个包含向量化词的句子P、Q,
P={(P1,wp1),(P2,wp2),(P3,wp3)···,(Pn,wpm)},
Q={(q1,wq1),(q2,wq2),(q3,wq3)···,(qn,wqn)}
pi是句子P的某个向量化词,wpi是向量化词pi的权重,而qj是句子Q的某 个向量化词,wqj是向量化词qj的权重,m、n分别为句子P和句子Q的向量化词 的数量。
定义句子P和句子Q之间的距离矩阵[dij];每一项dij代表pi和qj的距离,[dij] 是个MxN矩阵;
定义pi到qj的流动数量矩阵F=[fij],pi到qj的次数,从而最小化全局的代价 函数:
Figure BDA0001923382770000081
对最小化全局代数函数归一化得到:
Figure BDA0001923382770000082
Figure BDA0001923382770000083
其中,fij≥0;
Figure BDA0001923382770000084
Figure BDA0001923382770000085
再通过TextRank算法基于句子相似度给予权重并认定权重最高的句子为 文本摘要句子。TextRank算法是一种用于文本的基于图的排序算法。通过把文 本分割成若干组成单元(单词、句子)并建立图模型,利用投票机制对文本中的 重要成分进行排序,仅利用单篇文档本身的信息即可实现关键词提取、文摘。
初始时,设置每个句子的重要性为1,通过迭代得到公式如下:
Figure BDA0001923382770000086
计算得到句子权重, 其中,WS(Vi)为文本句子i的重要性(PR值),WS(Vj)为文本句子j的重要 性(PR值),d是阻尼系数,一般设置为0.85,in(Vi)是存在指向文本句子i 的链接的句子集合;Out(Vj)是文本句子j中的链接存在的链接指向的句子的集 合;Wji是文本句子i和文本句子j的相似度,公式等号左边计算的结果是迭代 后文本句子i的PR值,等号右边用到的PR值全是迭代前的。
最终得到权重最高的文本句子就是文本摘要句子。
最后应说明的是:本领域的技术人员可以对本发明进行各种改动和变型而 不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明 权利要求及其等统计数的范围之内,则本发明也意图包含这些改动和变型。

Claims (6)

1.一种结合页面解析规则和NLP文本向量化的摘要提取方法,其特征在于,包括以下步骤:
S1:运用Readability包对网页类的文本数据的“body”标签内html格式的正文数据进行抽取,得到页面正文的文本语料;
S2:获取所述文本语料的文本长度,排除不合格的文本语料,合格的文本语料进入S3;
S3:判断所述文本语料的句子数量是否大于阈值;若不大于阈值,进入步骤S7,若大于阈值,进入步骤S4;
S4:判断能否获取段落小标题语段,如果能,获取段落小标题语段后进入S6;如果不能,进入S5;
S5:定义正则匹配关键词,剔除匹配到正则匹配关键词的文本得到过滤后的文本语料;对所述过滤后的文本语料取一定长度的首尾段语段进入S6;
S6:对语段进行合规性判定,若语段的合规性符合要求,则认定所述语段为文本摘要句子;若语段的合规性不符合要求,则返回至步骤S4;
S7:训练Word2Vec模型,将所述文本语料拆分成句子,再将句子拆分成词做向量化操作并用EMD求句子相似度,再运用TextRank算法基于句子相似度给予权重并认定权重最高的句子为文本摘要句子。
2.根据权利要求1所述的一种结合页面解析规则和NLP文本向量化的摘要提取方法,其特征在于,运用python的内置函数的方式来获取步骤S2所述的文本语料的文本长度,在经过对文本语料的句子做过滤后,排除句子数量小于2或在ascii编码条件下句子长度不大于45或包含正则匹配关键词的文本语料。
3.根据权利要求1所述的一种结合页面解析规则和NLP文本向量化的摘要提取方法,其特征在于,步骤S4的具体步骤为在HTML格式的文本中抽取h2、h3、h4、h5、strong标签,若抽取结果为空则代表没有获取到小标题语段,若不为空,则将h2、h3、h4、h5、strong标签作为小标题语段并进入步骤S6。
4.根据权利要求1所述的一种结合页面解析规则和NLP文本向量化的摘要提取方法,其特征在于,步骤S7的具体步骤为将文本划分为句子,采用CBOW与skip-gram模型和负采样与层次softmax方法的组合将句子拆分成词做向量化,将基于词向量的句子用EMD求句子的相似度,再运用TextRank算法基于句子相似度给予权重并认定权重最高的句子为文本摘要句子。
5.根据权利要求1所述的一种结合页面解析规则和NLP文本向量化的摘要提取方法,其特征在于,步骤S6的合规性判定为:对于能获取小标题的语段,选取语段段落大于5且不包含正则匹配关键词且带有h2、h3、h4、h5、strong标签的段落位置不相邻的文本语段;对于不能获取小标题的语段,选取在unicode编码下长度大于5且不包含正则匹配关键词的文本语料。
6.根据权利要求1所述的一种结合页面解析规则和NLP文本向量化的摘要提取方法,其特征在于,步骤S3的阈值为28。
CN201811604934.0A 2018-12-26 2018-12-26 一种结合页面解析规则和nlp文本向量化的摘要提取方法 Active CN109684642B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811604934.0A CN109684642B (zh) 2018-12-26 2018-12-26 一种结合页面解析规则和nlp文本向量化的摘要提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811604934.0A CN109684642B (zh) 2018-12-26 2018-12-26 一种结合页面解析规则和nlp文本向量化的摘要提取方法

Publications (2)

Publication Number Publication Date
CN109684642A CN109684642A (zh) 2019-04-26
CN109684642B true CN109684642B (zh) 2023-01-13

Family

ID=66189866

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811604934.0A Active CN109684642B (zh) 2018-12-26 2018-12-26 一种结合页面解析规则和nlp文本向量化的摘要提取方法

Country Status (1)

Country Link
CN (1) CN109684642B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110334343B (zh) * 2019-06-12 2023-07-11 创新先进技术有限公司 一种合同中个人隐私信息抽取的方法和系统
CN110489543B (zh) * 2019-08-14 2020-09-15 北京金堤科技有限公司 一种新闻摘要的提取方法及装置
CN110597981B (zh) * 2019-09-16 2021-07-20 西华大学 一种采用多策略自动生成摘要的网络新闻概要系统
CN111128323A (zh) * 2019-12-18 2020-05-08 中电云脑(天津)科技有限公司 医疗电子病例的标注方法、装置、设备及存储介质
CN111241268B (zh) * 2020-01-21 2023-04-14 上海七印信息科技有限公司 一种文本摘要自动生成方法
CN111767391B (zh) * 2020-03-27 2024-04-16 北京沃东天骏信息技术有限公司 目标文本生成方法、装置、计算机系统和介质
CN112765940B (zh) * 2021-01-20 2024-04-19 南京万得资讯科技有限公司 一种基于主题特征和内容语义的网页去重方法
CN112711942A (zh) * 2021-03-29 2021-04-27 贝壳找房(北京)科技有限公司 房源标题生成模型的训练方法、生成方法、装置以及设备
CN113076734B (zh) * 2021-04-15 2023-01-20 云南电网有限责任公司电力科学研究院 一种项目文本的相似度检测方法及装置
CN116306574B (zh) * 2023-04-10 2024-01-09 乌鲁木齐汇智兴业信息科技有限公司 应用于智慧风控任务分析的大数据挖掘方法及服务器

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003150614A (ja) * 2001-11-16 2003-05-23 Nippon Telegr & Teleph Corp <Ntt> テキスト要約方法及び装置及びテキスト要約プログラム及びテキスト要約プログラムを格納した記憶媒体
CN104216875A (zh) * 2014-09-26 2014-12-17 中国科学院自动化研究所 基于非监督关键二元词串提取的微博文本自动摘要方法
CN104636465A (zh) * 2015-02-10 2015-05-20 百度在线网络技术(北京)有限公司 网页摘要生成方法、展示方法及相应装置
CN104834735A (zh) * 2015-05-18 2015-08-12 大连理工大学 一种基于词向量的文档摘要自动提取方法
CN105320734A (zh) * 2015-07-14 2016-02-10 中国互联网络信息中心 一种网页核心内容提取方法
CN105989058A (zh) * 2015-02-06 2016-10-05 北京中搜网络技术股份有限公司 一种汉语新闻摘要生成系统及方法
CN106055667A (zh) * 2016-06-06 2016-10-26 北京林业大学 一种基于文本‑标签密度的网页核心内容提取方法
CN106156204A (zh) * 2015-04-23 2016-11-23 深圳市腾讯计算机系统有限公司 文本标签的提取方法和装置
CN106227722A (zh) * 2016-09-12 2016-12-14 中山大学 一种基于上市公司公告摘要的自动提取方法
CN106599148A (zh) * 2016-12-02 2017-04-26 东软集团股份有限公司 一种文摘生成方法及装置
CN107133213A (zh) * 2017-05-06 2017-09-05 广东药科大学 一种基于算法的文本摘要自动提取方法与系统
JP2018055491A (ja) * 2016-09-29 2018-04-05 富士通株式会社 言語処理装置、言語処理方法、及び言語処理プログラム
CN108009135A (zh) * 2016-10-31 2018-05-08 深圳市北科瑞声科技股份有限公司 生成文档摘要的方法和装置
CN108062351A (zh) * 2017-11-14 2018-05-22 厦门市美亚柏科信息股份有限公司 关于特定主题类别的文本摘要提取方法、可读存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8594998B2 (en) * 2010-07-30 2013-11-26 Ben-Gurion University Of The Negev Research And Development Authority Multilingual sentence extractor

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003150614A (ja) * 2001-11-16 2003-05-23 Nippon Telegr & Teleph Corp <Ntt> テキスト要約方法及び装置及びテキスト要約プログラム及びテキスト要約プログラムを格納した記憶媒体
CN104216875A (zh) * 2014-09-26 2014-12-17 中国科学院自动化研究所 基于非监督关键二元词串提取的微博文本自动摘要方法
CN105989058A (zh) * 2015-02-06 2016-10-05 北京中搜网络技术股份有限公司 一种汉语新闻摘要生成系统及方法
CN104636465A (zh) * 2015-02-10 2015-05-20 百度在线网络技术(北京)有限公司 网页摘要生成方法、展示方法及相应装置
CN106156204A (zh) * 2015-04-23 2016-11-23 深圳市腾讯计算机系统有限公司 文本标签的提取方法和装置
CN104834735A (zh) * 2015-05-18 2015-08-12 大连理工大学 一种基于词向量的文档摘要自动提取方法
CN105320734A (zh) * 2015-07-14 2016-02-10 中国互联网络信息中心 一种网页核心内容提取方法
CN106055667A (zh) * 2016-06-06 2016-10-26 北京林业大学 一种基于文本‑标签密度的网页核心内容提取方法
CN106227722A (zh) * 2016-09-12 2016-12-14 中山大学 一种基于上市公司公告摘要的自动提取方法
JP2018055491A (ja) * 2016-09-29 2018-04-05 富士通株式会社 言語処理装置、言語処理方法、及び言語処理プログラム
CN108009135A (zh) * 2016-10-31 2018-05-08 深圳市北科瑞声科技股份有限公司 生成文档摘要的方法和装置
CN106599148A (zh) * 2016-12-02 2017-04-26 东软集团股份有限公司 一种文摘生成方法及装置
CN107133213A (zh) * 2017-05-06 2017-09-05 广东药科大学 一种基于算法的文本摘要自动提取方法与系统
CN108062351A (zh) * 2017-11-14 2018-05-22 厦门市美亚柏科信息股份有限公司 关于特定主题类别的文本摘要提取方法、可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Multidocument Summary Generation: Using Informative and Event Words;June-Jei Kuo etc.;《ACM Transactions on Asian Language Information Processing》;20080208;全文 *
基于语义词向量的文本分类多文档自动摘要;李擎;《中国优秀硕士论文全文数据库》;20181015;全文 *

Also Published As

Publication number Publication date
CN109684642A (zh) 2019-04-26

Similar Documents

Publication Publication Date Title
CN109684642B (zh) 一种结合页面解析规则和nlp文本向量化的摘要提取方法
CN113792818B (zh) 意图分类方法、装置、电子设备及计算机可读存储介质
CN106599032B (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
CN110377903B (zh) 一种句子级实体和关系联合抽取方法
WO2018028077A1 (zh) 一种基于深度学习的中文语义分析的方法及装置
CN111897908A (zh) 融合依存信息和预训练语言模型的事件抽取方法及系统
CN109753660B (zh) 一种基于lstm的中标网页命名实体抽取方法
CN106844349B (zh) 基于协同训练的垃圾评论识别方法
CN107797987B (zh) 一种基于Bi-LSTM-CNN的混合语料命名实体识别方法
CN109635288A (zh) 一种基于深度神经网络的简历抽取方法
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN112417854A (zh) 中文文档抽取式摘要方法
CN112966525B (zh) 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法
CN112818698B (zh) 一种基于双通道模型的细粒度的用户评论情感分析方法
CN107977353A (zh) 一种基于lstm-cnn的混合语料命名实体识别方法
CN112434535A (zh) 基于多模型的要素抽取方法、装置、设备及存储介质
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN107797988A (zh) 一种基于Bi‑LSTM的混合语料命名实体识别方法
CN114153971A (zh) 一种含错中文文本纠错识别分类设备
CN107797986B (zh) 一种基于lstm-cnn的混合语料分词方法
CN114997288A (zh) 一种设计资源关联方法
CN107992468A (zh) 一种基于lstm的混合语料命名实体识别方法
CN114358020A (zh) 疾病部位识别方法、装置、电子设备及存储介质
CN113901813A (zh) 一种基于主题特征和隐式句子结构的事件抽取方法
CN114065749A (zh) 一种面向文本的粤语识别模型及系统的训练、识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20191112

Address after: 400042 No.51 dapingzheng street, Yuzhong District, Chongqing

Applicant after: CHONGQING TELECOMMUNICATION SYSTEM INTEGRATION CO.,LTD.

Applicant after: CHONGQING SOCIALCREDITS BIG DATA TECHNOLOGY CO.,LTD.

Address before: The middle section of Mount Huangshan road 401121 Chongqing city Yubei District No. 53 of No. 2 C block 9 layer kylin

Applicant before: CHONGQING SOCIALCREDITS BIG DATA TECHNOLOGY CO.,LTD.

GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: No.51, Daping Main Street, Yuzhong District, Chongqing 400042

Patentee after: Zhongdian Zhi'an Technology Co.,Ltd.

Country or region after: China

Patentee after: Chongqing Yucun Technology Co.,Ltd.

Address before: No.51, Daping Main Street, Yuzhong District, Chongqing 400042

Patentee before: CHONGQING TELECOMMUNICATION SYSTEM INTEGRATION CO.,LTD.

Country or region before: China

Patentee before: CHONGQING SOCIALCREDITS BIG DATA TECHNOLOGY CO.,LTD.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240521

Address after: 401120 Tower B, No. 10 Datagu West Road, Yubei District, Xiantao Street, Yubei District, Chongqing

Patentee after: China Telecom Yijin Technology Co.,Ltd.

Country or region after: China

Patentee after: Chongqing Yucun Technology Co.,Ltd.

Address before: No.51, Daping Main Street, Yuzhong District, Chongqing 400042

Patentee before: Zhongdian Zhi'an Technology Co.,Ltd.

Country or region before: China

Patentee before: Chongqing Yucun Technology Co.,Ltd.