CN106484768B - 文本内容显著性区域的局部特征抽取方法及系统 - Google Patents
文本内容显著性区域的局部特征抽取方法及系统 Download PDFInfo
- Publication number
- CN106484768B CN106484768B CN201610810851.1A CN201610810851A CN106484768B CN 106484768 B CN106484768 B CN 106484768B CN 201610810851 A CN201610810851 A CN 201610810851A CN 106484768 B CN106484768 B CN 106484768B
- Authority
- CN
- China
- Prior art keywords
- sentences
- phrases
- text
- single sentence
- entity words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明涉及一种文本内容显著性区域的局部特征抽取方法及系统。该方法包括:按预设挑选规则从资讯文本中的显著性区域中选出M个单句;对每一单句分别分词,从分词结果中选出每一单句的实体词与短语并按预设权重排序;选出N个权重排列在前的实体词与短语;将每一单句中选出的N个实体词和短语按汉语拼音序排序,分别合并成一长文本;计算每一单句的长文本的crc64,作为每一单句的的局部特征;将M个单句的局部特征合并成一个特征集,作为该资讯文本的局部特征。本发明通过将一篇文本内容转换成M个crc64字符表示,有利于创建基于单句的内容检索系统和基于内容的局部特征集的内容消重系统。
Description
技术领域
本发明属于数据处理技术领域,具体涉及一种文本内容显著性区域的局部特征抽取方法及系统。
背景技术
随着互联网中文本内容在传播过程中多次修改和精编, 其内容检索如果按照关键词来进行召回, 存在召回结果中存在大量杂质的问题;如果按照标题/正文内容段/句来进行检索,则存在召回结果遗漏的问题。
发明内容
本发明的目的在于解决上述的技术问题而提供一种文本内容显著性区域的局部特征抽取方法及系统。
为实现上述目的,本发明采用如下技术方案:
一种文本内容显著性区域的局部特征抽取方法,包括以下步骤:
按预设挑选规则从资讯文本中的显著性区域中选出M个单句;
对每一单句分别分词,从分词结果中选出每一单句的实体词与短语并按预设权重排序;
从每一单句的实体词与短语中选出N个权重排列在前的实体词与短语;
将每一单句中选出的N个实体词和短语按汉语拼音序排序,分别合并成一长文本;
计算每一单句的长文本的 crc64,作为每一单句的的局部特征;
将所述M个单句的局部特征合并成一个特征集,作为该资讯文本的局部特征。
本发明的目的还在于提供一种文本内容显著性区域的局部特征抽取系统,包括:
单句挑选模块,用于按预设挑选规则从资讯文本中的显著性区域中选出M个单句;
分词模块,用于对每一单句分别分词,从分词结果中选出每一单句的实体词与短语并按预设权重排序;
分词结果选择模块,用于从每一单句的实体词与短语中选出N个权重排列在前的实体词与短语;
合并模块,用于将每一单句中选出的N个实体词和短语按汉语拼音序排序,分别合并成一长文本;
单句局部特征计算模块,用于计算每一单句的长文本的 crc64,作为每一单句的的局部特征;
文本局部特征形成模块,用于将所述M个单句的局部特征合并成一个特征集,作为该资讯文本的局部特征。
本发明基于文本内容的显著性区域的局部特征来进行召回,这样可保证了召回结果的准确性和全面性;同样针对基于文本内容的消重系统,可以根据文本内容显著性区域的局部特征集的匹配数量来进行。
附图说明
图1出示了本发明的文本内容显著性区域的局部特征抽取方法的流程图;
图2出示了本发明的的分词结果的示意图
图3出示了本发明的文本内容显著性区域的局部特征抽取系统的原理结构图。
具体实施方式
下面,结合实例对本发明的实质性特点和优势作进一步的说明,但本发明并不局限于所列的实施例。
参见图1所示,一种文本内容显著性区域的局部特征抽取方法,包括以下步骤:
按预设挑选规则从资讯文本中的显著性区域中选出M个单句;
对每一单句分别分词,从分词结果中选出每一单句的实体词与短语并按预设权重排序;
从每一单句的实体词与短语中选出N个权重排列在前的实体词与短语;
将每一单句中选出的N个实体词和短语按汉语拼音序排序,分别合并成一长文本;
计算每一单句的长文本的 crc64,作为每一单句的的局部特征;
将所述M个单句的局部特征合并成一个数字表的特征集,作为该资讯文本的局部特征。
本发明通过从资讯文本中的显著性区域中选出M个单句(M为自然数),然后对单句分别分词,对选出的实体词与短语按预设权重进行挑选,选出N个权重排列在前的实体词与短语后,对权重排列在前的实体词与短语按汉语拼音排序合并成一个长文本,然后计算长文本的crc64作为每一单句的的局部特征,计算出M个单句的crc64后,将该M个单句的crc64作为资讯文本的局部特征,这样通过crc64局部特征的数字性表示,就可以创建每一资讯文本的局部特征集,这样在就可实现利用该每一资讯文本的局部特征集,在文本检索进行召回时,就保证了召回结果的准确性和全面性;对基于文本内容的消重系统而言,同样可根据该文本内容显著性区域的局部特征集的匹配数量来进行。
需要说明的是,本发明中,所述资讯文本的显著性区域一般是指视觉重点区域和\或文本内容表述习惯的重点区域,可以根据需要进行调整。
所述资讯文本的所述显著性区域的单句是指资讯文本的标题、段首句、段尾句,重点句等。
由于本发明是对文本内容的显著性区域的文章的标题,段首句,段尾句,重点句等进行处理, 这些显著性区域也存在被修改的状况,则通过考虑该显著性区域的单句的局部性特征,而通过局部性特征关注该显著性区域中的实体名称和重点词, 具有更高的精度和全面性,从而就可以避免单字/单词的修改导致其局部性特征不一致。
具体的,在挑选资讯文本的的显著性区域的单句时,可以根据资讯文本内容的段落,单句位置和单句长度来确定。
其中,在挑选时,选出的单句的长度是一个段落的资讯文本的单句平均长度的3倍。
需要说明的是,本发明中,所述一个段落的资讯文本的单句平均长度是根据一个段落中每个单句的长度之和除以该段落中单句的数量确定的。
本发明中,所述实体词通常为人名、地名、专用名词、以及权重排序在前的关键词等,所述实体词、短语可以是基于现有语言词典来划分,具体的也可以根据需要进行调整或修正。
本发明中,从单句的分词结果中挑选实体词和短语时,是依照实体词和短语的权重排序,然后挑选权重最高的N个实体词和短语。
其中,所述实体词和短语每一个分别预定有一个相应的权重值,在分词后本发明方法可自动按预定的实体词与短评的权重值进行排序,从而形成一个由高到低的实体词和短语的权重排序,这样方便后续选出N个相应的实体词和短语,其中,N为自然数。
具体实现上时,可以是通过分词后在分词结果中直接将选出的实体词和短语按权重排序。
具体的,分词结果会提供每个分词的词性、权重和其他属性,如地名属性与人名属性等;对于名词,会标明该词是人名或者地名等属性,对于 “十三五”等形式的文本,会表示该文本是否为短语。这样对于分词结果,就可以从分词中挑选相应的实体词和短语,并依据权重排序。
例如,一段资讯文本:“十三五”是科技创新在房地产行业突破的关键期,要推进住宅产业化和新型建造,为老百姓建造长寿命、好性能、绿色低碳的百年住宅。应用本发明方法分词后,其分词结果为见图2所示。
分词后,在分词结果中见图2,每一个分词被赋予一个权重值,如科技为0.002,创新为0.003,关键为0.002,进行权重排序后结果见图2中右列,按分词的结果进行排序,形成1、2、3……的排序顺序,如老百姓权重为0.149,则排在第一位,其次是房地产,权重为0.088,再次为建造0.007,其它非实体词或短语的权重为0,这样,实现了将对每一单句分别分词,从分词结果中选出每一单句的实体词与短语并按预设权重排序;方便从每一单句的实体词与短语中选出N个权重排列在前的实体词与短语进行处理。
本发明的目的还在于提供一种文本内容显著性区域的局部特征抽取系统,参见图3所示,包括:
单句挑选模块,用于按预设挑选规则从资讯文本中的显著性区域中选出M个单句;
分词模块,用于对每一单句分别分词,从分词结果中选出每一单句的实体词与短语并按预设权重排序;
分词结果选择模块,用于从每一单句的实体词与短语中选出N个权重排列在前的实体词与短语;
合并模块,用于将每一单句中选出的N个实体词和短语按汉语拼音序排序,分别合并成一长文本;
单句局部特征计算模块,用于计算每一单句的长文本的 crc64,作为每一单句的的局部特征;
文本局部特征形成模块,用于将所述M个单句的局部特征合并成一个特征集,作为该资讯文本的局部特征。
关于文本内容显著性区域的局部特征抽取系统的详细说明及实施方式,请详细见本说明书中关于文本内容显著性区域的局部特征抽取方法的说明,对此文本内容显著性区域的局部特征抽取系统,本说明书对此不再进行说明。
本发明对语料库建设规模和稀疏数据问题具有较高的鲁棒性和稳定性:通过将一篇文本内容转换成M个crc64字符表示,有利于创建基于单句的内容检索系统和基于内容的局部特征集的内容消重系统。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (8)
1.一种文本内容显著性区域的局部特征抽取方法,其特征在于,包括以下步骤:
按预设挑选规则从资讯文本中的显著性区域中选出M个单句;
对每一单句分别分词,从分词结果中选出每一单句的实体词与短语并按预设权重排序;
从每一单句的实体词与短语中选出N个权重排列在前的实体词与短语;
将每一单句中选出的N个实体词和短语按汉语拼音序排序,分别合并成一长文本;
计算每一单句的长文本的crc64,作为每一单句的的局部特征;
将所述M个单句的局部特征合并成一个特征集,作为该资讯文本的局部特征。
2.根据权利要求1所述文本内容显著性区域的局部特征抽取方法,其特征在于,选出的单句的长度是资讯文本一个段落中的单句平均长度的3倍。
3.根据权利要求1或2所述文本内容显著性区域的局部特征抽取方法,其特征在于,所述显著性区域的单句包括资讯文本的标题、段首句、段尾句,重点句。
4.根据权利要求2所述文本内容显著性区域的局部特征抽取方法,其特征在于,所述单句平均长度是根据资讯文本的一个段落中的每个单句的长度之和除以该段落中单句的数量确定的。
5.一种文本内容显著性区域的局部特征抽取系统,其特征在于,包括:
单句挑选模块,用于按预设挑选规则从资讯文本中的显著性区域中选出M个单句;
分词模块,用于对每一单句分别分词,从分词结果中选出每一单句的实体词与短语并按预设权重排序;
分词结果选择模块,用于从每一单句的实体词与短语中选出N个权重排列在前的实体词与短语;
合并模块,用于将每一单句中选出的N个实体词和短语按汉语拼音序排序,分别合并成一长文本;
单句局部特征计算模块,用于计算每一单句的长文本的crc64,作为每一单句的的局部特征;
文本局部特征形成模块,用于将所述M个单句的局部特征合并成一个特征集,作为该资讯文本的局部特征。
6.根据权利要求5所述文本内容显著性区域的局部特征抽取系统,其特征在于,选出的单句的长度是资讯文本一个段落中的单句平均长度的3倍。
7.根据权利要求6所述文本内容显著性区域的局部特征抽取系统,其特征在于,所述显著性区域的单句包括资讯文本的标题、段首句、段尾句,重点句。
8.根据权利要求7所述文本内容显著性区域的局部特征抽取系统,其特征在于,所述单句平均长度是根据资讯文本的一个段落中的每个单句的长度之和除以该段落中单句的数量确定的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610810851.1A CN106484768B (zh) | 2016-09-09 | 2016-09-09 | 文本内容显著性区域的局部特征抽取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610810851.1A CN106484768B (zh) | 2016-09-09 | 2016-09-09 | 文本内容显著性区域的局部特征抽取方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106484768A CN106484768A (zh) | 2017-03-08 |
CN106484768B true CN106484768B (zh) | 2019-12-31 |
Family
ID=58274198
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610810851.1A Active CN106484768B (zh) | 2016-09-09 | 2016-09-09 | 文本内容显著性区域的局部特征抽取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106484768B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111353281B (zh) * | 2020-02-24 | 2023-04-07 | 百度在线网络技术(北京)有限公司 | 文本转换方法、装置、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102053978A (zh) * | 2009-10-27 | 2011-05-11 | 腾讯科技(深圳)有限公司 | 单句的主题词提取方法和装置 |
CN102591976A (zh) * | 2012-01-04 | 2012-07-18 | 复旦大学 | 基于句子级别的文本特征提取方法和文档拷贝检测系统 |
CN103853834A (zh) * | 2014-03-12 | 2014-06-11 | 华东师范大学 | 基于文本结构分析的Web文档摘要的生成方法 |
JP2016103156A (ja) * | 2014-11-28 | 2016-06-02 | エヌ・ティ・ティ・コムウェア株式会社 | テキスト特徴量抽出装置、テキスト特徴量抽出方法、およびプログラム |
-
2016
- 2016-09-09 CN CN201610810851.1A patent/CN106484768B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102053978A (zh) * | 2009-10-27 | 2011-05-11 | 腾讯科技(深圳)有限公司 | 单句的主题词提取方法和装置 |
CN102591976A (zh) * | 2012-01-04 | 2012-07-18 | 复旦大学 | 基于句子级别的文本特征提取方法和文档拷贝检测系统 |
CN103853834A (zh) * | 2014-03-12 | 2014-06-11 | 华东师范大学 | 基于文本结构分析的Web文档摘要的生成方法 |
JP2016103156A (ja) * | 2014-11-28 | 2016-06-02 | エヌ・ティ・ティ・コムウェア株式会社 | テキスト特徴量抽出装置、テキスト特徴量抽出方法、およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
CN106484768A (zh) | 2017-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109960724B (zh) | 一种基于tf-idf的文本摘要方法 | |
CN109710947B (zh) | 电力专业词库生成方法及装置 | |
TWI536181B (zh) | 在多語文本中的語言識別 | |
CN102915299B (zh) | 一种分词方法及装置 | |
CN101079025B (zh) | 一种文档相关度计算系统和方法 | |
CN101079031A (zh) | 一种网页主题提取系统和方法 | |
CN111291177A (zh) | 一种信息处理方法、装置和计算机存储介质 | |
US8090720B2 (en) | Method for merging document clusters | |
WO2012159558A1 (zh) | 基于语意识别的自然语言处理方法、装置和系统 | |
CN108920633A (zh) | 一种论文相似度的检测方法 | |
Awajan | Keyword extraction from Arabic documents using term equivalence classes | |
CN107357777A (zh) | 提取标签信息的方法和装置 | |
CN115794995A (zh) | 目标答案获取方法及相关装置、电子设备和存储介质 | |
CN111090994A (zh) | 一种面向中文网络论坛文本的事件地点归属省份识别方法 | |
JP2006065387A (ja) | テキスト文検索装置、テキスト文検索方法、及びテキスト文検索プログラム | |
CN110705285B (zh) | 一种政务文本主题词库构建方法、装置、服务器及可读存储介质 | |
CN106484768B (zh) | 文本内容显著性区域的局部特征抽取方法及系统 | |
JP2003281165A (ja) | 文書要約方法及びシステム | |
Soori et al. | Text similarity based on data compression in Arabic | |
CN102799661A (zh) | 一种对电子文件进行语义检索的方法和系统 | |
Šantić et al. | Automatic diacritics restoration in Croatian texts | |
CN103761226B (zh) | 按文档的字符属性碎片化的方法 | |
CN103902524A (zh) | 维吾尔语句子边界识别方法 | |
CN109960720B (zh) | 针对半结构化文本的信息抽取方法 | |
CN109727591B (zh) | 一种语音搜索的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |