CN104360993B - 一种从文本提取所需内容的方法 - Google Patents
一种从文本提取所需内容的方法 Download PDFInfo
- Publication number
- CN104360993B CN104360993B CN201410667560.2A CN201410667560A CN104360993B CN 104360993 B CN104360993 B CN 104360993B CN 201410667560 A CN201410667560 A CN 201410667560A CN 104360993 B CN104360993 B CN 104360993B
- Authority
- CN
- China
- Prior art keywords
- text
- sentence
- target
- word
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及从文本提取所需内容的方法及装置。该方法包括以:根据预设的分词包对目标文本进行预处理,以使所述目标文本的每个句子中的每个词赋予词性类别,所述词性类别包括主语、谓语、宾语、定语、状语和补语;接收用户输入的标签,提取出用户需要的主语以及目标查找词,根据预设的同义词词林和语义场的类义词,统计目标文本的每个句子中与所述目标查找词同义的类义词出现的总次数,将总次数超过预设阈值的句子保存至提取库;计算提取库中每个句子各自的向量值,并根据所述向量值计算每两个句子之间的夹角,若出现夹角小于预设角度的两个句子,则随机删除该两个句子中的一个句子。本发明能够有效提高文本内容的提取效率。
Description
技术领域
本发明涉及计算机程序。
背景技术
报告是汇报工作、反映情况、提出建议、答复上级机关询问时使用的公文,同时,报告是谋事之道、成事之基,是领导作出正确判断和决策的前提基础。近年来,随着市场经济的推动,报告成为了一种新兴产业,报告的用途逐步扩大,用于新产品开发、投融资、公司发展规划、年度发展等方面。当前撰写报告的机构有全国高校、社科、研究会、研究院、智库等国家的研究机构,例如:中国科学院、中国社会科学院、北京大学、清华大学、中国非国有经济研究会、北京创新中实信息科学研究院等。撰写报告的形式主要是当前各机构工作人员主要是通过人工整理资料,筛选素材,自主撰写情报。
由于目前都是基于人工去处理文本资料,因此,从文本中提取出所需的内容的效率就比较低下。
发明内容
本发明的目的在于提出一种从文本提取所需内容的方法,其能解决提取效率低的问题。
为了达到上述目的,本发明所采用的技术方案如下:
一种从文本提取所需内容的方法,其包括以下步骤:
步骤1、根据预设的分词包对目标文本进行预处理,以使所述目标文本的每个句子中的每个词赋予词性类别,所述词性类别包括主语、谓语、宾语、定语、状语和补语;
步骤2、接收用户输入的标签,根据预设的分词包对所述标签中的每个词赋予性类别,根据依存句法提取出所述标签中的主语以及目标查找词,根据同义词词林和语义场的类义词,统计目标文本的每个句子中与所述目标查找词同义的类义词出现的总次数,将总次数超过预设阈值的句子保存至提取库;
步骤3、计算提取库中每个句子各自的向量值,并根据所述向量值计算每两个句子之间的夹角,若出现夹角小于预设角度的两个句子,则随机删除该两个句子中的一个句子。
优选的,在步骤1之前还有以下步骤:
步骤11、接收用户设置的关键词和该关键词的权重,以及接收用户上传的文本;
步骤12、根据公式一选取关联度大于预设值的文本作为目标文本;
公式一为:其中,G为文本的关联度,Pn为第n个关键词在文本中出现的次数,Mn为第n个关键词的权重,L预设次数。
优选的,当Pn≥L时,Pn取L。
优选的,L=10。
优选的,预设值为20%。
优选的,预设阈值为3。
优选的,夹角为0.5°。
本发明还提出一种从文本提取所需内容的装置,其包括以下模块:
预处理模块,用于根据预设的分词包对目标文本进行预处理,以使所述目标文本的每个句子中的每个词赋予词性类别,所述词性类别包括主语、谓语、宾语、定语、状语和补语;
提取模块,用于接收用户输入的标签,根据预设的分词包对所述标签中的每个词赋予性类别,根据依存句法提取出所述标签中的主语以及目标查找词,根据同义词词林和语义场的类义词,统计目标文本的每个句子中与所述目标查找词同义的类义词出现的总次数,将总次数超过预设阈值的句子保存至提取库;
去重模块,用于计算提取库中每个句子各自的向量值,并根据所述向量值计算每两个句子之间的夹角,若出现夹角小于预设角度的两个句子,则随机删除该两个句子中的一个句子。
优选的,在预处理模块之前还有以下模块:
接收模块,用于接收用户设置的关键词和该关键词的权重,以及接收用户上传的文本;
筛选模块,用于根据公式一选取关联度大于预设值的文本作为目标文本;
公式一为:其中,G为文本的关联度,Pn为第n个关键词在文本中出现的次数,Mn为第n个关键词的权重,L预设次数。
本发明具有如下有益效果:
能够自动地根据用户输入的标签,即可提取出用户所需要的内容,从而有效提高文本内容的提取效率。
附图说明
图1为本发明较佳实施例的从文本提取所需内容的方法的流程图。
具体实施方式
下面,结合附图以及具体实施方式,对本发明做进一步描述。
如图1所示,一种从文本提取所需内容的方法,其包括以下步骤:
步骤S1、接收用户设置的关键词和该关键词的权重,以及接收用户上传的文本。用户上传的文本可能有多篇,文本获取的途径包括网上收集。设置的关键词的数量也可以是多个,例如,设置两个关键词:马云和上市,马云的权重为0.5,上市的权重为0.3。
步骤S2、根据公式一选取关联度大于预设值(如20%)的文本作为目标文本。
公式一为:其中,G为文本的关联度,Pn为第n个关键词在文本中出现的次数,Mn为第n个关键词的权重,L预设次数(如10次),当Pn≥L时,Pn取L。这样,就可以对上传的文本进行初次筛选,定位到用户真正想要的文本进行分析处理,提高精准度。
步骤S3、根据预设的分词包对目标文本进行预处理,以使所述目标文本的每个句子中的每个词赋予词性类别,所述词性类别包括主语、谓语、宾语、定语、状语和补语等。所述分词包可以包括词与词性类别的关联关系。
步骤S4、接收用户输入的标签,同样根据预设的分词包对所述标签中的每个词赋予性类别,根据依存句法提取出所述标签中的主语以及目标查找词,例如,主语是马云,目标查找词是上市。根据同义词词林和语义场的类义词,统计目标文本的每个句子中与所述目标查找词同义的类义词出现的总次数,将总次数超过预设阈值(如3次)的句子保存至提取库。预设的词典中包括目标查找词与其同义的词的对应关系,为了提高查找速度,可以在谓语、宾语、定语、状语和补语中进行查找。预设的词典主要是用于识别出目标查找词的同义词。预设阈值的设定是根据主语的情况而定的,通过总次数来确定这句话是否在描述主语的相关事项。
步骤S5、计算提取库中每个句子各自的向量值,并根据所述向量值计算每两个句子之间的夹角,若出现夹角小于预设角度(如0.5°)的两个句子,则表示两个句子相似,然后随机删除该两个句子中的一个句子。这样就可以避免意思相近的句子出现在最终的文档中。向量值的计算可以通过谷歌公司的word2vec工具实现。
最后,将提取库中所有的句子加载到word文档中进行展示。
对应的,本实施例还提出一种从文本提取所需内容的装置,其包括以下模块:
接收模块,用于接收用户设置的关键词和该关键词的权重,以及接收用户上传的文本。
筛选模块,用于根据公式一选取关联度大于预设值的文本作为目标文本;
公式一为:其中,G为文本的关联度,Pn为第n个关键词在文本中出现的次数,Mn为第n个关键词的权重,L预设次数。
预处理模块,用于根据预设的分词包对目标文本进行预处理,以使所述目标文本的每个句子中的每个词赋予词性类别,所述词性类别包括主语、谓语、宾语、定语、状语和补语。
提取模块,用于接收用户输入的标签,根据预设的分词包对所述标签中的每个词赋予性类别,根据依存句法提取出所述标签中的主语以及目标查找词,根据同义词词林和语义场的类义词,统计目标文本的每个句子中与所述目标查找词同义的类义词出现的总次数,将总次数超过预设阈值的句子保存至提取库。
去重模块,用于计算提取库中每个句子各自的向量值,并根据所述向量值计算每两个句子之间的夹角,若出现夹角小于预设角度的两个句子,则随机删除该两个句子中的一个句子。
对于本领域的技术人员来说,可根据以上描述的技术方案以及构思,做出其它各种相应的改变以及变形,而所有的这些改变以及变形都应该属于本发明权利要求的保护范围之内。
Claims (7)
1.一种从文本提取所需内容的方法,其特征在于,包括以下步骤:
步骤1、根据预设的分词包对目标文本进行预处理,以使所述目标文本的每个句子中的每个词赋予词性类别,所述词性类别包括主语、谓语、宾语、定语、状语和补语;
步骤2、接收用户输入的标签,根据预设的分词包对所述标签中的每个词赋予词性类别,根据依存句法提取出所述标签中的主语以及目标查找词,根据同义词词林和语义场的类义词,统计目标文本的每个句子中与所述目标查找词同义的类义词出现的总次数,将总次数超过预设阈值的句子保存至提取库;
步骤3、计算提取库中每个句子各自的向量值,并根据所述向量值计算每两个句子之间的夹角,若出现夹角小于预设角度的两个句子,则随机删除该两个句子中的一个句子;
在步骤1之前还有以下步骤:
步骤11、接收用户设置的关键词和该关键词的权重,以及接收用户上传的文本;
步骤12、根据公式一选取关联度大于预设值的文本作为目标文本;
公式一为:其中,G为文本的关联度,Pn为第n个关键词在文本中出现的次数,Mn为第n个关键词的权重,L为预设次数。
2.如权利要求1所述的方法,其特征在于,当Pn≥L时,Pn取L。
3.如权利要求1所述的方法,其特征在于,L=10。
4.如权利要求1所述的方法,其特征在于,预设值为20%。
5.如权利要求1所述的方法,其特征在于,预设阈值为3。
6.如权利要求1所述的方法,其特征在于,预设角度为0.5°。
7.一种从文本提取所需内容的装置,其特征在于,包括以下模块:
预处理模块,用于根据预设的分词包对目标文本进行预处理,以使所述目标文本的每个句子中的每个词赋予词性类别,所述词性类别包括主语、谓语、宾语、定语、状语和补语;
提取模块,用于接收用户输入的标签,根据预设的分词包对所述标签中的每个词赋予词性类别,根据依存句法提取出所述标签中的主语以及目标查找词,根据同义词词林和语义场的类义词,统计目标文本的每个句子中与所述目标查找词同义的类义词出现的总次数,将总次数超过预设阈值的句子保存至提取库;
去重模块,用于计算提取库中每个句子各自的向量值,并根据所述向量值计算每两个句子之间的夹角,若出现夹角小于预设角度的两个句子,则随机删除该两个句子中的一个句子;
在预处理模块之前还有以下模块:
接收模块,用于接收用户设置的关键词和该关键词的权重,以及接收用户上传的文本;
筛选模块,用于根据公式一选取关联度大于预设值的文本作为目标文本;
公式一为:其中,G为文本的关联度,Pn为第n个关键词在文本中出现的次数,Mn为第n个关键词的权重,L为预设次数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410667560.2A CN104360993B (zh) | 2014-11-19 | 2014-11-19 | 一种从文本提取所需内容的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410667560.2A CN104360993B (zh) | 2014-11-19 | 2014-11-19 | 一种从文本提取所需内容的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104360993A CN104360993A (zh) | 2015-02-18 |
CN104360993B true CN104360993B (zh) | 2018-03-30 |
Family
ID=52528255
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410667560.2A Active CN104360993B (zh) | 2014-11-19 | 2014-11-19 | 一种从文本提取所需内容的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104360993B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106649334B (zh) * | 2015-10-29 | 2020-09-15 | 北京国双科技有限公司 | 关联词语集合的处理方法及装置 |
CN105843962A (zh) * | 2016-04-18 | 2016-08-10 | 百度在线网络技术(北京)有限公司 | 信息处理、显示方法及装置以及信息处理显示系统 |
CN107315735B (zh) * | 2017-05-17 | 2021-02-12 | 网易(杭州)网络有限公司 | 用于笔记整理的方法及设备 |
CN109948141A (zh) * | 2017-12-21 | 2019-06-28 | 北京京东尚科信息技术有限公司 | 一种提取特征词的方法和装置 |
CN111274792B (zh) * | 2020-01-20 | 2023-06-27 | 中国银联股份有限公司 | 一种用于生成文本的摘要的方法及系统 |
CN111428037B (zh) * | 2020-03-24 | 2022-09-20 | 合肥科捷通科技信息服务有限公司 | 一种分析行为政策匹配性的方法 |
CN112732897A (zh) * | 2020-12-28 | 2021-04-30 | 平安科技(深圳)有限公司 | 文档处理方法、装置、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6356864B1 (en) * | 1997-07-25 | 2002-03-12 | University Technology Corporation | Methods for analysis and evaluation of the semantic content of a writing based on vector length |
CN101408883A (zh) * | 2008-11-24 | 2009-04-15 | 电子科技大学 | 一种网络舆情观点收集方法 |
CN102456060A (zh) * | 2010-10-28 | 2012-05-16 | 株式会社日立制作所 | 信息处理装置及信息处理方法 |
-
2014
- 2014-11-19 CN CN201410667560.2A patent/CN104360993B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6356864B1 (en) * | 1997-07-25 | 2002-03-12 | University Technology Corporation | Methods for analysis and evaluation of the semantic content of a writing based on vector length |
CN101408883A (zh) * | 2008-11-24 | 2009-04-15 | 电子科技大学 | 一种网络舆情观点收集方法 |
CN102456060A (zh) * | 2010-10-28 | 2012-05-16 | 株式会社日立制作所 | 信息处理装置及信息处理方法 |
Non-Patent Citations (2)
Title |
---|
基于关键词提取的中文网页自动文摘方法研究;蒋昌金;《中国博士学位论文全文数据库信息科技辑》;20101215;第56-66页 * |
面向企业竞争情报的Web文本挖掘技术研究;王炜;《中国优秀硕士学位论文全文数据库信息科技辑》;20130415;第20-35页 * |
Also Published As
Publication number | Publication date |
---|---|
CN104360993A (zh) | 2015-02-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104360993B (zh) | 一种从文本提取所需内容的方法 | |
US11030199B2 (en) | Systems and methods for contextual retrieval and contextual display of records | |
CN107562824B (zh) | 一种文本相似度检测方法 | |
CN105243129B (zh) | 商品属性特征词聚类方法 | |
CN106528532B (zh) | 文本纠错方法、装置及终端 | |
WO2021068339A1 (zh) | 文本分类方法、装置及计算机可读存储介质 | |
CN104102720B (zh) | 高效输入的预测方法和装置 | |
CA2777520C (en) | System and method for phrase identification | |
CN106874292B (zh) | 话题处理方法及装置 | |
WO2015165381A1 (zh) | 一种通用型互联网信息数据挖掘方法 | |
US20170220561A1 (en) | Method of creating translation corpus | |
CN104008091A (zh) | 一种基于情感值的网络文本情感分析方法 | |
CN112507068A (zh) | 文档查询方法、装置、电子设备和存储介质 | |
US20130036076A1 (en) | Method for keyword extraction | |
JP6056610B2 (ja) | テキスト情報処理装置、テキスト情報処理方法、及びテキスト情報処理プログラム | |
WO2018090468A1 (zh) | 视频节目的搜索方法和装置 | |
CN103218444A (zh) | 基于语义的藏文网页文本分类方法 | |
CN111291177A (zh) | 一种信息处理方法、装置和计算机存储介质 | |
CN109117470B (zh) | 一种评价文本信息的评价关系提取方法及装置 | |
CN104778201A (zh) | 一种基于多查询结果合并的在先技术检索方法 | |
CN103324621A (zh) | 一种泰语文本拼写纠正方法及装置 | |
CN107145476A (zh) | 一种基于改进tf‑idf关键词提取算法 | |
CN106959943B (zh) | 语种识别更新方法及装置 | |
CN106776695A (zh) | 实现文书档案价值自动鉴定的方法 | |
JP2022069790A5 (zh) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: A method of extracting needed content from text Effective date of registration: 20200807 Granted publication date: 20180330 Pledgee: Bank of Guangzhou Co.,Ltd. Shuiyin sub branch Pledgor: GUANGZHOU JISHENG INFORMATION TECHNOLOGY DEVELOPMENT Co.,Ltd. Registration number: Y2020440000229 |
|
PE01 | Entry into force of the registration of the contract for pledge of patent right | ||
PP01 | Preservation of patent right |
Effective date of registration: 20230116 Granted publication date: 20180330 |
|
PP01 | Preservation of patent right |