CN104360993A

CN104360993A - 一种从文本提取所需内容的方法

Info

Publication number: CN104360993A
Application number: CN201410667560.2A
Authority: CN
Inventors: 彭宏利
Original assignee: Guangzhou Jisheng Information Science & Technology Development Co Ltd
Current assignee: Guangzhou Jisheng Information Science & Technology Development Co Ltd
Priority date: 2014-11-19
Filing date: 2014-11-19
Publication date: 2015-02-18
Anticipated expiration: 2034-11-19
Also published as: CN104360993B

Abstract

本发明涉及从文本提取所需内容的方法及装置。该方法包括以：根据预设的分词包对目标文本进行预处理，以使所述目标文本的每个句子中的每个词赋予词性类别，所述词性类别包括主语、谓语、宾语、定语、状语和补语；接收用户输入的标签，提取出用户需要的主语以及目标查找词，根据预设的同义词词林和语义场的类义词，统计目标文本的每个句子中与所述目标查找词同义的类义词出现的总次数，将总次数超过预设阈值的句子保存至提取库；计算提取库中每个句子各自的向量值，并根据所述向量值计算每两个句子之间的夹角，若出现夹角小于预设角度的两个句子，则随机删除该两个句子中的一个句子。本发明能够有效提高文本内容的提取效率。

Description

一种从文本提取所需内容的方法

技术领域

本发明涉及计算机程序。

背景技术

报告是汇报工作、反映情况、提出建议、答复上级机关询问时使用的公文，同时，报告是谋事之道、成事之基，是领导作出正确判断和决策的前提基础。近年来，随着市场经济的推动，报告成为了一种新兴产业，报告的用途逐步扩大，用于新产品开发、投融资、公司发展规划、年度发展等方面。当前撰写报告的机构有全国高校、社科、研究会、研究院、智库等国家的研究机构，例如：中国科学院、中国社会科学院、北京大学、清华大学、中国非国有经济研究会、北京创新中实信息科学研究院等。撰写报告的形式主要是当前各机构工作人员主要是通过人工整理资料，筛选素材，自主撰写情报。

由于目前都是基于人工去处理文本资料，因此，从文本中提取出所需的内容的效率就比较低下。

发明内容

本发明的目的在于提出一种从文本提取所需内容的方法，其能解决提取效率低的问题。

为了达到上述目的，本发明所采用的技术方案如下：

一种从文本提取所需内容的方法，其包括以下步骤：

步骤1、根据预设的分词包对目标文本进行预处理，以使所述目标文本的每个句子中的每个词赋予词性类别，所述词性类别包括主语、谓语、宾语、定语、状语和补语；

步骤2、接收用户输入的标签，根据预设的分词包对所述标签中的每个词赋予性类别，根据依存句法提取出所述标签中的主语以及目标查找词，根据同义词词林和语义场的类义词，统计目标文本的每个句子中与所述目标查找词同义的类义词出现的总次数，将总次数超过预设阈值的句子保存至提取库；

步骤3、计算提取库中每个句子各自的向量值，并根据所述向量值计算每两个句子之间的夹角，若出现夹角小于预设角度的两个句子，则随机删除该两个句子中的一个句子。

优选的，在步骤1之前还有以下步骤：

步骤11、接收用户设置的关键词和该关键词的权重，以及接收用户上传的文本；

步骤12、根据公式一选取关联度大于预设值的文本作为目标文本；

公式一为：其中，G为文本的关联度，P_n为第n个关键词在文本中出现的次数，M_n为第n个关键词的权重，L预设次数。

优选的，当P_n≥L时，P_n取L。

优选的，L＝10。

优选的，预设值为20％。

优选的，预设阈值为3。

优选的，夹角为0.5°。

本发明还提出一种从文本提取所需内容的装置，其包括以下模块：

预处理模块，用于根据预设的分词包对目标文本进行预处理，以使所述目标文本的每个句子中的每个词赋予词性类别，所述词性类别包括主语、谓语、宾语、定语、状语和补语；

提取模块，用于接收用户输入的标签，根据预设的分词包对所述标签中的每个词赋予性类别，根据依存句法提取出所述标签中的主语以及目标查找词，根据同义词词林和语义场的类义词，统计目标文本的每个句子中与所述目标查找词同义的类义词出现的总次数，将总次数超过预设阈值的句子保存至提取库；

去重模块，用于计算提取库中每个句子各自的向量值，并根据所述向量值计算每两个句子之间的夹角，若出现夹角小于预设角度的两个句子，则随机删除该两个句子中的一个句子。

优选的，在预处理模块之前还有以下模块：

接收模块，用于接收用户设置的关键词和该关键词的权重，以及接收用户上传的文本；

筛选模块，用于根据公式一选取关联度大于预设值的文本作为目标文本；

本发明具有如下有益效果：

能够自动地根据用户输入的标签，即可提取出用户所需要的内容，从而有效提高文本内容的提取效率。

附图说明

图1为本发明较佳实施例的从文本提取所需内容的方法的流程图。

具体实施方式

下面，结合附图以及具体实施方式，对本发明做进一步描述。

如图1所示，一种从文本提取所需内容的方法，其包括以下步骤：

步骤S1、接收用户设置的关键词和该关键词的权重，以及接收用户上传的文本。用户上传的文本可能有多篇，文本获取的途径包括网上收集。设置的关键词的数量也可以是多个，例如，设置两个关键词：马云和上市，马云的权重为0.5，上市的权重为0.3。

步骤S2、根据公式一选取关联度大于预设值(如20％)的文本作为目标文本。

公式一为：其中，G为文本的关联度，P_n为第n个关键词在文本中出现的次数，M_n为第n个关键词的权重，L预设次数(如10次)，当P_n≥L时，P_n取L。这样，就可以对上传的文本进行初次筛选，定位到用户真正想要的文本进行分析处理，提高精准度。

步骤S3、根据预设的分词包对目标文本进行预处理，以使所述目标文本的每个句子中的每个词赋予词性类别，所述词性类别包括主语、谓语、宾语、定语、状语和补语等。所述分词包可以包括词与词性类别的关联关系。

步骤S4、接收用户输入的标签，同样根据预设的分词包对所述标签中的每个词赋予性类别，根据依存句法提取出所述标签中的主语以及目标查找词，例如，主语是马云，目标查找词是上市。根据同义词词林和语义场的类义词，统计目标文本的每个句子中与所述目标查找词同义的类义词出现的总次数，将总次数超过预设阈值(如3次)的句子保存至提取库。预设的词典中包括目标查找词与其同义的词的对应关系，为了提高查找速度，可以在谓语、宾语、定语、状语和补语中进行查找。预设的词典主要是用于识别出目标查找词的同义词。预设阈值的设定是根据主语的情况而定的，通过总次数来确定这句话是否在描述主语的相关事项。

步骤S5、计算提取库中每个句子各自的向量值，并根据所述向量值计算每两个句子之间的夹角，若出现夹角小于预设角度(如0.5°)的两个句子，则表示两个句子相似，然后随机删除该两个句子中的一个句子。这样就可以避免意思相近的句子出现在最终的文档中。向量值的计算可以通过谷歌公司的word2vec工具实现。

最后，将提取库中所有的句子加载到word文档中进行展示。

对应的，本实施例还提出一种从文本提取所需内容的装置，其包括以下模块：

接收模块，用于接收用户设置的关键词和该关键词的权重，以及接收用户上传的文本。

预处理模块，用于根据预设的分词包对目标文本进行预处理，以使所述目标文本的每个句子中的每个词赋予词性类别，所述词性类别包括主语、谓语、宾语、定语、状语和补语。

提取模块，用于接收用户输入的标签，根据预设的分词包对所述标签中的每个词赋予性类别，根据依存句法提取出所述标签中的主语以及目标查找词，根据同义词词林和语义场的类义词，统计目标文本的每个句子中与所述目标查找词同义的类义词出现的总次数，将总次数超过预设阈值的句子保存至提取库。

对于本领域的技术人员来说，可根据以上描述的技术方案以及构思，做出其它各种相应的改变以及变形，而所有的这些改变以及变形都应该属于本发明权利要求的保护范围之内。

Claims

1.一种从文本提取所需内容的方法，其特征在于，包括以下步骤：

2.如权利要求1所述的方法，其特征在于，在步骤1之前还有以下步骤：

3.如权利要求2所述的方法，其特征在于，当P_n≥L时，P_n取L。

4.如权利要求2所述的方法，其特征在于，L＝10。

5.如权利要求2所述的方法，其特征在于，预设值为20％。

6.如权利要求1所述的方法，其特征在于，预设阈值为3。

7.如权利要求1所述的方法，其特征在于，夹角为0.5°。

8.一种从文本提取所需内容的装置，其特征在于，包括以下模块：

9.如权利要求8所述的装置，其特征在于，在预处理模块之前还有以下模块：