CN111125353A

CN111125353A - 用于获取中文文本要义的方法和装置

Info

Publication number: CN111125353A
Application number: CN201811287057.9A
Authority: CN
Inventors: 唐喆
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2018-10-31
Filing date: 2018-10-31
Publication date: 2020-05-08
Anticipated expiration: 2038-10-31
Also published as: CN111125353B

Abstract

本发明实施例提供一种用于获取中文文本要义的方法和装置，属于数据处理领域。所述用于获取中文文本要义的方法包括：对所述中文文本进行实体识别处理，以确定具有特定意义的实体名称；对所述中文文本进行关键短语提取；确定每一所述关键短语之后最近的一个修饰词语；以及按照实体名称、关键短语和修饰词语的顺序输出针对所述中文文本的要义信息。采用本发明实施例提供的技术方案对中文文本进行处理和分析，可以确定中文文本中的关键信息和信息主体，还可以对关键信息做出进一步的判断，从而能够获得完整、清晰且准确的中文文本的要义信息。

Description

用于获取中文文本要义的方法和装置

技术领域

本发明涉及数据处理领域，具体地涉及一种用于获取中文文本要义的方法和装置。

背景技术

目前，想要从大规模的中文文本中获悉文本要义，最常用的方式就是通过进行分词处理、提取有效关键词，再基于词频统计的结果来获悉热点要义。但是通过这种方式获得的信息有限，没有关联到热点信息的主体，也没有对热点信息作进一步的判断，因而不能完整的确定原文文本的要义。

本申请发明人还发现，采用现有技术方法获得的有关文本的数据都是零散的，例如通过现有技术能够获得文本中的关键词或者情感判断词，但是没有将文本中的关键词和情感判断词相关联来获得文本的完整要义的方法，因此根据所获得的关键词或情感判断词，对原文中的信息的读取是有限的，也无法根据所获得的关键词或情感判断词对原文文本做进一步的规划和整理。

发明内容

本发明实施例的目的是提供一种用于获取中文文本要义的方法和装置，用于解决上述技术问题中的一者或多者。

为了实现上述目的，本发明实施例提供一种用于获取中文文本要义的方法，所述方法包括：对所述中文文本进行实体识别处理，以确定具有特定意义的实体名称；对所述中文文本进行关键短语提取；确定每一所述关键短语之后最近的一个修饰词语；以及按照实体名称、关键短语和修饰词语的顺序输出针对所述中文文本的要义信息。

可选的，在确定出每一关键短语之后最近的一个修饰词语后、输出所述中文文本的要义信息之前，判断所述修饰词语的情感；所述输出针对所述中文文本的要义信息包括：按照实体名称、关键短语、修饰词语和修饰词语的情感的顺序输出针对所述中文文本的要义信息。

可选的，所述具有特定意义的实体名称为职业名称、机构名称、人名、地名、商品名称、专有名词中的至少一种；和/或所述修饰词语为副词或形容词。

可选的，所述方法还包括：对所述实体名称进行频次统计，确定每个所述实体名称的频数；对所述关键短语进行频次统计，确定每个所述关键短语的频数；对同一个关键短语之后最近的修饰词语进行频次统计，确定每一修饰词语的频数；以及所述按照实体名称、关键短语和修饰词语的顺序输出针对所述中文文本的要义信息包括：根据实体名称的频数、关键短语的频数和修饰词语的频数，按照实体名称、关键短语和修饰词语的顺序输出针对所述中文文本的要义信息。

可选的，所述根据实体名称的频数、关键短语的频数和修饰词语的频数，按照实体名称、关键短语和修饰词语的顺序输出针对所述中文文本的要义信息包括：按照实体名称、关键短语和修饰词语的顺序，输出最高频数的实体名称、最高频数的关键短语和针对所述最高频数的关键短语的最高频数的修饰词语。

可选的，所述方法还包括：对所述中文文本进行聚类处理，以获得一个或多个子文本库；以及获取每个所述子文本库的要义信息，以得到所述中文文本的要义信息。

相应的，本发明实施例还提供了一种用于获取中文文本要义的装置，所述装置包括：实体识别模块，用于对所述中文文本进行实体识别处理，以确定具有特定意义的实体名称；提取模块，用于对所述中文文本进行关键短语提取；感情识别模块，用于确定每一所述关键短语之后最近的一个修饰词语；以及输出模块，用于按照实体名称、关键短语和修饰词语的顺出输出针对所述中文文本的要义信息。

可选的，所述装置还包括统计模块，用于执行以下操作：对所述实体名称进行频次统计，确定每个所述实体名称的频数；对所述关键短语进行频次统计，确定每个所述关键短语的频数；对同一个关键短语之后最近的修饰词语进行频次统计，确定每一修饰词语的频数；以及所述输出模块还用于根据实体名称的频数、关键短语的频数和修饰词语的频数，按照实体名称、关键短语和修饰词语的顺序输出针对所述中文文本的要义信息。

相应的，本发明实施例还提供了一种机器可读存储介质，该机器可读存储介质上存储有指令，该指令用于使得机器执行本申请上述中任一项所述的用于获取中文文本要义的方法。

相应的，本发明实施例还提供了一种处理器，所述处理器用于运行程序，所述程序运行时执行上述中任一项所述的用于获取中文文本要义的方法。

通过上述技术方案，可以确定中文文本中的关键信息和信息主体，还可以对关键信息做出进一步的判断，从而能够获得完整、清晰且准确的中文文本的要义信息。

本发明实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明实施例，但并不构成对本发明实施例的限制。在附图中：

图1示出了根据本发明一实施例的用于获取中文文本要义的方法的流程示意图；

图2示出了根据本发明一可选实施例的用于获取中文文本要义的方法的流程示意图；

图3示出了根据本发明一可选实施例的用于获取中文文本要义的方法的流程示意图；

图4示出了根据本发明一可选实施例的用于获取中文文本要义的方法的流程示意图；

图5示出了根据本发明一实施例的用于获取中文文本要义的装置的结构框图。

具体实施方式

以下结合附图对本发明实施例的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明实施例，并不用于限制本发明实施例。

需要说明的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

另外，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1示出了根据本发明一实施例的用于获取中文文本要义的方法的流程示意图。如图1所示，本发明实施例提供了一种用于获取中文文本要义的方法，该方法可以包括步骤S102至步骤S108。

在步骤S102中，对所述中文文本进行实体识别处理，以确定具有特定意义的实体名称。

对中文文本进行实体识别处理，可以确定所述中文文本中具有特定意义的实体的实体名称，以便确定出中文文本的要义信息中的主体。所述实体名称可以为职业名称、机构名称、人名、地名、商品名称以及一些专有名称等等。

可选的，可以采用任意的方法对中文文本进行实体识别处理，只要能够识别出中文文本中的实体名称即可，本发明实施例对此不进行特定限制。例如，可以采用一些常用的算法对中文文本进行实体识别处理，所述常用的进行实体识别处理的算法有HMM(HiddenMarkov Mode，隐马尔可夫)、ME(Maximum Entropy，最大熵)、SVM(Support VectorMachine，支持向量机)、CRF(Conditional Random Fields，条件随机场)等等。

可选的，可以将所述实体名称记为S。

在步骤S104，对所述中文文本进行关键短语提取。

关键短语是以凝练简洁的形式表示文本主题信息的词序列，具有强文本特性，能够鲜明的表示出文本的内容特性。一般文本中的文本信息的信息量是巨大的，因此，为了能够快速确定中文本文的要义信息，还需要对中文文本进行关键短语提取。

可选的，可以采用任意的方法对所述中文文本进行关键短语提取即可，本发明实施例对此不进行特定限制。例如，可以采用一些常用的算法对中文文本进行关键短语提取，所述常用的进行关键短语提取的算法有LDA算法、TF-IDF算法、贝叶斯排序学习算法等等。

可选的，可以将关键短语记为O。

在步骤S106，确定每一所述关键短语之后最近的一个修饰词语。

在确定每一个关键短语之后，还需要确定与每一个关键短语相关联的修饰词语，以使得所获悉的文本要义信息更加准确。

由于在同一个中文文本中，同一个关键短语会出现不止一次，而且每一个关键短语之后也会出现很多修饰词语。因此，为了能够准确确定中文文本的要义信息，简化方法流程，本发明该实施例提供的方法，仅需要确定在中文文本中，位于关键短语之后且与所述关键短语位置最接近的一个修饰词语。

例如，“这款手机的颜色很漂亮，系统很流畅，反应很快，非常满意”，在这段文本中，如果确定主题名称为“手机”，关键短语为“颜色”，在其后有很多修饰词语，例如有“漂亮”、“流畅”、“很快”和“满意”，但是在“颜色”之后最近的修饰词语为“漂亮”，所以“漂亮”就是关键短语“颜色”的修饰词。如果关键短语为“系统”，有关系统的修饰词语有“流畅”和“快”，按照上述原则，最后确定输出的修饰词语应当为“流畅”。

可选的，所述修饰语可以为副词或形容词。可以采用HMM(Hidden Markov Mode，隐马尔可夫算法)，Bootstrapping算法等算法识别中文文本的词语的词性，进而能够确定位于关键短语之后且与所述关键短语位置最近的形容词或副词。

可选的，可以将修饰词语记为A。

在步骤S108，按照实体名称、关键短语和修饰词语的顺序输出针对所述中文文本的要义信息。

在对一段中文文本经过步骤S102至步骤S106的处理之后，确定了实体名称S、关键短语O和修饰词语A。所述实体名称S、关键短语O和修饰词语A分别相当于主体、主体观点和情感，因此，按照实体名称S、关键短语O和修饰词语A的顺序输出数据即可表示出该中文文本的要义信息。

其中，由于在一段文本中，实体名称、关键短语和修饰词语都不是固定的，因此，本领域技术人员可以根据实际需要，设定实体名称、关键短语和修饰词语按照一定的规律输出，以便能够更加准确的确定该段中文文本的要义信息。

采用本发明实施例提供的方法对中文文本进行处理，可以确定中文文本中的热点和热点主体，还可以对热点信息做出进一步的判断，从而能够确定出一个完整的关于中文文本的要义信息，且所获取的中文文本的要义信息是完整、准确、清晰并且是容易理解的。

本发明实施例提供的技术方案，可以广泛应用于各种需要识别中文文本要义的情况，对获取的中文文本采用本发明实施例提供的方法进行处理和分析，可以高效且准确的获取中文文本中的有效信息。例如，对有关网友对热点新闻事件的表态和评论进行搜集整理后对文本进行处理，可以确定热点信息的主体和网友关于热点信息中的具体的某一方面的态度等等；用户网上商城购买商品以后会填写用户评论，通过本发明实施例提供的方法，可以确定用户对物流的速度、服务的态度、商品的质量、性能和价格等各个方面的评价、喜好倾向等，商家就可以针对这些信息进行改进和优化，提高用户体验度；还可以对企业和政府的投诉建议箱的留言采取上述方法进行处理和分析，确定投诉或建议的对象，关于这些对象的情感等，企业和政府就可以有针对性的处理和解决用户的投诉和建议，提高工作效率，优化用户体验等。

图2示出了根据本发明一可选实施例的用于获取中文文本要义的方法的流程示意图。如图2所示，基于上述实施例，本发明实施例提供的用于获取中文文本要义的方法还可以包括在执行步骤S106之后，可以执行步骤S110，并且上述的步骤S108可以步骤S112的方式执行。

在步骤S110，确定出每一关键短语之后最近的一个修饰词语之后、输出所述中文文本的要义信息之前，判断所述修饰词语的情感。

为了能够更加准确的理解中文文本的想要表达的含义，还需要对修饰词语进行情感判断，来确定某一段中文文本想要表达的是积极的情绪还是消极的情绪。

例如，“这款手机的颜色很漂亮，系统很流畅，反应很快，非常满意”，在这段文本中，确定关键短语“颜色”的修饰词语为“漂亮”，关键短语“系统”的修饰词语为“流畅”，并且“漂亮”和“流畅”都属于正面情感。通过对这段文本进行处理和分析，可以确定该文本想要表达的是对主体“手机”的一种肯定。

简单的来说，修饰词的情感可以分为正面情感(积极情感)和负面情感(消极情感)。详细点说，还可以包括中性情感。具体的，可以基于情感词库，采用朴素贝叶斯、ME(Maximum Entropy，最大熵)、SVM(Support Vector Machine，支持向量机)等算法实现修饰词语的情感分类和判断。

可选的，可以将正面情感记为A+，中性情感记为A0，负面情感记为A-。

在步骤S112，按照实体名称、关键短语、修饰词语和修饰词语的情感的顺序输出针对中文文本的要义信息。

在步骤S110中对修饰词语的情感进行了判断，因此，在输出时，可以按照以下格式进行输出：S、O、A(+/0/-)。例如，确定的主体名称为“教师”，关键短语是“职业资格证”，修饰词语为“没用”，则输出为：“教师(S)职业资格证(O)没用(A-)”。

本发明该实施例提供的技术方案，还对修饰词语做出了进一步的处理，确定了修饰词语表达的情感是正面情感、中性情感还是负面情感，这样进一步判断出修饰词语表示的情感，可以帮助理解中文文本的要义信息。

图3示出了根据本发明一可选实施例的用于获取中文文本要义的方法的流程示意图。如图3所示，本发明实施例提供的用于获取中文文本要义的方法可以包括步骤S302至步骤S308。

为了提高输出数据的清晰度和可选性，能够更准确的获取中文文本的要义信息，本发明该实施例提供的技术方案在输出实体名称、关键短语和修饰词语之前，需要先分别对实体名称、关键短语和修饰词语进行频次统计，然后根据频次统计的结果进行输出。

在步骤S302，对中文文本进行实体识别处理，以确定实体名称，并对实体名称进行频次统计，确定每个实体名称的频数。

在步骤S304，对中文文本进行关键短语提取，并对确定的关键短语进行频次统计，确定每个关键短语的频数。

在步骤S306，先确定每一个关键短语之后最近的一个修饰词语，并对同一个关键短语之后最近的修饰词语进行频次统计，确定每一修饰词语的频数。

优选的，在确定每一个关键短语之后最近的一个修饰词语时，所述关键短语和与所述关键短语位置最接近的一个修饰词语位于同一个句子中。这样可以将不是修饰关键短语的修饰词语剔除出去，提高所确定的中文文本要义信息的准确度。

例如，“这种车很便携，是碳钢材质的车身。它的充电速度很快，续航时间长。”，在这段文本中，如果确定主题名称为“车”，关键短语可以有“车身”和“充电速度”，在“车身”之后最近的修饰词语为“很快”，然而“车身”和“很快”不属于同一句话，因此，认定“很快”不是针对关键短语“车身”的修饰语，而是针对“充电速度”的修饰词语。

其中，对实体名称、关键短语和修饰词语进行频次统计的算法，可以是现有的能够实现词频统计的任何算法，本发明实施例对此不做任何限制。

对于一段中文文本来说，确定的关键短语可能会有多个，而每一个关键短语又可能会对应多个修饰词语。因此，为了提高本发明实施例该方法的严谨性、准确性和全面性，需要对每一个关键短语在中文文本中出现的频次进行统计，还需要对同一个关键短语之后的每一个修饰词语都进行频次统计。

此处统计的修饰词语的频数是指：修饰词语作为关键短语之后最近的修饰词语出现的频数，而不是该修饰词语在整个中文文本中出现的总频数，因为当关键短语与关键短语的修饰词语前后(即关键词语在前、修饰词语在后)同时出现时，这样的修饰词语对于关键短语确定有修饰作用，对文本要义有贡献，有统计的意义和价值。

在步骤S307，根据实体名称的频数、关键短语的频数和修饰词语的频数，按照实体名称、关键短语和修饰词语的顺序输出针对所述中文文本的要义信息。

可选的，在输出实体名称S、关键短语O和修饰词语A时，可以输出一组最高频数的S、最高频数的O、最高频数的A，还可以选择输出一组次高频数的S、次高频数的O、次高频数的A，还可以选择输出一组最低频数的S、最低频数的O、最低频数的A，还可以选择输出频数前N(N为正整数)的N组S、O、A。

可选的，在保持S的频数不变的同时，输出针对所述S的不同频数的O，再输出针对不同的O的最高频数的A，输出这样形式的数据可以帮助用户确定针对同一主体名称的不同的关键短语的情感。可选的，在确定实体名称S和关键短语O以后，还可以将针对确定的关键短语O的修饰词语A按照频数从小到大的顺序输出等，输出这样形式的数据可以帮助用户确定针对同一主体名称、同一关键短语的不同的情感。

可选的，还可以确定每一修饰词语表示的情感。在输出中文文本的文本要义时，可以在确定输出实体名称、关键短语以后，按照修饰词语的情感来输出有关确定的关键短语的修饰词语。例如，可以选择输出表示正面情感的有关确定的关键短语的修饰词语，还可以将表示正面情感的有关确定的关键短语的修饰词语按照频数从大到小的顺序输出等。

以上示例仅为解释本发明的技术方案，本领域技术人员可以根据实际需要，自行设定合适的输出规则。

本发明该实施例提供的技术方案，在确定实体名称、关键短语和修饰词语以后，还对实体名称、关键短语和修饰词语在文本中出现的频次进行了统计。在输出有关中文文本的要义信息时，用户就可以根据实际需要选择不同组合的输出数据，以满足用户对中文文本语义信息读取的要求。并且对同一段中文文本来说，不同的输出组合会有得到不同的侧重点要义信息，因此根据本发明实施例提供的技术方案，输出的实体名称、关键短语和修饰词语的组合可以是不固定，任意组合的，这样能够满足用户的不同需求。

图4示出了根据本发明一可选实施例的用于获取中文文本要义的方法的流程示意图。如图4所示，本发明实施例提供的用于获取中文文本要义的方法还可以包括步骤S402至步骤S410。

在步骤S402，对中文文本进行聚类处理，以获得若干个子文本库。

如果中文文本的数据过大，就表示这段中文文本的要义信息是复杂、繁多的，并且还会导致在对中文文本进行处理时的速度变慢，效率较低。因此，优选在对中文文本进行处理和分析之前，先将一大段的中文文本处理成若干个子文本库，再对所述若干个子文本库都进行处理和分析，可以准确且高效的确定每个子文本库的要义信息，从而能够确定整段中文文本的要义信息。

其中，通过对中文文本进行无监督机器聚类处理，可以按数据的内在相似性划分为多个类别，使的类别内的数据相似性较大而类别间的数据相似性较小。也就是说，最后获得的若干个子文本库中，不同子文本库之间的数据相似性较小，同一子文本库内的数据相似性较大，在此基础上，对同一子文本库内的数据进行处理和分析，可以准确且高效的确定该子文本库的要义信息。

可选的，可以通过K-means、DBSCAN等常用的无监督机器聚类算法来对中文文本进行机器聚类处理，以得到若干个聚类后的子文本库。

在将中文文本聚类成多个子文本库以后，需要对每一个子文本库都执行步骤S404至步骤S410的操作。

在步骤S404，对子文本库进行实体识别处理，以确定具有特定意义的实体名称。

通过上述步骤，就可以确定出子文本库内的要义信息的主体。

可选的，所述实体名称包括但不限制于职业名称、机构名称、人名、地名、商品名称以及一些专有名称等。

在步骤S406，对子文本库内进行关键短语提取。

在步骤S408，确定在同一子文本库中的每一关键短语之后最近的修饰词语。

具体的，针对同一个关键短语，需要确定这个关键短语所在的子文本库内的，位于所述关键短语之后的且距离最近的修饰词语，以便对关键短语做出进一步的判断。

可选的，所述修饰词语可以为形容词或副词。

可选的，在确定修饰词语之后，还可以对每一修饰词语进行情感判断，来确定该修饰词语表达的是积极的情绪还是消极的情绪。所述修饰词语的情感可以分为正面情感、中性情感和负面情感。

在步骤S410，按照实体名称、关键短语和修饰词语的顺序输出针对每一子文本库的要义信息。

可选的，如果对修饰词语进行了情感判断，那么还可以按照实体名称、关键短语、修饰词语和修饰词语情感的顺序输出针对每一子文本库的要义信息。

可选择，在对每一子文库进行上述步骤S404至步骤S408的处理时，还可以对确定的实体名称、关键短语和修饰词语在所在子文本库中的频次进行统计，确定各自的频数。并且在输出针对每一子文本库的要义信息时，还可以根据实体名称、关键短语和修饰词语各自的频数，以合适的组合进行输出。其中，获取每个子文本库的要义信息的具体执行过程与上文所述的获取文本库的要义信息的具体执行过程相类似，这里将不再赘述。

本发明该实施例提供的技术方案，通过对大段的中文文本进行聚类，可以确定若干个子文本库，便于进行处理和分析，提高效率，并且同一子文本库内的数据相似度较高，使得输出的要义信息更加准确。

本发明虽然公开了用于获取中文文本要义的方法，但是在可扩展实施例中，本发明实施例提供的方法也可以适用于获取任意其它类语言的文本要义，例如，英语文本、日语文本、韩语文本等。

图5示出了根据本发明一实施例的用于获取中文文本要义的装置的结构框图。如图5所示，本发明实施例还提供一种用于获取中文文本要义的装置，所述装置可以包括：实体识别模块510，用于对所述中文文本进行实体识别处理，以确定具有特定意义的实体名称；提取模块520，用于对所述中文文本进行关键短语提取；感情识别模块530，用于确定每一所述关键短语之后最近的一个修饰词语；以及输出模块540，用于按照实体名称、关键短语和修饰词语的顺序输出针对所述中文文本的要义信息。本发明该实施例提供的用于获取中文文本要义的装置可以确定中文文本中的关键信息和信息主体，还可以对关键信息做出进一步的判断，从而能够获得完整、清晰且准确的中文文本的要义信息。

可选的，所述实体名称可以为职业名称、机构名称、人名、地名、商品名称和专有名称中的至少一种。

可选的，所述修饰词语可以为副词或形容词。

进一步地，在确定出每一关键短语之后最近的一个修饰词语后、输出所述中文文本的要义信息之前，所述情感识别模块530还用于判断所述修饰词语的情感。

其中，所述修饰词语的情感可以分为正面情况和负面情感，或者可以分为正面情感、中性情感和负面情感等。

在所述情感识别模块530确定修饰词语和修饰词语的情感之后，所述输出模块540还用于按照实体名称、关键短语、修饰词语和修饰词语的情感的顺序输出针对中文文本的要义信息。

通过上述实施例，可以进一步判断出修饰词语表示的情感，帮助理解中文文本的要义信息。

进一步地，所述装置还可以包括统计模块，所述统计模块可以执行以下操作：对所述实体名称进行频次统计，确定每个所述实体名称的频数；对所述关键短语进行频次统计，确定每个所述关键短语的频数；以及对同一个关键短语之后最近的修饰词语进行频次统计，确定每一修饰词语的频数。所述输出模块540还可以用于根据实体名称的频数、关键短语的频数和修饰词语的频数，按照实体名称、关键短语和修饰词语的顺序输出针对所述中文文本的要义信息。

可选的，在确定每一实体名称的频数、每一关键短语的频数以及同一个关键短语之后最近的每一修饰词语的频数之前或之后，还可以通过所述情感识别模块530判断每一修饰词语的情感。所述输出模块540还可以根据实体名称的频数、关键短语的频数和修饰词语的频数，按照实体名称、关键短语、修饰词语和修饰词语的情感的顺序输出针对所述中文文本的要义信息。

进一步地，所述装置还可以包括聚类处理模块，用于在获取中文文本后对所述中文文本进行聚类处理，以获得一个或多个子文本库。所述实体识别模块510、提取模块520、感情识别模块530、统计模块等可以对每一子文本库进行数据处理，以确定每一子文本库的要义信息。所述输出模块540还可以输出针对每一子文本库的要义信息或者针对整个中文文本的要义信息。

相应的，本发明实施例还提供一种机器可读存储介质，该机器可读存储介质上存储有指令，该指令用于使得机器能够执行上述任意一种用于获取中文文本要义的方法。

本发明实施例提供的用于获取中文文本要义的装置的具体工作原理及益处与上述本发明实施例提供的用于获取中文文本要义的方法的具体工作原理及益处相似，这里将不再赘述。需要说明的是，用于获取中文文本要义的装置的各模块等均可作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来获取中文文本的要义信息。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本发明实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现所述用于获取中文文本要义的方法。

本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述用于获取中文文本要义的方法。

本发明实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现上述任意一种用于获取中文文本要义的方法。本文中的设备可以是服务器、PC、PAD、手机等。

本发明实施例还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如上述任意一种用于获取中文文本要义的方法步骤的程序。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种用于获取中文文本要义的方法，其特征在于，所述方法包括：

对所述中文文本进行实体识别处理，以确定具有特定意义的实体名称；

对所述中文文本进行关键短语提取；

确定每一所述关键短语之后最近的一个修饰词语；以及

按照实体名称、关键短语和修饰词语的顺序输出针对所述中文文本的要义信息。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在确定出每一关键短语之后最近的一个修饰词语后、输出所述中文文本的要义信息之前，判断所述修饰词语的情感；

所述输出针对所述中文文本的要义信息包括：按照实体名称、关键短语、修饰词语和修饰词语的情感的顺序输出针对所述中文文本的要义信息。

3.根据权利要求1所述的方法，其特征在于，

所述具有特定意义的实体名称为职业名称、机构名称、人名、地名、商品名称、专有名称中的至少一种；和/或

所述修饰词语为副词或形容词。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对所述实体名称进行频次统计，确定每个所述实体名称的频数；

对所述关键短语进行频次统计，确定每个所述关键短语的频数；

对同一个关键短语之后最近的修饰词语进行频次统计，确定每一修饰词语的频数；以及

所述按照实体名称、关键短语和修饰词语的顺序输出针对所述中文文本的要义信息包括：根据实体名称的频数、关键短语的频数和修饰词语的频数，按照实体名称、关键短语和修饰词语的顺序输出针对所述中文文本的要义信息。

5.根据权利要求4所述的方法，其特征在于，所述根据实体名称的频数、关键短语的频数和修饰词语的频数，按照实体名称、关键短语和修饰词语的顺序输出针对所述中文文本的要义信息包括：

按照实体名称、关键短语和修饰词语的顺序，输出最高频数的实体名称、最高频数的关键短语和针对所述最高频数的关键短语的最高频数的修饰词语。

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述方法还包括：

对所述中文文本进行聚类处理，以获得一个或多个子文本库；以及

获取每个所述子文本库的要义信息，以得到所述中文文本的要义信息。

7.一种用于获取中文文本要义的装置，其特征在于，所述装置包括：

实体识别模块，用于对所述中文文本进行实体识别处理，以确定具有特定意义的实体名称；

提取模块，用于对所述中文文本进行关键短语提取；

感情识别模块，用于确定每一所述关键短语之后最近的一个修饰词语；以及

输出模块，用于按照实体名称、关键短语和修饰词语的顺序输出针对所述中文文本的要义信息。

8.根据权利要求7所述的装置，其特征在于，所述装置还包括统计模块，用于执行以下操作：

所述输出模块还用于根据实体名称的频数、关键短语的频数和修饰词语的频数，按照实体名称、关键短语和修饰词语的顺序输出针对所述中文文本的要义信息。

9.一种机器可读存储介质，该机器可读存储介质上存储有指令，该指令用于使得机器执行本申请上述权利要求1-6中任一项所述的用于获取中文文本要义的方法。

10.一种处理器，所述处理器用于运行程序，其特征在于，所述程序运行时执行权利要求1-6中任一项所述的用于获取中文文本要义的方法。