CN106503255A

CN106503255A - 基于描述文本自动生成文章的方法及系统

Info

Publication number: CN106503255A
Application number: CN201611003822.0A
Authority: CN
Inventors: 张儒瑞; 何春江; 潘颂声; 宋铁
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2016-11-15
Filing date: 2016-11-15
Publication date: 2017-03-15
Anticipated expiration: 2036-11-15
Also published as: CN106503255B

Abstract

本发明公开了一种基于描述文本自动生成文章的方法及系统，该方法包括：接收待生成文章的描述文本；确定所述描述文本的主题，并将该主题作为待生成文章的主题；根据与所述主题对应的文本语料构建主题词图；根据构建的主题词图生成对应所述主题的文章。本发明可以提高生成文章的效率及准确性。

Description

基于描述文本自动生成文章的方法及系统

技术领域

本发明涉及自然语言处理领域，具体涉及一种基于描述文本自动生成文章的方法及系统。

背景技术

近年来，随着人工智能的快速发展，越来越多的人工工作被机器取代，如机器自动阅卷，阅卷时，预先给机器一些先验知识，机器即可公平公正地给出每份试卷的得分，所述先验知识如领域专家给出的评分标准或试卷的标准答案等；再如机器对口语考试自动打分，打分时，预先给机器一些先验知识，如每个考试题目的参考答案等。机器自动阅卷及机器对口语考试自动打分的实现，大大提升了传统人工实现这一过程的工作效率，同时大大减少了老师的工作量。然而，想让机器自动实现各种需求一般都需要预先给机器一些先验知识，如机器自动阅卷时，需要给出试题及相应参考答案，口语考试自动评分也是，尤其是对作文的自动评分参考文章尤其重要。传统的参考文章的生成方法一般由人工根据待生成文章的描述文本，手动找到与所述描述文本主题相同的文章，如果找不到相应主题的文章，需要由人工编写，人工工作量较大；尤其是对于机器自动阅卷的考试，一场考试往往包含多套试卷，并且每套试卷需要大量的参考文章，作为考试作文的参考答案，对学生作文进行评分；这样人工查找每套试卷对应主题的参考文章需要耗费大量的工作，同时，人工查找或编写参考文章，作为参考答案时，存在一定的主观性，针对同一套试题，不同人查找或编写参考文章时，主题会存在差异，从而影响参考答案的一致性，降低机器评分的准确度。

发明内容

本发明实施例提供一种基于描述文本自动生成文章的方法及系统，以提高生成文章的效率及准确性。

为此，本发明提供如下技术方案：

一种基于描述文本自动生成文章的方法，包括：

接收待生成文章的描述文本；

确定所述描述文本的主题，并将该主题作为待生成文章的主题；

根据与所述主题对应的文本语料构建主题词图；

根据构建的主题词图生成对应所述主题的文章。

优选地，所述方法还包括预先构建主题分类模型，具体包括：

收集大量文本语料并将其作为训练语料；

标注所述训练语料的主题类别；

对所述训练语料以句为单位进行分词，得到每句训练语料的词序列；

利用所述词序列及其对应训练语料的主题类别，构建主题分类模型；

所述确定所述描述文本的主题包括：利用预先构建的主题分类模型，确定所述描述文本的主题。

优选地，所述根据与所述主题对应的文本语料构建主题词图包括：

获取与所述主题对应的文本语料；

对所述文本语料进行扩展，所述扩展包括：同义句扩展及同义词扩展；

根据与所述主题对应的文本语料及扩展后的文本语料构建主题词图。

优选地，所述对所述文本语料进行扩展还包括：

根据所述主题对应的文本语料包含的词语的语义信息进行同类词的扩展；和/或

根据所述主题对应的文本语料包含的词语有密切联系的词进行联系词的扩展。

优选地，所述主题词图为有向无环图，图中每个节点表示文本语料中的每个词及其扩展词，有向边用于连接每个词与其在每句文本语料中的上下文词。

优选地，所述根据构建的主题词图生成对应所述主题的文章包括：

遍历所述主题词图找到生成文章的候选句子；

根据所述候选句子构建句子搜索图；

计算所述句子搜索图中每条路径上的句子与句子组合生成文章的置信度；

选择置信度高于设定置信度阈值的路径上的候选句子组合成对应所述主题的文章。

优选地，所述遍历所述主题词图找到生成文章的候选句子包括：

根据预先训练的语言模型及主题分类模型，搜索所述主题词图中得分较高的词序列所在路径，将所述路径上的词序列作为生成文章的候选句子。

优选地，所述句子搜索图使用有向无环图表示，其中每个节点表示一个候选句子，句子与句子之间的关系使用边连接，其中，同义句使用并连方式连接。

优选地，所述方法还包括：

如果有多个路径的得分都高于设定阈值，则生成对应所述主题的多个文章。

一种基于描述文本自动生成文章的系统，包括：

接收模块，用于接收待生成文章的描述文本；

主题确定模块，用于确定所述描述文本的主题，并将该主题作为待生成文章的主题；

词图构建模块，用于根据与所述主题对应的文本语料构建主题词图；

文章生成模块，用于根据构建的主题词图生成对应所述主题的文章。

优选地，所述系统还包括：

分类模型构建模块，用于预先构建主题分类模型；所述分类模型构建模块包括：

语料收集单元，用于收集大量文本语料并将其作为训练语料；

标注单元，用于标注所述训练语料的主题类别；

分词单元，用于对所述训练语料以句为单位进行分词，得到每句训练语料的词序列；

训练单元，用于利用所述词序列及其对应训练语料的主题类别，构建主题分类模型；

所述主题确定模块，具体用于利用预先构建的主题分类模型，确定所述描述文本的主题。

优选地，所述词图构建模块包括：

语料选择单元，用于获取与所述主题对应的文本语料；

语料扩展单元，用于对所述文本语料进行扩展，所述扩展包括：同义句扩展及同义词扩展；

词图生成单元，用于根据与所述主题对应的文本语料及扩展后的文本语料构建主题词图。

优选地，所述扩展还包括：

优选地，所述文章生成模块包括：

遍历单元，用于遍历所述主题词图找到生成文章的候选句子；

句子搜索图构建单元，用于根据所述候选句子构建句子搜索图；

置信度计算单元，用于计算所述句子搜索图中每条路径上的句子与句子组合生成文章的置信度；

句子组合单元，用于选择置信度高于设定置信度阈值的路径上的候选句子组合成对应所述主题的文章。

优选地，所述遍历单元，具体用于根据预先训练的语言模型及主题分类模型，搜索所述主题词图中得分较高的词序列所在路径，将所述路径上的词序列作为生成文章的候选句子。

优选地，所述句子组合单元，还用于在有多个路径的得分都高于设定阈值时，生成对应所述主题的多个文章。

本发明实施例提供的基于描述文本自动生成文章的方法及系统，基于待生成文章的描述文本，确定其主题，并将该主题作为待生成文章的主题，然后根据该主题构建描述文本的主题词图，最后根据构建的主题词图生成对应所述主题的文章。本发明方案可以高效准确地自动生成与描述文本相同主题的文章，大大节省了人工工作量。将本发明方案应用在自动阅卷中，可以有效保证自动阅卷的效率及准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本发明实施例中构建主题分类模型的流程图；

图2是本发明实施例基于描述文本自动生成文章的方法的流程图；

图3是本发明实施例中构建的主题词图示例；

图4是本发明实施例中根据构建的主题词图生成文章的流程图；

图5是本发明实施例中遍历图3所示的主题词图后得到的词序列得分较高的词图路径示例；

图6是本发明实施例中根据候选句子生成的句子搜索图示例；

图7是本发明实施例基于描述文本自动生成文章的系统结构示意图；

图8是本发明实施例中主题分类模型构建模块的结构示意图；

图9是本发明实施例中文章生成模块的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例的方案，下面结合附图和实施方式对本发明实施例作进一步的详细说明。

本发明实施例基于描述文本自动生成文章的方法及系统，基于待生成文章的描述文本，确定其主题，并将该主题作为待生成文章的主题，然后根据该主题构建描述文本的主题词图，最后根据构建的主题词图生成对应所述主题的文章。

在实际应用中，所述描述文本的主题可以是预先给定的，比如考试时的作文题目，可以限定其主题类型，比如人物类等，当然，也可以不限定其主题类型，而是由学生根据给出的描述文本的内容自主决定，或者由相应的系统根据描述文本的内容自动确定。

在本发明实施例中，为了进一步保证最终生成的文章与描述文本的主题相符，可以在确定描述文本的主题时，可以预先收集大量文本语料，构建主题分类模型，并根据该主题分类模型确定描述文本的主题。

如图1所示，是本发明实施例中构建主题分类模型的流程图，包括以下步骤：

步骤101，收集大量文本语料并将其作为训练语料。

所述文本语料的收集根据应用需求确定，如所述主题分类模型用于确定语文作文描述文本的主题时，收集的语料可以为语文教科书、教辅书、网络教学素材文本库中的语料；如果仅需要生成某一阶段学生阅读的文章，如小学生阅读的文章，则可以只收集小学阶段的教科书、教辅书、网络教学素材文本库等。

步骤102，标注所述训练语料的主题类别。

标注时，可以篇章为单位进行标注，所述篇章指可以包含一句或多句文本数据的文本段。

所述主题类别可以根据应用需求确定，如待生成文章为语文作文的参考文章时，所述主题类别可以为家乡类、食物类、风景类、动植物类、人物类、学习类、艺术类等。

步骤103，对所述训练语料以句为单位进行分词，得到每句训练语料的词序列。

所述词序列可以使用词向量表示，即每个词使用一个词向量表示；具体词向量的计算方法与现有技术相同，在此不再详述，如使用word2vec方法将词序列中每个词转换为向量的表示方式。

步骤104，利用所述词序列及其对应训练语料的主题类别，构建主题分类模型。

具体构建时，以篇章为单位，将每个篇章包含句子的词向量作为模型的输入，将每个篇章属于每个主题类别的概率作为模型的输出，利用收集的语料对模型参数进行训练，训练结束后得到主题分类模型参数。

所述主题分类模型可以采用模式识别中常用分类模型，如支持向量机模型、神经网络模型等。

如图2所示，是本发明实施例基于描述文本自动生成文章的方法的流程图，包括以下步骤：

步骤201，接收待生成文章的描述文本。

步骤202，确定所述描述文本的主题，并将该主题作为待生成文章的主题。

下面以基于前面提到的主题分类模型为例，说明利用该主题分类模型确定描述文本的主题的过程。

首先对所述描述文本进行分词，得到描述文本每句的词序列，将所述词序列转换成词向量后，作为主题分类模型的输入，输出为该描述文本属于每个主题类别的概率，选择最大概率对应的主题类别作为描述文本的主题。当然，如果需要，还可以依概率由大到小选择多个主题类别，从而在后续生成文章时可以分别生成对应不同主题的文章。

步骤203，根据与所述主题对应的文本语料构建主题词图。

在实际应用中，可以仅利用与所述主题对应的文本语料构建主题词图，当然，为了进一步提高构建的主题词图对当前主题词覆盖的完整性，也可以对与所述主题对应的文本语料进行扩展，同时利用与所述主题对应的文本语料及其扩展文本语料构建主题词图。

下面以综合利用这两种文本语料(即扩展前的文本语料及扩展后的文本语料)为例对构建主题词图的过程进行详细说明。

首先，获取与所述主题对应的文本语料。比如，可以从训练主题分类模型时使用的训练语料中获取与所述主题对应的文本语料，训练主题分类模型时使用的训练语料包含多个主题，每个主题包含大量文本数据。在构建词图时，仅需要根据描述文本确定的主题从中找到该主题对应的文本语料即可。当然，也可以从相应的语料库中选择训练语料之外的其它与所述主题对应的文本语料，对此本发明实施例不做限定。

其次，对所述文本语料进行同义句及同义词扩展。

所述同义句扩展，是指以句为单位进行扩展，也就是说，找到所述主题对应的文本语料中每一句文本语料的相似语料。具体扩展时，找到主题分类模型训练语料中与所述主题对应的文本语料中每一句文本相似度较高的句子，作为其同义句，从而对所述主题对应的文本语料进行句子扩展。需要说明的是，所述主题对应的文本语料中每一句文本可以有一句或多句同义句，所述同义句在主题分类模型训练语料中不属于所述主题。所述相似度计算方法可以采用现有技术，如直接计算两个句子的词向量距离，距离越小，相似度越高，将所述距离和小于阈值的句子作为同义句。

所述同义词扩展，是指以词为单位进行扩展，也就是说，找到所述主题对应的文本语料中每一句文本语料中每个词的同义词。具体扩展时，找到主题分类模型训练语料中与所述主题对应的文本语料每一句中词语相似度较高的词作为所述主题对应的文本语料中词的同义词，从而对所述主题对应的文本语料进行词扩展。需要说明的是，所述主题对应的文本中一个词可以有一个或多个同义词。所述相似度计算方法可以采用现有技术，如可以直接计算两个词向量的距离，距离越小，相似度越高，可以将所述距离小于阈值的词作为同义词。

进一步地，还可以根据所述主题对应的文本语料包含的词语的语义信息进行同类词的扩展。具体扩展时，将与所述主题对应的文本语料包含词语相同类别的词作为相应同类词，如“小学生”与“中学生”都属于学生类别，可以对“小学生”进行同类词扩展，扩展为“中学生”。一般情况下，当前词的同类词也与同义词一样，与当前词的相似度比较高。

进一步地，与当前词的相似度较高的词中还存在一些非同义词或同类词，但是有密切联系的词，如“苹果”与“乔布斯”，“middle school”与“class”、“students”、“president”等，也可以对与部分词有密切联系的词进行扩展，为了描述方便，将这种扩展称为联系词扩展。

如下为扩展示例

(1)同义句扩展：

当前主题对应的文本：I am a[middle school]student.

扩展的同义句如下：

1、I am from a[middle school].

2、I am student in a[middle school].

3、I study at a[middle school].

其中，[]中为扩展同义词的词语

(2)同义词扩展：

如对词[middle school]进行同义词扩展，同义词如下：

[high school]

[junior school]

[secondary school]

(3)同类词扩展：

如对词[middle school]进行同类词扩展，同类词如下：

[primary school]

[grade school]

最后，根据与所述主题对应的文本语料及扩展后的文本语料构建主题词图。

具体生成主题词图时，使用有向无环图表示，图中每个节点表示文本语料中的每个词及其扩展词(包含同义词或同类词等)；有向边用于连接每个词与其在每句文本语料中的上下文词。

如图3所示，为根据上例中文本语料生成的主题词图，该主题词图仅为示例，由于词图过大，省略了部分词图路径，实际生成的词图大小与当前主题对应的文本语料的大小有关。

步骤204，根据构建的主题词图生成对应所述主题的文章。

生成对应所述主题的文章时，需要先遍历所述主题词图，找到得分较高的多条词图路径，将路径上的词序列作为生成文章的候选句子；根据所述候选句子构建句子搜索图；计算所述句子搜索图中每条路径上的句子与句子组合生成文章的置信度；选择置信度高于设定置信度阈值的路径上的候选句子组合成对应所述主题的文章。当然，如果有多个路径的得分都高于阈值，则可以生成对应所述主题的多个文章。

根据构建的主题词图生成对应所述主题的文章的具体过程如图4所示，包括以下步骤：

步骤401，遍历主题词图找到生成文章的候选句子。

具体地，可以搜索所述主题词图中得分较高的词序列所在路径，将所述路径上的词序列作为生成文章的候选句子。具体搜索时，计算所述主题词图中每条路径上的词序列的得分，当所述路径上的词序列的得分大于设定阈值时，则保留该路径；否则，裁剪掉该路径；搜索完成后，将所述主题词图上保留的路径上的词序列作为生成文章的候选句子。例如，遍历图3所示主题词图后得到的词序列得分较高的词图路径如图5所示，其中虚线节点表示被裁剪掉的词图路径。

所述路径上的词序列的得分可以根据预先训练的语言模型及主题分类模型计算得到，具体计算时，直接计算主题词图上每条路径上的所有词序列的语言模型得分与该条路径上的词序列属于当前主题的概率的乘积，即可得到每条路径上的词序列的得分。所述语言模型可以使用主题分类模型的训练语料训练得到；具体训练方法与现有技术相同，在此不再详述。所述路径上的词序列的得分也可以直接使用该路径上所有词序列的语言模型得分的乘积，对此本发明实施例不做限定。

步骤402，根据生成文章的候选句子构建句子搜索图。

所述句子搜索图使用有向无环图表示，其中每个节点表示一个候选句子，句子与句子之间的关系使用边连接，其中，同义句使用并连方式连接，句子与句子之间有先后关系的概率P(sent(j)|sent(i))可以通过训练句子语言模型的方式得到。当P(sent(j)|sent(i))大于概率阈值时，则句子j在句子i之后，使用一条有向边从句子i连向句子j，依次计算每个候选句子之间有先后关系的概率，得到句子搜索图。需要说明的是，与前面提到的语言模型不同的是，前面提到的语言模型是指通常意义上的语言模型，即以词条为单位训练的语言模型，而此处所述的句子语言模型是以句子为单位训练的语言模型，即具体训练时，将每个句子看作一个词，训练语言模型；具体训练方法与现有技术相同，在此不再详述。

步骤403，计算所述句子搜索图中每条路径上的句子与句子组合生成文章的置信度。

根据得到的句子搜索图，计算每条路径上的句子与句子组合生成文章的置信度，所述置信度为每条路径上句子与句子之间语言模型(即前面提到的句子语言模型)得分的乘积，即由搜索图上其中一条路径上的句子s1,s2,…,sn生成文章C的置信度P(C)计算方法下式所示：

P(C)＝P(s1,s2,…,sn)

＝P(s1)P(s2|s1)P(s3|s1,s2)…P(sn|s1,s2,…,sn-1)

＝P(s1)P(s2|s1)P(s3|s2)…P(sn|sn-1)

其中，P(s1)P(s2|s1)P(s3|s2)…P(sn|sn-1)为句子搜索图上每个句子的语言模型得分。

如当前主题为“Self introduction”时，根据构建的主题词图生成的候选句子如下：

s1：

a、My name is Jim.

b、I am Jim.

s2:

a、I am a middle school student.

b、I am from a middle school.

s3:

a、I like my school.

根据所述候选句子生成的句子搜索图如图6所示。

假设每个句子的语言模型得分分别为：

P(s1)＝0.6、P(s2)＝0.4、P(s3)＝0.3，P(s1|s2)＝0.3，P(s1|s3)＝0，P(s2|s1)＝0.6，P(s2|s3)＝0，P(s3|s1)＝0.2,P(s3|s2)＝0.7

则可以搜索句子搜索图，计算每条路径的置信度如下：

P(S1,S2,S3)＝0.6*0.6*0.7＝0.252；

P(S1,S3,S2)＝0.6*0.2*0＝0

P(S2,S1,S3)＝0.4*0.3*0.2＝0.024

P(S2,S3,S1)＝0

…

步骤404，选择置信度高于设定置信度阈值的路径上的候选句子组合成对应所述主题的文章。

具体地，当所述置信度大于设定的置信度阈值时，使用当前路径上的句子按顺序组合形成待生成的文章；否则，可以裁剪掉置信度低于置信度阈值的路径。

本发明实施例提供的基于描述文本自动生成文章的方法，基于待生成文章的描述文本，确定其主题，并将该主题作为待生成文章的主题，然后根据该主题构建描述文本的主题词图，最后根据构建的主题词图生成对应所述主题的文章。本发明方案可以高效准确地自动生成与描述文本相同主题的文章，大大节省了人工工作量。将本发明方案应用在自动阅卷中，可以有效保证自动阅卷的效率及准确性。

进一步地，在构建主题词图时，不仅利用与所述主题对应的文本语料，而且还利用对所述文本语料进行扩展得到的文本语料，从而确保了构建的主题词图对当前主题词覆盖的完整性。

进一步地，在根据构建的主题词图生成对应所述主题的文章时，搜索主题词图中得分较高的词序列所在路径，将所述路径上的词序列作为生成文章的候选句子，再根据所述候选句子构建句子搜索图，计算所述句子搜索图中每条路径上的句子与句子组合生成文章的置信度，利用句子搜索图上置信度较高的路径上包含的句子生成文章。由于计算词序列得分时同时考虑了词序列语言模型得分及当前词序列属于当前主题的概率，因此进一步保证了生成文章与描述文本的主题的一致性。

相应地，本发明实施例还提供一种基于描述文本自动生成文章的系统，如图7所示，是该系统的一种结构示意图。

在该实施例中，所述系统包括：

接收模块701，用于接收待生成文章的描述文本；

主题确定模块702，用于确定所述描述文本的主题，并将该主题作为待生成文章的主题；

词图构建模块703，用于根据与所述主题对应的文本语料构建主题词图；

文章生成模块704，用于根据构建的主题词图生成对应所述主题的文章。

需要说明的是，在实际应用中，所述描述文本的主题可以是预先给定的，比如考试时的作文题目，可以限定其主题类型，比如人物类等，当然，也可以不限定其主题类型，而是由学生根据给出的描述文本自主决定，也可以由系统根据描述文本的内容来确定。比如，可以由相应的分类模型构建模块预先构建主题分类模型，相应地，所述主题确定模块702利用预先构建的该主题分类模型，确定所述描述文本的主题。

在实际应用中，所述分类模型构建模块可以作为本发明系统的一部分，也可以是独立于所述系统的模块，对此本发明实施例不做限定。

图8示出了本发明实施例中主题分类模型构建模块的一种结构示意图。

所述主题分类模型构建模块包括以下各单元：

语料收集单元801，用于收集大量文本语料并将其作为训练语料；

标注单元802，用于标注所述训练语料的主题类别，比如可以篇章为单位进行标注，所述篇章指可以包含一句或多句文本数据的文本段；

分词单元803，用于对所述训练语料以句为单位进行分词，得到每句训练语料的词序列；所述词序列可以使用词向量表示，即每个词使用一个词向量表示；

训练单元804，用于利用所述词序列及其对应训练语料的主题类别，构建主题分类模型。

所述主题分类模型可以采用模式识别中常用分类模型，如支持向量机模型、神经网络模型等。训练单元804在进行模型训练时，具体可以篇章为单位，将每个篇章包含句子的词向量作为模型的输入，将每个篇章属于每个主题类别的概率作为模型的输出，利用收集的语料对模型参数进行训练，训练结束后得到主题分类模型参数。

继续参照图7，其中所述的词图构建模块703在构建主题词图时，仅利用与所述主题对应的文本语料构建主题词图；也可以同时利用与所述主题对应的文本语料及其扩展文本语料来构建主题词图，以进一步提高构建的主题词图对当前主题词覆盖的完整性，相应地，词图构建模块703的一种具体结构可以包括以下各单元：

语料选择单元，用于获取与所述主题对应的文本语料；比如，可以从训练主题分类模型时使用的训练语料中获取与所述主题对应的文本语料；

语料扩展单元，用于对所述文本语料进行扩展，所述扩展包括：同义句扩展及同义词扩展；进一步地，所述扩展还可包括：根据所述主题对应的文本语料包含的词语的语义信息进行同类词的扩展；和/或根据所述主题对应的文本语料包含的词语有密切联系的词进行联系词的扩展；具体的扩展方式前面已有详细说明，在此不再赘述；

在本发明实施例中，所述主题词图为有向无环图，图中每个节点表示文本语料中的每个词及其扩展词，有向边用于连接每个词与其在每句文本语料中的上下文词。

继续参照图7，其中所述的文章生成模块704生成对应所述主题的文章时，需要先遍历所述主题词图，找到得分较高的多条词图路径，将路径上的词序列作为生成文章的候选句子；根据所述候选句子构建句子搜索图；计算所述句子搜索图中每条路径上的句子与句子组合生成文章的置信度；选择置信度高于设定置信度阈值的路径上的候选句子组合成对应所述主题的文章。

文章生成模块704的一种具体结构如图9所示，包括以下各单元：

遍历单元741，用于遍历所述主题词图找到生成文章的候选句子；

句子搜索图构建单元742，用于根据所述候选句子构建句子搜索图；所述句子搜索图使用有向无环图表示，其中每个节点表示一个候选句子，句子与句子之间的关系使用边连接，其中，同义句使用并连方式连接；

置信度计算单元743，用于计算所述句子搜索图中每条路径上的句子与句子组合生成文章的置信度；所述置信度的具体计算方式在前面已有详细说明，在此不再赘述；

句子组合单元744，用于选择置信度高于设定置信度阈值的路径上的候选句子组合成对应所述主题的文章。

需要说明的是，为了进一步保证生成文章与描述文本的主题的一致性，上述遍历单元741在计算词序列得分时，可以同时考虑词序列语言模型得分及当前词序列属于当前主题的概率。具体地，上述遍历单元741可以根据预先训练的语言模型及主题分类模型，搜索所述主题词图中得分较高的词序列所在路径，将所述路径上的词序列作为生成文章的候选句子。当然，所述遍历单元741在计算词序列得分时，也可以直接使用该路径上所有词序列的语言模型得分的乘积，对此本发明实施例不做限定。

另外，需要说明的是，在有多个路径的得分都高于设定阈值时，句子组合单元744可以根据这些路径上的词序列生成对应所述主题的多个文章。

本发明实施例提供的基于描述文本自动生成文章的系统，基于待生成文章的描述文本，确定其主题，并将该主题作为待生成文章的主题，然后根据该主题构建描述文本的主题词图，最后根据构建的主题词图生成对应所述主题的文章。本发明方案可以高效准确地自动生成与描述文本相同主题的文章，大大节省了人工工作量。将本发明方案应用在自动阅卷中，可以有效保证自动阅卷的效率及准确性。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本发明实施例进行了详细介绍，本文中应用了具体实施方式对本发明进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及系统；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于描述文本自动生成文章的方法，其特征在于，包括：

接收待生成文章的描述文本；

根据与所述主题对应的文本语料构建主题词图；

根据构建的主题词图生成对应所述主题的文章。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括预先构建主题分类模型，具体包括：

收集大量文本语料并将其作为训练语料；

标注所述训练语料的主题类别；

3.根据权利要求2所述的方法，其特征在于，所述根据与所述主题对应的文本语料构建主题词图包括：

获取与所述主题对应的文本语料；

4.根据权利要求3所述的方法，其特征在于，所述对所述文本语料进行扩展还包括：

5.根据权利要求3所述的方法，其特征在于，所述主题词图为有向无环图，图中每个节点表示文本语料中的每个词及其扩展词，有向边用于连接每个词与其在每句文本语料中的上下文词。

6.根据权利要求5所述的方法，其特征在于，所述根据构建的主题词图生成对应所述主题的文章包括：

遍历所述主题词图找到生成文章的候选句子；

根据所述候选句子构建句子搜索图；

7.根据权利要求6所述的方法，其特征在于，所述遍历所述主题词图找到生成文章的候选句子包括：

8.根据权利要求6所述的方法，其特征在于，所述句子搜索图使用有向无环图表示，其中每个节点表示一个候选句子，句子与句子之间的关系使用边连接，其中，同义句使用并连方式连接。

9.根据权利要求6至8任一项所述的方法，其特征在于，所述方法还包括：

10.一种基于描述文本自动生成文章的系统，其特征在于，包括：

接收模块，用于接收待生成文章的描述文本；

11.根据权利要求10所述的系统，其特征在于，所述系统还包括：

标注单元，用于标注所述训练语料的主题类别；

12.根据权利要求11所述的系统，其特征在于，所述词图构建模块包括：

语料选择单元，用于获取与所述主题对应的文本语料；

13.根据权利要求12所述的系统，其特征在于，所述扩展还包括：

14.根据权利要求12所述的系统，其特征在于，所述主题词图为有向无环图，图中每个节点表示文本语料中的每个词及其扩展词，有向边用于连接每个词与其在每句文本语料中的上下文词。

15.根据权利要求14所述的系统，其特征在于，所述文章生成模块包括：

16.根据权利要求15所述的系统，其特征在于，

所述遍历单元，具体用于根据预先训练的语言模型及主题分类模型，搜索所述主题词图中得分较高的词序列所在路径，将所述路径上的词序列作为生成文章的候选句子。

17.根据权利要求15所述的系统，其特征在于，所述句子搜索图使用有向无环图表示，其中每个节点表示一个候选句子，句子与句子之间的关系使用边连接，其中，同义句使用并连方式连接。

18.根据权利要求15至17任一项所述的系统，其特征在于，

所述句子组合单元，还用于在有多个路径的得分都高于设定阈值时，生成对应所述主题的多个文章。