CN106663087B - 文章生成系统 - Google Patents

文章生成系统 Download PDF

Info

Publication number
CN106663087B
CN106663087B CN201480080943.8A CN201480080943A CN106663087B CN 106663087 B CN106663087 B CN 106663087B CN 201480080943 A CN201480080943 A CN 201480080943A CN 106663087 B CN106663087 B CN 106663087B
Authority
CN
China
Prior art keywords
argument
article
word
sentence
message
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201480080943.8A
Other languages
English (en)
Other versions
CN106663087A (zh
Inventor
柳井孝介
三好利昇
柳瀬利彦
佐藤美沙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Publication of CN106663087A publication Critical patent/CN106663087A/zh
Application granted granted Critical
Publication of CN106663087B publication Critical patent/CN106663087B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种输出对于讨论话题的评论文的文章生成系统,其特征在于,包括:输入讨论话题的输入部;分析讨论话题,判定讨论话题的正反极性和检索中要使用的关键词的讨论话题分析部;使用关键词和表示讨论中的论点的论点词检索消息的检索部;确定生成评论文时使用的上述论点的论点确定部;从检索部所输出的消息中提取就论点所论述的语句的语句提取部;通过重新排列语句来生成文章的语句重新排列部;评价文章的评价部;对文章插入适当的连接词的改写部;和从多个上述文章中将评价最高的文章作为上述评论文输出的输出部。

Description

文章生成系统
技术领域
本发明涉及自动生成对于讨论话题的评论文的系统。
背景技术
输入由自然语言构成的文章,对所输入的文章进行分析,从由自然语言的数据构成的知识源收集关联的信息,对收集到的信息进行分析,进行组合等加工的基础上提示给用户的系统,其有用性正变得越来越高。作为这种系统的最近最受关注的系统的例子,有问答系统(question-answering)。
例如专利文献1中公开了一种通过确定词汇答案类型(LAT),进行检索,对检索结果使用LAT进行分析,由此构建问答系统的方法。
现有技术文献
专利文献
专利文献1:US8332394
发明内容
发明要解决的课题
但是,在像辩论那样正确的答案不止一个,随着各自的立场不同意见不同的情况下,难以用专利文献1的技术生成答案。在辩论中,在考虑阐述对于讨论话题的意见的论述文的情况下,由于没有单纯的正确答案,而是根据立场不同要考虑的价值不同,所以即使用LAT进行分析也无法将答案缩小范围到一个。
另外,专利文献1的技术中,作为答案只输出单一的名词短语或句子,不能输出由多个句子构成的文章。这些课题用上述的现有技术是不可能实现的。
本发明鉴于上述问题而完成,目的在于用系统自动生成像辩论中使用的那样的、阐述对于讨论话题的意见的论述文。
用于解决课题的方法
为了解决上述课题,例如采用在发明请求保护的范围中记载的结构。本发明包括多个解决上述课题的技术手段,举出一个例子,是一种输出对于讨论话题的评论文的文章生成系统,其特征在于,包括:输入讨论话题的输入部;分析讨论话题,判定讨论话题的正反极性和检索中要使用的关键词的讨论话题分析部;使用关键词和表示讨论中的论点的论点词检索消息的检索部;确定生成评论文时使用的论点的论点确定部;从检索部所输出的消息中提取就论点所论述的语句的语句提取部;通过重新排列语句来生成文章的语句重新排列部;评价文章的评价部;对文章插入适当的连接词的改写部;和从多个文章中将评价最高的文章作为评论文输出的输出部。
或者,是一种输出对于讨论话题的评论文的文章生成方法,其特征在于,包括:输入讨论话题的第1步骤;分析讨论话题,判定讨论话题的正反极性和检索中要使用的关键词的第2步骤;使用关键词和表示讨论中的论点的论点词检索消息的第3步骤;确定生成评论文时使用的论点的第4步骤;从在第3步骤输出的消息提取就论点所论述的语句的第5步骤;通过重新排列所述语句来生成文章的第6步骤;对文章进行评价的第7步骤;对文章插入适当的连接词的第8步骤;和从多个文章中将评价最高的文章作为上述评论文输出的第9步骤。
发明的效果
通过提取对于论点所阐述的语句并重新排列,能够生成阐述与立场相应的适当的意见的评论文。
附图说明
图1是表示本发明的文章生成系统的图。
图2是表示文本注释数据的图。
图3是表示论点体系(Ontology,论点实体)的例子的图。
图4是表示讨论话题分析部103的动作的图。
图5是表示检索部104的动作的图。
图6是表示论点确定部105的动作的图。
图7是表示语句提取部106中的动作的图。
图8是表示语句提取部106中的得分计算条件的一例的图。
图9是表示语句重新排列部107的动作的图。
图10是表示评价部108的动作的图。
图11是表示改写部109的动作的图。
图12是表示本发明的辩论系统的硬件结构例的图。
具体实施方式
下面,参照附图对本发明的实施方式进行说明。
[第1实施方式]
以下,对本发明的第1实施方式的文章生成系统进行说明。本发明的第1实施方式的文章生成系统,是包括结合了9个模块的生成系统和数据管理系统的系统。具体的硬件结构的例子如图12所示,由输入装置1202、输出装置1202、记录有执行各模块的程序的存储器1205、包括文本数据DB和文本注释数据DB113等的存储装置1207构成。
图1表示系统的整体图像。100是当输入讨论话题时,输出阐述针对该讨论话题的意见的论述文的生成系统。101是数据管理系统,是预先保存被进行了数据处理的数据,从系统100能够进行访问的系统。
在系统100中,依次执行9个模块。首先由输入部102从用户接受讨论话题的输入。并且,可以接受对于讨论话题是生成肯定的意见还是生成否定的意见的输入。像这样,通过明确要生成的文章的立场,能够将本系统用于像辩论这样的讨论的情况。
接着由讨论话题分析部103分析讨论话题,判定讨论话题的正反极性和检索中使用的关键词。接着,由检索部104用关键词和表示辩论的论点的论点词检索消息(新闻)。例如在讨论话题为“应该禁止赌场”的情况下,作为关键词可以举出名词短语“赌场”。进而,通过判定正反极性,能够确定对于“赌场”是使用肯定的论点词还是使用否定的论点词。此处所谓论点词,是指图3所示的论点体系中的全部单词,特别是在说“论点”的时候,是指300中记载的“表现讨论的观点的价值观的单词”。另外,“促进词”是指301中记载的“促进论点的词”。另外,“抑制词”是指302中记载的“抑制论点的词”。
对于上述讨论话题,在想要输出肯定意见的情况下,作为论点词选择抑制赌场的“抑制词”对作为关键词的“赌场”进行检索。
在此,讨论话题对“赌场”是否定的,所以采用作为论点词使用“抑制词”的处理。图3中记载了多个抑制词,但在检索中,通过对“赌场”像这样将论点词和关键词一起来进行检索,能够检索到对赌场论述肯定和否定的消息。如果仅利用从讨论话题中提取的关键词,则例如像关于赌场的宣传报道、只记述了去过赌场的感想的博客消息那样的在辩论中不需要考虑的消息也会大量包含在检索结果中,无法进行适当的检索。
接着,由论点确定部105对所输出的消息进行分类,确定生成意见时使用的论点。接着,由语句提取部106从所输出的消息中提取关于论点要进行阐述的语句。接着,由语句重新排列部107通过对所提取的语句进行重新排列来生成文章。接着,由评价部108对所生成的语句进行评价。接着,由改写部109插入适当的连接词,删除不要的表达。接着,由输出部110将评价最高的文章作为阐述意见的论述文输出。
数据管理系统101由4个数据库(Data Base)和接口/结构化部11构成。接口DB111提供针对数据库中被管理的数据的访问手段。文本数据DB112是新闻消息等的文本数据,文本注释数据DB113是被赋予文本数据DB112的数据。检索用索引DB114是用于能够检索文本数据DB112和注释数据DB113的索引。论点体系(Ontology,论点实体)DB115是将辩论中经常讨论的论点和其关联词相关联的数据库。
接着,在说明了数据管理系统101之后,对系统100的各部分进行说明。
存储于文本数据DB112中的数据是新闻消息等的文本数据,为了构成评论文而从该文本数据中提取适当的意见语句,通过将所提取的句子重新排列来生成论述文。因此,文本数据DB112是构成要输出的论述文的句子的数据源。从因特网抓取英语和日语的新闻消息来构成文本数据DB112。对各个数据例如分配doc_id作为识别符进行管理。
文本注释数据DB113是存储被赋予文本数据DB112的数据的DB。图2是表示文本注释数据的例子的图。id是对于注释唯一的识别符。doc_id表示存储于文本数据DB112中的新闻消息的id。"annotation"表示注释的种类。关于注释的种类在后面叙述。"begin"是注释的开始位置,在图2的例子中,是指该注释从文本数据的doc_id为001122的消息的第24字符开始。"end"是注释的结束位置,在图2的例子中,是指该注释从文本数据112的doc_id为001122的消息的第29字符结束。"ref"是对其他注释的引用,图2的例子中,是指该注释在id为125123的注释中具有名为"arg0"的链接,并且在id为125124的注释中具有名为"arg1"的链接。"attr"是注释所具有的属性,具有任意的哈希值。
作为文本数据,以“Experts said that casinos dramatically increase thenumber of crimes.(专家说赌场大大增加了犯罪的数量)”为例,对文本注释数据的附加方式进行说明。该语句是对赌场带来的危害进行阐述,所以在生成关于赌场的论述文时是有用的。在此,根据“increase”(增加)这一单词可知“casinos”(赌场)促进“the number ofcrimes”(犯罪率),所以对“increase”赋予"promote"的注释。在此,“increase”出现在文本数据“Experts said that casinos dramatically increase the number of crimes.”的第40个字符~第47个字符,所以"begin"=40,"end"=47。另外,促进的主体是“casinos”,所以对“casinos”赋予"promote_arg0"这样的另一注释。赋予该“casinos”的"promote_arg0"的id设想为125123。注释的id由系统自动地唯一地赋予。在这种情况下,为了知道“increase”与“casinos”的关系,从“increase”的"promote"注释链接到“casinos”的"promote_arg0"注释。这意味着图2中的“"arg0":["125123"]”。另外,根据“dramatically”能够估测促进的程度强,所以"degree"=4。"attr"的surface表示作为文本数据上的表达使用怎样的单词,在本例的情况下,promote的文本数据上的表达为“increase”,所以"surface"=increase。
作为注释的种类,有positive、negative、promote、promote_arg0、promote_arg1、suppress、suppress_arg0、suppress_arg1。positive是具有正面的价值的事情,自然语言上的表达例如为benefit(有益)、ethic(道德伦理)、health(健康)等。negative是具有负面的价值,自然语言上的表达例如为disease(疾病)、crime(犯罪)、risk(风险)等。promote是表示促进的表达,例如为increase(增加)、invoke(激活)、improve(改善)等。promote_arg0是促进的主体,promote_arg1是被促进的对象,如之前说明的那样在赋予promote注释时,根据其周围的句法信息被识别并被赋予。同样,suppress是表示抑制的表达,例如为decrease(降低)、stop(阻止)、worsen(恶化)等。suppress_arg0是抑制的主体,suppress_arg1是被抑制的事情,如之前说明的那样在赋予suppress注释时,根据其周围的句法信息被识别并被赋予。
这些注释能够对文本数据如上述说明的那样应用句法分析的结果预先生成的规则来生成。另外能够使用CRF++等被称为顺序式标记(sequential labeling)的机器学习方法等生成。
检索用索引DB114是用于能够检索文本数据DB112和文本注释数据DB113的索引数据。作为关键词检索用的索引数据,在类似检索用中例如用TF-IDF计算各文本数据的特征词的统计量,将其向量值作为类似检索用的索引预先存储。或者,使用Solr等软件,通过在Solr的索引生成用API中输入文本数据、文本注释数据,也能够自动生成检索用索引。
论点体系DB115是将辩论中经常讨论的论点和其关联词相关联的数据库。图3表示存储于论点体系DB115中的论点体系。栏300表示辩论中经常讨论的论点的价值。栏301表示促进该价值观的词。栏302表示抑制该价值观的词。例如,作为论点的例子有health(健康)。这意味着有时在辩论中以健康这一价值是增加还是减少的观点作为论点进行意见的对战。图3的例子中,作为促进health的价值的词,有exercise(运动)、doctor(医生)、organdonation(器官捐赠)、medicine(医学)等。另外,作为抑制health的价值的词,有junk food(垃圾食品)、tabacco(烟草)、alchohol(酒)、smoking(吸烟)等。论点体系最高不过是50行程度的数据库,以过去的辩论等为参考而手动生成。
接口部111是提供对文本数据DB112、文本注释DB113、检索用索引DB114、论点体系DB115的访问手段的接口,以REST等技术安装。
接着,对系统100的各部分进行说明。
由输入部102从用户接受讨论话题。从Web浏览器等GUI输入讨论话题。作为讨论话题的例子,有“We should ban smoking in train stations.(是否需要禁止在车站吸烟)”等。另外,可以输入后述的候补输出文的数量等的设定。
图4是表示讨论话题分析部103的动作的流程图。在S400中使用OpenNLP等估测讨论话题中所含的词的POS标签,分析讨论话题的语句的句法,生成句法分析树。在S401中提取作为中心的动词。回溯句法分析树,查找动词,将位于最靠近ROOT的位置的动作作为中心动词提取。另外对溯及动词之前Not等的否定表达的出现次数进行计数,如果次数为奇数则是否定表达,如果为偶数(双重否定等)则不是否定表达。例如在讨论话题“We should bansmoking in train stations.(我们应该禁止在火车站吸烟)”的情况下,作为动词提取ban(禁止),且对于ban没有否定表达,所以为无否定表达。
接着在S402中与词典比对,判定讨论话题的正反极性。词典中将accept(接受)、agree(同意)等表示对对象持肯定立场的动词和ban、abandon(放弃)等表示对对象持否定立场的动词区分开存储。在本例的情况下,ban通过与词典比对,被判定为是持否定立场的动词。将其与之前已提取出的有无否定表达一起来判定最终的讨论话题的正反极性。在本例中,正反极性被判定为是否定的(negative)。另一方面,在“We should not bansmoking.(我们不应该禁止吸烟)”的讨论话题的情况下,有否定表达、且ban为持否定立场的表达,所以正反极性判定为是肯定的(positive)。此处判定出的正反极性,是指在接下来的S403中要提取的名词短语的正反极性。
接着,在S403中提取作为讨论话题的主题的名词短语。从ROOT起仅对讨论话题的句法分析树中的具有"ROOT"、"S"、"NP"、"VP"、"SBAR"的句法标签的部分树进行搜索,挑出出现的名词短语。例如在讨论话题“We should ban smoking in train stations.”的情况下,提取smoking。接着在S404中提取上下文信息。将讨论话题中所含的词中POS标签为CC、FW、JJ、JJR、JJS、NN、NNP、NNPS、NNS、RP、VB、VBD、VBG、VBN、VBP、VBZ,且在S401和S403没有被提取的单词作为上下文信息提取。例如在讨论话题“We should ban smoking in trainstations.”的情况下,提取train、station。
接着在S405中进行同义词展开。使用词典计算在S401、S403、S404中提取出的词的同义词。词典可以使用例如WordNet等。例如在讨论话题“We should ban smoking intrain stations.”的情况下,作为名词短语提取了smoking,作为其同义词,计算出smoke、fume。同样,对于S401中提取出的动词和S404中提取出的表示上下文信息的单词也计算同义词。通过上述步骤,在讨论话题分析部103中从讨论话题中提取作为中心的动词、正反极性、作为主题的名词短语、上下文信息和它们的同义词。这些都会被用在后级的部件中。
图5是表示检索部104的动作的流程图。在S500中,从文本数据DB112中用检索用索引DB114的关键词检索用的索引检索包含从讨论话题中提取出的名词短语的消息,取出前1000件。在S501中同样地从文本数据112中用检索用索引114的关键词检索用的索引检索包含从讨论话题中提取出的名词短语和上下文信息的消息,取出前1000件。S501是在S500中加上了上下文信息作为关键词的检索。接着在S502中,计算作为讨论话题中的特征词的统计量的TF-IDF,提取检索用索引114的类似检索用的索引的与各消息的TF-IDF向量的欧几里得距离近的1000件。通过进行3个不同的变化的检索,具有不会漏检的效果。
接着,在S503中,按照下式对提取出的3000条消息进行计分。
得分=(从讨论话题中提取出的名词短语出现的次数)
+(论点体系内的单词出现的次数)
-(消息的新旧度)
此处消息的新旧度是指,如果最新年份为2014年,则2014年发行的消息为0,2013年发行的消息为1,2012年发行的消息为2。接着在S504中,输出得分高的上述100件消息。像这样,通过提高单词的出现次数高的消息的得分,能够发现与讨论话题、论点的关联性高的消息。另外,通过对消息的新旧度也进行计分,能够发现反映了较新的数据的消息,能够增加最终输出的文章的说服力。
图6是表示论点确定部105的动作的流程图。图6的流程对检索部104输出的各个消息执行。S600中对论点体系的全部论点k进行循环。图3的例子是以k=health、fortune、safety……的顺序进行循环。S601中,求取论点体系内的论点k、表示促进k的词、表示抑制k的词的在该消息中的TF-IDF。实际上,由于包含在用检索部104进行类似检索所用的TF-IDF向量中,所以从检索用索引114取得该值。TF-IDF按每个单词具有值、所以在论点k、表示促进k的词、表示抑制k的词存在多个TF-IDF。S602中,计算这些TF-IDF值之和,设为Sk。在S603中结束循环。S604中将Sk最大的k估测为该消息的论点。该论点表示该消息整体主要是以何种价值观为重点进行阐述。像这样,按每个消息判别论点,在之后的处理中按每个论点分组来生成文章,由此能够生成阐述贯穿全文的主张的评论文。因此,像这样按每个消息确定论点的处理是很重要的。
图7是表示语句提取部106中的动作的流程图。S700中,语句提取部106生成存储要输出的语句的空列表。S701中进行循环处理直到在对论点确定部所输出的全部消息的全部语句执行处理。S702中,按照图8所示的多个条件对语句进行计分。800表示条件的ID,801表示条件,802表示满足该条件时的点数。在符合图8的各条件的情况下,将对应的点数加分。语句的得分为全部点数之和。例如某个语句仅满足#1和#4的情况下,该语句的得分为6。在S703中得分的值为5以上,所以将该语句追加到在S700中所生成的列表中。在S704中结束循环。S705中将列表中的语句作为语句提取部106的输出。通过这样的结构,能够将一个消息中与讨论话题和论点无关的语句从接下来的语句重新排列部中要用的候补中除掉。
图9是表示语句重新排列部107的动作的流程图。S900中按每个论点将语句分组。论点确定部105中估测每个消息中观点是什么。由此以语句的提取源的消息的论点为关键将语句分组。例如当由论点确定部105确定的论点仅为5个时,由语句提取部106提取出的语句被分类为5组。S901中对全部组进行循环。S902中将组内的全部语句按是否符合主张、理由、对应例子的哪个种类进行标记(labeling)。该标记能够使用机器学习的方法。例如能够用Bag-of-words(词包模型)等公知的方法将语句转换为特征量向量,用SVM等机器学习方法将其分类。
接着,在S903中通过应用于模板来排列语句,生成论述文。例如在按主张→理由→例子→主张→理由→例子将主张、理由、例子重复两次的模板的情况下,首先,选择组中的语句的主张中由语句提取部106计算出的得分最高的主张。同样,以理由、例子、主张、理由、例子的顺序从得分高的起依次选择来填入模板。S904中结束循环。
像这样,在语句重新排列部107中,生成关于多个论点的论述文。然后,在接下来的评价部108中,对由语句重新排列部107生成的多个论述文进行评价,由此首次确定最终输出文章的论点、即本系统的论述文的立场或价值观。像这样,通过仅使用从确定为相同论点的消息中抽出的语句生成论述文,能够以一贯性的立场论述的文章。
图10是表示评价部108的动作的流程图。评价部108将重新排列生成的文章视作阐述对讨论话题的意见的论述文的候补,进行评价,将评价值高的文章作为最终的输出。S1000中对使用语言模型生成的论述文的好坏进行评价。这能够用与统计的机器翻译中使用的方法同样的方法实施。具体来说,收集由人作出的论述文的数据,将它们用n-gram语言模型或神经网络语言模式(Neural Network Language Model)等公知的方法预先模型化。通过对像这样生成的评价模型应用所生成的论述文并计算似然率,能够将似然率高的论述文作为评价值高的论述文输出。不必说评价方法并不限定于此,能够使用其他公知的方法或启发式的规则或基准,对所生成的论述文进行评价。
S1001中将评价值高的3个论述文输出。在评价部108中输入由语句重新排列部107按每个论点分组后的组数的论述文。通过S1001,输出最终的3个论述文。本实施例中,使用本系统的用户,为了容易在短时间内掌握文章的内容而输出3篇文章,但也可以根据通过输入部输入的用户的设定,变更要输出的文章的数量。通过采用这样的结构,能够进行与用户的知识水平相应的使用。
图11是表示改写部109的动作的流程图。S1100中对呼应关系的偏差进行修正。具体来说,在论述文的各语句中,对提取源的消息用上述的OpenNLP执行共同参照分析。使用其结果,找到作为论述文中的语句的代名词的参照对象的名词和固有名词,替换该代名词。S501中,补充上连接词。对论述文的连续的2个语句,如果在后面的语句的开头有连接词,则首先将其去除。接着,将连结前一语句的Bag-of-words和后一语句的Bag-of-words向量的向量作为特征量,用SVM估测连接词。S502中将包含固有名词的句子删除。仅对由语句重新排列部107判定为主张的语句,如果存在包含固有名词的句子则将其删除。
例如如果有“Expert said that casino dramatically increase the numberof crimes in Kokubunji-shi.(专家说赌场大大增加在国分寺市的犯罪数量)”这样的语句,则作为构成论述文的抽象的主张的语句,包含固有名词就显得不自然,所以将“inKokubunji-shi(在国分寺市)”的短语删除,输出为“Expert said that casinodramatically increase the number of crimes.(专家说赌场大大增加的犯罪数量)”。像这样,通过补上连接词,修正呼应关系,使重新排列的多个语句的抽象度变得相同,由此输出意思相同的文章作为辩论的评论文。
输出部110将作为系统的最终输出的论述文通过显示器等方式提示给用户。当然除了显示器的显示以外,也可以输出合成的声音。在实际的辩论的情况下,肯定方和否定方分别口头阐述意见,所以输出声音的方式对于用户来说能够进一步给予临场感。
综上所述,本实施例记载的文章生成系统,是一种输出针对讨论话题的评论文的文章生成系统,其特征在于,包括:输入讨论话题的输入部;分析讨论话题,判定讨论话题的正反极性和检索中要使用的关键词的讨论话题分析部;使用关键词和表示讨论中的论点的论点词检索消息的检索部;确定生成评论文时使用的论点的论点确定部;从检索部所输出的消息中提取就论点所论述的语句的语句提取部;通过重新排列语句来生成文章的语句重新排列部;评价文章的评价部;对文章插入适当的连接词的改写部;和从多个文章中将评价最高的文章作为评论文输出的输出部。
另外,本实施例记载的文章生成方法,是一种输出对于讨论话题的评论文的文章生成方法,其特征在于,包括:输入讨论话题的第1步骤;分析讨论话题,判定讨论话题的正反极性和检索中要使用的关键词的第2步骤;使用关键词和表示讨论中的论点的论点词检索消息的第3步骤;确定生成评论文时使用的论点的第4步骤;从在第3步骤输出的消息提取就论点所论述的语句的第5步骤;通过重新排列所述语句来生成文章的第6步骤;对文章进行评价的第7步骤;对文章插入适当的连接词的第8步骤;和从多个文章中将评价最高的文章作为上述评论文输出的第9步骤。
像这样,基于作为评论文的根本的论点,对消息进行分类,提取语句,重新排列文章,由此能够生成针对一个论点进行阐述的文章,能够使评论文保持一贯性。另外,不是像人在辩论中进行立论时那样,预先确定论点然后再收集信息,而是对全部的论点进行检索,生成语句的基础上,对多个论点一律进行评价,由此能够不拘泥于论点地生成具有说服力的评论文。
附图标记的说明
100…生成系统
101…数据管理系统
102…输入部
103…讨论话题分析部
104…检索部
105…论点确定部
106…语句提取部
107…语句重新排列部
108…评价部
109…改写部
110…输出部
111…接口
112…文本数据数据库
113…文本注释数据库
114…检索用索引数据库
115…论点体系数据库。

Claims (10)

1.一种文章生成系统,其特征在于:
包括运算装置和存储装置,其中,
所述存储装置存储下述数据:
消息的文本数据,和保存有论点词的论点数据,其中论点词包含讨论话题的论点,
在所述运算装置中,
接受讨论话题的输入,
生成所述讨论话题的句法分析树,
将所述句法分析树的具有规定句法标签的部分树中所含的名词短语确定为关键词,
从所述文本数据中检索包含所述关键词的消息,
基于检索结果中所含的消息中的所述论点词的出现次数,从所述检索结果中选择消息,
对于每个所选择的所述消息,计算消息中的与所述论点数据所含的各论点对应的抑制词和促进词的出现次数,其中所述抑制词是抑制所述论点的含义的词语,而所述促进词是促进所述论点的含义的词语,
对于每个所选择的所述消息,基于计算出的所述出现次数来从所述论点数据中确定论点,
对表示论点与语句的关联性的规定的条件与所选择的所述消息进行比较,基于比较结果从所选择的所述消息中提取就所确定的所述论点进行论述的语句,
基于所提取的所述语句的特征量,对所提取的所述语句分别附加表示该语句属于主张、理由或例子中的哪个种类的标记,
基于表示附有标记的语句的顺序的规定的模板,和所提取的所述语句上分别附加的标记,对所提取的所述语句重新排列来生成文章。
2.如权利要求1所述的文章生成系统,其特征在于:
所述存储装置存储下述数据:
对所述文本数据赋予的注释数据;和
根据所述文本数据和所述注释数据生成的检索用索引,该检索用索引是用于检索所述文本数据和所述注释数据的索引,
所述运算装置使用所述检索用索引的索引,从所述文本数据中检索包含所述关键词的消息。
3.如权利要求1所述的文章生成系统,其特征在于:
所述存储装置存储有评价模型,该评价模型用于根据文章计算评价值,
在所述运算装置中,
使用所述评价模型取得所生成的所述文章的评价值,
对多个所生成的所述文章中的评价值最高的文章插入连接词,将得到的文章作为对于所述讨论话题的评论文输出,
在插入所述连接词时,对所述评论文中所含的连续的语句各自的基于Bag-of-words的特征量进行比较,估测要插入到该连续的语句之间的连接词,并将所估测的所述连接词插入到该连续的语句之间。
4.如权利要求1所述的文章生成系统,其特征在于:
在所述运算装置中,
取得词典信息,该词典信息中区分地存储有对对象持肯定含义的肯定性动词,和对对象持否定含义的否定性动词,
基于所述讨论话题所含的否定表达,和所述讨论话题所含的由所述词典信息表示的所述肯定性动词和否定性动词,判断对于所述讨论话题的关键词的极性,
基于所述极性选择抑制词和促进词中的一者,其中所述抑制词是抑制所述论点的含义的词语,而所述促进词是促进所述论点的含义的词语,
检索包含所取得的所述一者和所述关键词的所述消息。
5.如权利要求3所述的文章生成系统,其特征在于:
在所述运算装置中,
计算多个所生成的所述文章各自与所述评价模型之间的似然率,
将多个所生成的所述文章之中的、计算出的所述似然率最高的文章,作为所述评论文输出。
6.一种文章生成系统的文章生成方法,其特征在于:
所述文章生成系统存储下述数据:
消息的文本数据,和保存有论点词的论点数据,其中论点词包含讨论话题的论点,
在所述文章生成方法中,
所述文章生成系统接受讨论话题的输入,
生成所述讨论话题的句法分析树,
将所述句法分析树的具有规定句法标签的部分树中所含的名词短语确定为关键词,
从所述文本数据中检索包含所述关键词的消息,
基于检索结果中所含的消息中的所述论点词的出现次数,从所述检索结果中选择消息,
对于每个所选择的所述消息,计算消息中的与所述论点数据所含的各论点对应的抑制词和促进词的出现次数,其中所述抑制词是抑制所述论点的含义的词语,而所述促进词是促进所述论点的含义的词语,
对于每个所选择的所述消息,基于计算出的所述出现次数来从所述论点数据中确定论点,
对表示论点与语句的关联性的规定的条件与所选择的所述消息进行比较,基于比较结果从所选择的所述消息中提取就所确定的所述论点进行论述的语句,
基于所提取的所述语句的特征量,对所提取的所述语句分别附加表示该语句属于主张、理由或例子中的哪个种类的标记,
基于表示附有标记的语句的顺序的规定的模板,和所提取的所述语句上分别附加的标记,对所提取的所述语句重新排列来生成文章。
7.如权利要求6所述的文章生成方法,其特征在于:
所述文章生成系统存储下述数据:
对所述文本数据赋予的注释数据;和
根据所述文本数据和所述注释数据生成的检索用索引,该检索用索引是用于检索所述文本数据和所述注释数据的索引,
在所述文章生成方法中,所述文章生成系统使用所述检索用索引的索引,从所述文本数据中检索包含所述关键词的消息。
8.如权利要求6所述的文章生成方法,其特征在于:
所述文章生成系统存储有评价模型,该评价模型用于根据文章计算评价值,
在所述文章生成方法中,
所述文章生成系统使用所述评价模型取得所生成的所述文章的评价值,
对多个所生成的所述文章中的评价值最高的文章插入连接词,将得到的文章作为对于所述讨论话题的评论文输出,
在插入所述连接词时,对所述评论文中所含的连续的语句各自的基于Bag-of-words的特征量进行比较,估测要插入到该连续的语句之间的连接词,并将所估测的所述连接词插入到该连续的语句之间。
9.如权利要求6所述的文章生成方法,其特征在于:
所述文章生成系统取得词典信息,该词典信息中区分地存储有对对象持肯定含义的肯定性动词,和对对象持否定含义的否定性动词,
基于所述讨论话题所含的否定表达,和所述讨论话题所含的由所述词典信息表示的所述肯定性动词和否定性动词,判断对于所述讨论话题的关键词的极性,
基于所述极性选择抑制词和促进词中的一者,其中所述抑制词是抑制所述论点的含义的词语,而所述促进词是促进所述论点的含义的词语,
检索包含所取得的所述一者和所述关键词的所述消息。
10.如权利要求8所述的文章生成方法,其特征在于:
所述文章生成系统计算多个所生成的所述文章各自与所述评价模型之间的似然率,
将多个所生成的所述文章之中的、计算出的所述似然率最高的文章,作为所述评论文输出。
CN201480080943.8A 2014-10-01 2014-10-01 文章生成系统 Active CN106663087B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2014/076237 WO2016051551A1 (ja) 2014-10-01 2014-10-01 文章生成システム

Publications (2)

Publication Number Publication Date
CN106663087A CN106663087A (zh) 2017-05-10
CN106663087B true CN106663087B (zh) 2019-08-16

Family

ID=55629642

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480080943.8A Active CN106663087B (zh) 2014-10-01 2014-10-01 文章生成系统

Country Status (5)

Country Link
US (1) US10496756B2 (zh)
EP (1) EP3203383A4 (zh)
JP (1) JP6466952B2 (zh)
CN (1) CN106663087B (zh)
WO (1) WO2016051551A1 (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10546063B2 (en) * 2016-12-13 2020-01-28 International Business Machines Corporation Processing of string inputs utilizing machine learning
JP6622430B2 (ja) * 2017-06-16 2019-12-18 日鉄ソリューションズ株式会社 情報処理装置、情報処理方法及びプログラム
JP6973157B2 (ja) * 2018-02-16 2021-11-24 日本電信電話株式会社 議論構造拡張装置、議論構造拡張方法、及びプログラム
CN108694160B (zh) 2018-05-15 2021-01-22 北京三快在线科技有限公司 文章生成方法、设备及存储介质
JP7117168B2 (ja) * 2018-06-14 2022-08-12 株式会社日立製作所 情報処理装置および情報処理方法
JP7156010B2 (ja) * 2018-12-26 2022-10-19 日本電信電話株式会社 発話文生成モデル学習装置、発話文収集装置、発話文生成モデル学習方法、発話文収集方法、及びプログラム
CN109885821B (zh) * 2019-03-05 2023-07-18 中国联合网络通信集团有限公司 基于人工智能的文章撰写方法及装置、计算机存储介质
KR102242392B1 (ko) * 2019-04-26 2021-04-20 주식회사 엔씨소프트 퀴즈 생성 장치 및 퀴즈 생성 방법
CN110096710B (zh) * 2019-05-09 2022-12-30 董云鹏 一种文章分析及自论证的方法
CN110245339B (zh) * 2019-06-20 2023-04-18 北京百度网讯科技有限公司 文章生成方法、装置、设备和存储介质
CN110717041B (zh) * 2019-09-19 2023-10-03 太极计算机股份有限公司 一种案件检索方法及系统
US11361759B2 (en) * 2019-11-18 2022-06-14 Streamingo Solutions Private Limited Methods and systems for automatic generation and convergence of keywords and/or keyphrases from a media
US11443211B2 (en) 2020-01-08 2022-09-13 International Business Machines Corporation Extracting important sentences from documents to answer hypothesis that include causes and consequences
CN111859982B (zh) * 2020-06-19 2024-04-26 北京百度网讯科技有限公司 语言模型的训练方法、装置、电子设备及可读存储介质
CN113609263B (zh) * 2021-09-30 2022-01-25 网娱互动科技(北京)股份有限公司 一种文章自动生成方法和系统
KR20240055290A (ko) * 2022-10-20 2024-04-29 주식회사 아이팩토리 자연어 생성 모델을 이용하여 텍스트를 자동으로 생성하는 기능을 갖는 문서 작성 장치, 방법, 컴퓨터 프로그램, 컴퓨터로 판독 가능한 기록매체, 서버 및 시스템

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101620596A (zh) * 2008-06-30 2010-01-06 东北大学 一种面向查询的多文档自动摘要方法
CN101667194A (zh) * 2009-09-29 2010-03-10 北京大学 基于用户评论文本特征的自动摘要方法及其自动摘要系统
CN101980196A (zh) * 2010-10-25 2011-02-23 中国农业大学 文章比对方法与装置
CN102262632A (zh) * 2010-05-28 2011-11-30 国际商业机器公司 进行文本处理的方法和系统
CN102279846A (zh) * 2010-06-10 2011-12-14 英业达股份有限公司 文章辅助写作系统及其方法
CN103917968A (zh) * 2011-08-15 2014-07-09 平等传媒有限公司 用于管理具有交互式评论流的评论网络的系统和方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7930302B2 (en) 2006-11-22 2011-04-19 Intuit Inc. Method and system for analyzing user-generated content
US8239189B2 (en) * 2008-02-26 2012-08-07 Siemens Enterprise Communications Gmbh & Co. Kg Method and system for estimating a sentiment for an entity
US20090265307A1 (en) 2008-04-18 2009-10-22 Reisman Kenneth System and method for automatically producing fluent textual summaries from multiple opinions
US8332394B2 (en) 2008-05-23 2012-12-11 International Business Machines Corporation System and method for providing question and answers with deferred type evaluation

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101620596A (zh) * 2008-06-30 2010-01-06 东北大学 一种面向查询的多文档自动摘要方法
CN101667194A (zh) * 2009-09-29 2010-03-10 北京大学 基于用户评论文本特征的自动摘要方法及其自动摘要系统
CN102262632A (zh) * 2010-05-28 2011-11-30 国际商业机器公司 进行文本处理的方法和系统
CN102279846A (zh) * 2010-06-10 2011-12-14 英业达股份有限公司 文章辅助写作系统及其方法
CN101980196A (zh) * 2010-10-25 2011-02-23 中国农业大学 文章比对方法与装置
CN103917968A (zh) * 2011-08-15 2014-07-09 平等传媒有限公司 用于管理具有交互式评论流的评论网络的系统和方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Natural sentence generation for serendipitous question answering system;Akihiro SAITO 等;《Dai 67 Kai reports of the meeting of special internet group on spoken language understanding and dialogue processing》;20130125;第1-6页
Opinion Reader:A system for summarizing and visualizing subjective information towards supporting decision making;Atsushi FUJII;《The Transactions of the institute of electronics, Information and communication engineers》;20080201;第J91-D卷(第2期);第459-470页
Opinion Retrieval from blogs using topic dependence opinion models;Yuki ARAI;《Database to web Joho system ni kansuru symposiun,IPSJ symposium series》;20071127;第2007卷(第3期);第1-7页

Also Published As

Publication number Publication date
WO2016051551A1 (ja) 2016-04-07
EP3203383A1 (en) 2017-08-09
CN106663087A (zh) 2017-05-10
JP6466952B2 (ja) 2019-02-06
US20170286408A1 (en) 2017-10-05
JPWO2016051551A1 (ja) 2017-06-01
US10496756B2 (en) 2019-12-03
EP3203383A4 (en) 2018-06-20

Similar Documents

Publication Publication Date Title
CN106663087B (zh) 文章生成系统
Gehman et al. Realtoxicityprompts: Evaluating neural toxic degeneration in language models
CN109241538B (zh) 基于关键词和动词依存的中文实体关系抽取方法
Devaraj et al. Paragraph-level simplification of medical texts
Simmons et al. Memes online: Extracted, subtracted, injected, and recollected
Vilares et al. A syntactic approach for opinion mining on Spanish reviews
Harabagiu et al. Negation, contrast and contradiction in text processing
Ferreira et al. A four dimension graph model for automatic text summarization
Bollegala et al. Metaphor interpretation using paraphrases extracted from the web
Alsaedi et al. Automatic summarization of real world events using twitter
KR101491628B1 (ko) 블로그에서 대중의 감성 변화에 영향을 미치는 키워드 추출 방법, 장치 및 시스템
Klein et al. A natural language processing pipeline to advance the use of Twitter data for digital epidemiology of adverse pregnancy outcomes
JP2019083040A (ja) 文章生成のためのデータを生成するシステム及び方法
Roy et al. Automated linguistic personalization of targeted marketing messages mining user-generated text on social media
Theijssen et al. On the difficulty of making concreteness concrete
Kutuzov et al. Cross-Lingual Trends Detection for Named Entities in News Texts with Dynamic Neural Embedding Models.
Karsdorp et al. Casting a spell: Identification and ranking of actors in folktales
Mitrofanova et al. Topic Modelling of the Russian Corpus of Pikabu Posts: Author-Topic Distribution and Topic Labelling.
Katsios et al. Towards Open Domain Event Extraction from Twitter: REVEALing Entity Relations.
Diamantini et al. Semantic disambiguation in a social information discovery system
CN108874775B (zh) 基于lda的网络舆情文档自动摘要方法
Sun et al. Stylometric and Neural Features Combined Deep Bayesian Classifier for Authorship Verification.
JP5441173B2 (ja) 関係情報抽出装置、その方法及びプログラム
Bauer et al. A methodology for evaluating timeline generation algorithms based on deep semantic units
Duraivel et al. VOD and OTT Content as a Therapeutic Measure to Improve Self-esteem: A Retrospective Analysis of user Generated Opinion using NLP Techniques

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant