CN1439979A - 解决方案数据编辑处理及自动概括处理装置和方法 - Google Patents
解决方案数据编辑处理及自动概括处理装置和方法 Download PDFInfo
- Publication number
- CN1439979A CN1439979A CN03105460A CN03105460A CN1439979A CN 1439979 A CN1439979 A CN 1439979A CN 03105460 A CN03105460 A CN 03105460A CN 03105460 A CN03105460 A CN 03105460A CN 1439979 A CN1439979 A CN 1439979A
- Authority
- CN
- China
- Prior art keywords
- solution
- data
- text
- candidate
- treating apparatus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明实现使用户能自由地编辑在利用机器学习处理自动概括时变成被监视数据的解决方案数据的编辑处理,并用该解决方案数据实现专用于用户的概括处理。创建一个用户对通过文本的自动处理而产生的摘要的评估,存储用文本和摘要作为问题和用输入的评估作为解决方案的案例数据。从所存储的案例中抽取一对解决方案和特征集合,并存储在什么特征易于产生什么解决方案的学习结果。之后,从处理目标文本中生成一个摘要候选,从文本和摘要候选中抽取一个特征集合,通过参考所存储的学习结果估计一个特征集合而生成一对摘要候选和估计解决方案,用该对的摘要候选作为摘要。
Description
技术领域
本发明涉及用于编辑在由机器学习方法自动概括文档、文章之类的处理中使用的解决方案数据的解决方案数据编辑处理,本发明也涉及利用可编辑的解决方案数据采用机器学习方法的自动概括处理。
背景技术
近年来,利用计算机概括文档、文章等的处理,随着信息技术的发展已经变得更加普遍。然而,期望的摘要倾向被认为由于个人偏好和概括目的的多样化而已经多样化。
利用以下的参考文献1,将描述摘要评估倾向的个人差异。在参考文献1中,当多个评估者通过个别地抽取重要句子进行概括时,获得表4中所表示的、作为对结果的相互评估测量的一个再现比率(reproduction ratio)和一个相关比率(relevance ratio)。从参考文献1的表4中显然可见,在通过从一组句子中抽取20句子进行概括的情况中,就评估者之间的相互评估(一个再现比率和一个相关比率)而言,评估者A、B、C的每一个的相合度(coincidence degree)在50-70%的范围,这并不太高。因此估计在摘要的评估中存在着个人差异。[参考文献1:Yamahiko Ito等:“从讲义句子中抽取重要句子”,语言处理学会,第七届语言处理学会年会论文集
(伊藤山彦 他、講演文を対象にした重要文抽出、言語処理学会第7回年次大会発表論文集),2001,pp305-308]
在以下的参考文献2中,也是关于重要句子抽取处理,表4中表示处理集合A、B、C的交叉验证(cross-verification)精度是最佳的。参考文献2的表4中所示的交叉验证的目标可被认为是与同一个评估者所作的处理是相同的。无从知道表4中的集合A、B、C是否由同一个人创建的。然而,处理精度至少在学习数据是同时地或者被同一个人创建时是良好的,这是很好理解的。[参考文献2:Tsutomu Hirao等:“通过支持向量机抽取重要句子”,信息学会,基础论文集
(平尾勉他、Support Vector Machineによる重要文抽出、情報学会基礎論文),63-16,2001,pp121-127]
常规的研究结果认为,在摘要的评估中存在着个人差异和使用差异。在采用机器学习方法的自动概括处理中,需要创建专用于个别用户的摘要,而不是根据相同的评估进行概括。为了实现这一点,在自动概括处理中,需要建立这样一种机制,其中,用户能自由地编辑要成为机器学习方法中的被监视数据(supervised data)的解决方案数据。
发明内容
因此,本发明的目的是实现一种解决方案数据编辑处理装置和方法,其中,用户能任意地编辑要成为在机器学习方法或摘要的评估中使用的解决方案数据的摘要。
本发明的另一个目的是实现一种自动概括处理装置和方法,其中,对应于每个用户的概括处理,能被机器学习方法用上述解决方案数据编辑处理的解决方案数据进行。
在本发明中,将摘要及其评估安排得使得用户能任意地编辑它们,以便能反馈就使用用以前提供的解决方案数据作为被监视数据的机器学习方法的自动概括处理而言什么摘要是被用户高度评价的信息。
按照本发明,提供一种解决方案数据编辑处理的方法,用于编辑在由机器学习方法进行的数字化文本的自动概括处理中使用的解决方案数据,该方法包含:在显示器上显示从文本生成的摘要;接收由用户设定的用作该摘要的评估的关于该摘要的评估信息;以及输出用该文本和摘要作为问题和用该评估作为解决方案的解决方案数据。
在本发明的解决方案数据编辑处理的方法中,该方法也包括:在显示器上显示文本;接收用户从文本规定的部分数据并用该部分数据作为摘要;以及输出用该文本和摘要作为问题并且其中给予该问题一个预定解决方案的解决方案数据。或者,在本发明的处理的方法中,该方法也包括:在显示器上显示文本;接收用户从文本规定的部分数据并用该部分数据作为摘要;以及输出用该文本作为问题并且其中给予该问题一个包括该摘要的预定解决方案的解决方案数据。
在上述的解决方案数据编辑处理的方法中,当用该部分数据作为摘要时,该方法进一步包括:按照用户的指令改变该部分数据的短语;以及用改变了的部分数据作为摘要。
此外,在本发明的解决方案数据编辑处理的方法中,该方法包含:在显示器上显示从文本生成的摘要;接收由用户关于该摘要的对每个评估质量规定的评估信息并用该评估信息作为质量评估;以及输出用每个评估质量的文本和摘要作为问题和用该质量评估作为解决方案的解决方案数据。
此外,本发明的解决方案数据编辑处理装置执行上述的每个处理过程。
在本发明中,通过将由用户编辑的摘要及其评估作为解决方案数据反馈给自动概括处理,在机器学习处理中也进行对应于个别用户的学习,以便进行专用于该用户的概括。
按照本发明的另一个方面,提供一种自动概括处理的方法,用于由机器学习方法利用用文本和文本的摘要作为问题和用摘要的评估作为解决方案的解决方案数据自动地概括数字化文本,该方法包括:按照用户的指令改变解决方案数据,访问存储改变了的解决方案数据的解决方案数据存储装置;从解决方案数据中抽取一对问题的特征集合和解决方案,学习从该对中什么特征易于产生什么解决方案,将学习结果数据存储在学习结果数据存储装置中;从输入文本数据中生成摘要候选;从该文本数据和摘要候选中抽取一个特征集合,根据学习结果数据估计从该特征集合中易于产生什么解决方案,获得一个是估计解决方案的可靠度因子(certainty factor),生成摘要候选和估计解决方案对;以及从来自摘要候选和估计解决方案的各对中的估计解决方案的各对中,选择估计解决方案的可靠度因子最大的一对,并用该对的摘要候选作为摘要。
在本发明的自动概括处理的方法中,该方法也包括:按照用户的指令改变解决方案数据,访问存储改变了的解决方案数据的解决方案数据存储装置;从解决方案数据中抽取一对解决方案或解决方案候选和问题的特征集合,学习从所抽取的各对中什么解决方案或解决方案候选和特征集合产生肯定性例子的概率或否定性例子的概率,将学习结果数据存储在学习结果数据存储装置中;从输入文本数据中生成摘要候选;从文本数据和摘要候选中抽取特征集合和解候选的一对,就特征集合和摘要候选的一对而言,估计肯定性例子的概率或否定性例子的概率,生成一对摘要候选和估计解决方案;以及从摘要候选和估计解决方案的各对中选择该估计解决方案的肯定性例子的可靠度因子最大的一对,并用所选择的该对的摘要候选作为摘要。
在上述自动概括处理的方法中,当访问解决方案数据存储装置时,被访问的解决方案数据存储装置存储其解决方案是关于摘要对每个评估质量的评估信息的解决方案数据;在从摘要候选和估计解决方案的一对中选择摘要时,接受每一个评估质量的成对的评估信息,选择摘要候选和具有与该成对信息最相似的估计解决方案的估计解决方案的一对,用该对的摘要候选作为摘要。
在本发明的自动概括处理的方法中,该方法也包括:按照用户的指令改变解决方案数据,访问存储改变了的解决方案数据的解决方案数据存储装置;从解决方案数据中抽取一对问题的特征集合和解决方案,学习从该对中什么特征易于产生什么解决方案,将学习结果数据存储在学习结果数据存储装置中;以及从输入文本数据中抽取特征集合,并根据学习结果数据估计从该特征集合中易于产生什么解决方案。
此外,本发明的自动概括处理装置是一种执行上述的自动概括处理方法的每个处理过程的装置。
按照本发明的处理装置的每个装置、功能或元件也可以由计算机可执行的处理程序实现。处理程序可以存储在适当的计算机可读的记录介质中,诸如可拆卸介质的存储器、半导体存储器或硬盘等中。处理程序也通过在这些记录介质上的记录而提供。或者,处理程序通过利用通过通信接口的通信网络的发送/接收而提供。
附图说明
图1是表示按照本发明第一实施例的处理装置的配置的例于的图示;
图2是表示按照第一实施例的评估用户化处理的流程图;
图3是表示一例要作为目标的文本的图示;
图4A是表示一例摘要的图示;
图4B是表示一例摘要的图示;
图4C是表示一例摘要的图示;
图5是表示图1中所示的处理装置中的机器学习处理和自动概括处理的流程图;
图6是表示按照本发明第一实施例的处理装置的配置的另一个例子的图示;
图7是表示图6中所示的处理装置中的机器学习处理和自动概括处理的流程图;
图8是表示按照本发明第二实施例的处理装置的配置的例子的图示;
图9是表示按照第二实施例的评估用户化处理的流程图;
图10是表示一例要显示的文本和一例由用户A规定的范围的图示;
图11是表示一例要显示的文本和一例由用户B规定的范围的图示;
图12是表示一例要显示的文本和一例由用户C规定的范围的图示;
图13是表示一例由用户规定的范围的显示的图示;
图14是表示按照本发明第二实施例的处理装置的配置的另一个例子的图示;
图15是表示按照本发明第三实施例的处理装置的配置的例子的图示;
图16是表示按照第三实施例的评估用户化处理的流程图;
图17是表示质量信息设置屏的例子的图示;
图18是表示质量信息设置屏的例子的图示;
图19是表示按照本发明第三实施例的处理装置的配置的另一个例子的图示;
图20是表示按照本发明第四实施例的处理装置的配置的例子的图示;
图21是表示图20中所示的处理装置中的机器学习处理和自动概括处理的流程图。
具体实施方式
以下,描述第一实施例。
图1表示按照本发明第一实施例的处理装置的配置的例子。自动摘要处理装置10包含评估用户化装置110,解决方案数据存储单元120,解决方案和特征对抽取单元121,机器学习单元122,学习结果数据存储单元123,摘要候选生成单元124,特征抽取单元125,摘要候选和估计解决方案对生成单元126,以及摘要选择单元128。
评估用户化装置110是用于实现解决方案数据编辑处理的处理装置。解决方案数据存储单元120、解决方案和特征对抽取单元121、机器学习单元122和学习结果数据存储单元123是用于实现在自动概括处理中执行的机器学习处理的处理装置。
评估用户化装置110是用于为每个用户定制一个摘要及其评估的装置,包括一个摘要显示单元111和一个评估创建单元112。
摘要显示单元111是一个用于在显示器(图1中未予示出)上显示预先准备的文本和摘要4的显示装置。文本和摘要4是包含文本及其摘要的数据。这里,文本的意思是包含一个或多个句子、段或章节一诸如文档、新闻、文章、杂志或书籍的文本数据。摘要是从文本中概括的文档数据。例如,摘要是由手工创建的,是由自动概括处理装置10为输入文本2输出的摘要3,或者是由摘要候选生成单元124生成的、存储在解决方案数据存储单元120中的摘要候选。
评估创建单元112是用于创建由用户为用摘要显示单元111显示的摘要输入的评估、或者把预先与摘要一起提供的评估改变成由用户输入的评估的装置。
解决方案数据存储单元120是用于存储要在机器学习单元122执行机器学习方法时作为被监督的数据的解决方案数据的装置。解决方案数据存储单元120以解决方案数据的形式存储一个案例,它是一对“问题”和“解决方案”,问题是由一个文本和文本的摘要组成的,解决方案是对摘要的评估。
解决方案和特征对抽取单元121,是用于为存储在解决方案数据存储单元120的每个案例抽取一对解决方案和特征集合的装置。特征的意思是用于分析的详细信息单位,在这里有如下的意思:(1)指示句子顺畅性的信息,(2)指示内容是否被适当表达的信息,(3)用于自动概括处理的特征信息。
机器学习单元122是用于由机器学习方法学习用解决方案和特征对抽取单元121从解决方案和特征集合的各对中抽取什么特征集合易于产生什么解决方案、并将学习结果保存在学习结果数据存储单元123中的装置。机器学习单元122可以通过应用使用任何方法的处理方法实现—条件是该方法是使用解决方案数据的机器学习方法。对于某处理方法来说,例如有决策树方法、支持向量方法、参数调整方法、简单贝叶斯(Baysian)方法、最大熵(entropy)方法和决策列表方法。
学习结果数据存储单元123是用于存储机器学习单元122的学习结果数据的装置。
摘要候选生成单元124是用于根据预定方法从输入文本2生成摘要候选的装置。摘要候选生成单元124用各种现有方法生成摘要候选,这些方法例如是重要句子选择模型、重要位置选择模型、使用转换规则的模型、使用随机生成的模型。
特征抽取单元125是用于抽取关于测试2和由摘要候选生成单元124生成的摘要候选的特征集合并把该特征集合传送给摘要候选和估计解决方案对生成单元126的装置。
摘要候选和估计解决方案对生成单元126是用于参考学习结果数据存储单元123中的学习结果数据就从特征抽取单元125传送的特征集合而言估计什么解决方案易于产生、并用于生成一对摘要候选和估计解决方案(摘要候选和估计解决方案对)127的装置。摘要候选和估计解决方案对生成单元126进一步获得一个可靠度因子(概率)并将其赋予摘要候选和估计解决方案对127。
摘要选择单元128是用于接收摘要候选和估计解决方案对127、并用于选择有最大可靠度因子的摘要候选和估计解决方案对127和用该摘要候选作为摘要3的装置。
为了解释按照第一实施例的评估用户化处理,考察三个用户A、B、C定制每一个摘要的情形。假设用户A通过重视摘要包括对精度的描述这一点来评估摘要。假设用户B通过重视摘要包括对方法的描述这一点来评估摘要。假设用户C通过重视摘要包括对精度和方法二者的描述这一点来评估摘要。也假设通过划分成三个等级,即通过分组(评估)成下述之一:评估1=好,评估2=中,评估3=差,来进行对摘要的评估。
图2表示按照第一实施例的评估用户化处理的流程图。首先假设已经准备好文本和摘要4。图3表示一例文本和摘要4,图4A、4B和4C表示摘要的例子。图4A-4C分别表示r1、r2和r3这三个摘要。
摘要显示单元111在显示屏上显示从文本和摘要4提取的摘要(步骤S1)。评估创建单元112接收用户输入的评估并用该输入评估作为所显示摘要的解决方案(评估)(步骤S2)。
这里,假设用户A使用自动概括处理装置10。用户A赋予图4A中的摘要r1“评估1”,因为与精度有关的某些东西被抽取作为摘要。当评估创建单元112接收用户输入的“评估1”时,评估创建单元112将评估1设置为案例c1的解决方案。
下一步,当摘要显示单元111显示图4B中所示的案例c2的摘要r2时,用户A赋予摘要r2“评估3”,因为与精度有关的某些东西没有被抽取在摘要r2中。评估创建单元112将评估3设置为案例c2的解决方案。
此外,当摘要显示单元111显示图4C中所示的案例c3的摘要r3时,用户A赋予摘要r3“评估2”,因为尽管与精度有关的某些东西被抽取在摘要r3中,但摘要r3还有些长。评估创建单元112将评估2设置为案例c3的解决方案。
以同样的方式,考察用户B的情形。用户B赋予图4A中的摘要r1“评估3”,因为有与方法有关的某些东西没有被抽取。用户B还赋予图4B中的摘要r2“评估1”,因为与方法有关的某些东西被抽取在摘要r2中。此外,用户B赋予图4C中的摘要r3“评估2”,因为尽管与方法有关的某些东西被抽取,但摘要r3还有些长。
以同样的方式,考察用户C的情形。用户C赋予图4A中的摘要r1“评估2,因为与精度有关的某些东西被抽取,然而,与方法有关的某些东西没有被抽取。用户C还赋予图4B中的摘要r2“评估2”,因为与方法有关的某些东西被抽取,然而,与精度有关的某些东西没有被抽取。此外,用户C赋予图4C中的摘要r3“评估1”,因为尽管摘要r3还有些长,但与方法有关的某些东西和与精度有关的某些东西都被抽取。
评估创建单元112分别为用户B和用户C设置对摘要r1-r3的输入评估,作为案例c1-c3的解决方案(评估)。
然后,评估用户化装置110将由文本和摘要4给出的文本、文本的摘要和解决方案作为一个案例存储在解决方案数据存储装置120中(步骤S3)。
图5表示机器学习处理和自动概括处理的流程图。解决方案和特征对抽取单元121从解决方案数据存储单元120为每个案例抽取一对解决方案和特征集合(步骤S11)。
解决方案和特征对抽取单元121例如抽取以下特征:(1)作为指示句子流畅性的信息—主体中k语法词素串的存在、具有修饰关系的从句之间的语义一致性,等等,(2)作为指示内容是否被表达的信息—概括之前的文本中含有的关键短语的包含率,等等,(3)作为用于自动概括的信息—句子位置和是否该句子是引导句子、TF/IDF(TF(Term Frequency):词条频率,表示文档中单词的出现次数或指示文档中词频的值;IDF(Inversed Document Frequency):逆文档频率,表示在预先具有的许多组文档中包含该单词的文档数的倒数)、文档的长度、诸如特定措辞的关键措辞的存在、连词和功能词等等。
然后,机器学习单元122学习从解决方案和特征集合的各对中什么特征集易于产生什么解决方案,并将学习结果存储在学习结构数据存储单元123中(步骤S12)。
这里,就用户A的处理而言,在解决方案数据存储单元120中存储的解决方案数据“案例:问题→解决方案”如下:
案例c1:文本-摘要r1→评估1,
案例c2:文本-摘要r2→评估3,
案例c3:文本-摘要r3→评估2,机器学习单元122通过机器学习,根据解决方案数据学到评估1到评估3是在什么情况中产生的。例如,从案例c1→评估1和案例c3→评估2,机器学习单元122学到,当出现精确的措辞时,例如出现措辞“数值字符+[%]”时,评估提高。这里,措辞“数值字符+[%]”是一例用于机器学习处理的特征。
另外,就用户B的处理而言,解决方案数据“案例:问题→解决方案”如下:
案例c1:文本-摘要r1→评估3,
案例c2:文本-摘要r2→评估1,
案例c3:文本-摘要r3→评估2,机器学习单元122学到,当出现对应于诸如“关键措辞”和“例子”之类的方法的技术术语时,评估提高。
另外,就用户C的处理而言,解决方案数据“案例:问题→解决方案”如下:
案例c1:文本-摘要r1→评估2,
案例c2:文本-摘要r2→评估2,
案例c3:文本-摘要r3→评估1,机器学习单元122学到,当出现对应于精度和方法的两种措辞时,评估提高。此外,由于要作为摘要输出的句子越短,就被评估得越好,就个别处理来说,进行学习,使得句子越短,就被评估得越好。
用作机器学习方法的,例如有简单贝叶斯方法、决策列表方法、最大熵方法和支持向量机方法。
简单贝叶斯方法是根据贝叶斯定理估计落入每个类别的概率的方法,将概率值最高的类别设置为要获得的类别。
决策列表方法中,设定特征和类别目标(classificationdestination)的各对作为规则,并以预定的优先顺序存储在一个列表中,当要成为检查目标的输入被给出时,从具有高优先级的对开始将输入数据与特征规则作比较,将具有匹配的特征的规则的类别目标设定为该输入的类别目标。
最大熵方法中,当假设预定的特征fj(1<=j<=k)集合是F时,当满足预定的条件措辞时、在最大化指示熵的措辞的时刻获得概率分布,将具有最高概率值的类别设定为要在按照概率分布获得的每个类别的概率中获得的类别。
支持向量机方法是一种通过将空间划分成超平面对包含两个类别的数据分类的方法。
决策列表方法和最大熵方法在下面的参考文献3中有说明,支持向量机方法在下面的参考文献4和5中有说明。[参考文献3:Masaki Murata、Masao Uchiyama、Kiyotaka Uchimoto、Ma Sei、Hitoshi Isahara,Resolving Multisense experiment usingvarious machine learning methods(采用各种机器学习方法解析多意试验),The Institute of Electronics,Information,andCommunication Engineers,Study group on languageunderstanding and communication(电子、信息和通信工程师学会,语言理解和通信研究组),
(村田真樹、内山将夫、内元清貴、馬青、井佐原均、種マの機械学習法を用いた多義解消実験、電子情報通信学会言語理解とコミユニケ一シヨン研究会),NCL2001-2,(2001)][参考文献4:Nello Crstianini和John Shawe-Taylor:AnIntroduction to Support Vector Machines and other kernel-based learning methods(Cambridge University Press,2000)(支持向量机和其它基于内核的学习方法的介绍,剑桥大学出版社,2000年)][参考文献5:Taku Kudoh,Tinysvm:Support Vector Machines(支持向量机)(http://c1.aist-nara.ac.jp/taku-ku//software/TnySvM/index.html,2000)”]
之后,输入要获得其摘要的文本2(步骤S13)。摘要候选生成单元124例如用下文所示的处理模型从文本2生成一个摘要候选(步骤S14) :
(a)重要句子选择模型
重要句子选择模型是一种用于通过设定句子为单位(unit)并只留下目标文本中被认为是重要的句子而获得摘要的模型。就这个模型而言,将在所有状态中选择的句子设定为解决方案候选是有效的。另外,如果所有解决方案都被选作候选而产生计算速度的问题时,采用一个预先准备好准则的选择规则,只有处于满足该选择规则的状态的句子才可以被设定为解决方案候选。这意味着通过使用预定的选择规则减少候选的数量而降低处理负荷。在这点上,选择规则数据可以是手工创建的规则。
(b)重要部分选择模型
重要位置选择模型是一种用于通过设定句子的较小部分为单位并从目标文本的句子中去除不必要的部分而获得摘要的模型。除了摘要的单位被设定为句子的较小部分以外,这个方法与上述的(a)重要句子选择模型相同。例如,单词、短语之类被用作句子的较小部分。具体来说,通过选择已经去除了不必要的部分的句子而获得摘要。就重要部分选择模型而言,选择所有状态中的所有予句(clause)设定为解决方案候选。另外,如果所有解决方案都被选作候选而产生计算速度的问题时,与上述的(a)重要句子选择模型中的方式相同,预先准备一个选择规则,只把处于满足该选择规则的状态的句子设定为解决方案候选。
(c)转换规则使用模型
转换规则使用模型是一种其中用预先准备的转换规则生成摘要的模型。转换规则是通过自动处理获得的或者是手工创建的。例如,预先创建一个将“执行X,然后执行Y”转换成“执行X”和“执行Y”的转换规则。当给出“执行A,然后执行B”这个输入时,就生成摘要候选“执行A”和“执行B”。
(d)随机生成使用模型
随机生成使用模型是这样一个模型,例如,如果给出输入“…X…”,则将“…Y…”设定为摘要候选。此时,要作替换的X可以随机地选择,或者可以按照一个预先准备的替换规则数据来规定。替换规则数据是通过手工创建的或自动获得的。替换目标措辞Y可以从某个字典或字符串集合的单词中随机地选择,或者可以由预先准备的替换规则数据来规定。如替换规则数据一样,用手工创建的数据或自动获得的数据等作为转换规则数据。此时,如果措辞X和措辞Y不是随机选择的,而是根据转换规则数据选择的,则输出与转换规则使用模型的输出相同。
特征抽取单元125通过与解决方案和特征对抽取单元121的几乎相同的处理,从输入的文本2和摘要候选中抽取一个特征集合,并把该特征集合传送给摘要候选和估计解决方案对生成单元126(步骤S15) 。
摘要候选和估计解决方案对生成单元126根据学习结果数据,就所接收的特征集合而言,估计易于产生什么解决方案。具体来说,根据学习结果数据计算多个摘要候选的各个解决方案(评估)和可靠度因子,然后生成摘要候选和估计解决方案的一个例(摘要候选和估计解决方案对)127(步骤S16)。
然后,摘要选择单元128从所生成的各个摘要候选和估计解决方案对127中选择具有最高可靠度因子的摘要候选和估计解决方案对127,并将该摘要候选设定为摘要3(步骤S17)。
图6表示按照本发明第一实施例的处理装置的配置的另一个例子。在本实施实例中,许多候选都可以被考虑作为解决方案(类别目标)。然而,可能会发生类别目标的种类数变得太多以至用一般机器学习方法不能进行处理的情形。在这种情况下,在图6中所示的自动概括处理装置20中,机器学习单元132使用这样一种机器学习方法,其中在实际的机器学习处理中,只考虑两类解决方案(类别目标),即肯定性例子和否定性例子。通过这个手段,即使在许多候选都被考虑作为解决方案(类别目标),并且有许多种类的类别目标时,也能进行处理。
此外,在图6中所示的自动概括处理装置20中,作为评估的信息,可被用作机器学习单元132中的学习的特征。
自动概括处理装置20包括评估用户化装置110、解决方案数据存储单元130、特征和解决方案对/特征和解决方案候选对抽取单元131、机器学习单元132、学习结果数据存储单元133、摘要候选生成单元134、特征和解决方案候选抽取单元135、摘要候选和估计解决方案对生成单元136、以及摘要选择单元138。
解决方案数据存储单元130、特征和解决方案对/特征和解决方案候选对抽取单元131、机器学习单元132和学习结果数据存储单元133是用于实现在自动概括处理中的机器学习处理的处理装置。摘要候选生成单元134、特征和解决方案候选对抽取单元135和摘要候选和估计解决方案对生成单元136是用于实现摘要候选生成处理的处理装置。
评估用户化装置110和摘要候选生成单元134执行与图1中所示的自动概括处理装置10中的评估用户化装置110和摘要候选生成单元124的相同的处理。
特征和解决方案对/特征和解决方案候选对抽取单元131,是用于从存储在解决方案数据存储单元130的每个案例抽取成对的解决方案或解决方案候选和特征集合的装置。这里,解决方案候选的意思是解决方案以外的候选解决方案,由用户设定的评估被设定为解决方案。另外,一对解决方案和特征集合被设定为肯定性例子,而一对解决方案候选和特征集合则被设定为否定性例子。
机器学习单元132是用于学习在来自解决方案或解决方案候选和特征集合的各对的什么解决方案或解决方案候选和特征集合中肯定性例子的概率和否定性例子的概率、并将学习结果保存在学习结果数据存储单元133中的装置。
特征和解决方案候选抽取单元135是用于用与特征和解决方案对/特征和解决方案候选对抽取单元131的相同的处理从输入的文本和摘要候选抽取一对解决方案候选和特征集合的装置。
摘要候选和估计解决方案对生成单元136是用于就从特征和解决方案候选抽取单元135传送的一对解决方案候选和特征集合而获得肯定性例子的概率和否定性例子的概率、将具有最高的肯定性例子的概率的解决方案设定为估计解决方案并在这个情况下生成一对摘要候选和估计解决方案(摘要候选和估计解决方案对)137的装置。
摘要选择单元138是用于将摘要候选和估计解决方案对137的摘要候选设定为摘要3的装置。
图7表示自动概括处理装置20中的机器学习处理和自动概括处理的流程图。特征和解决方案对/特征和解决方案候选对抽取单元131从解决方案数据存储单元130为每个案例抽取一对解决方案候选和特征集合(步骤S21)。
然后,机器学习单元132学习从解决方案或解决方案候选和特征集合的各对中选择的什么解决方案或解决方案候选和特征集合产生哪个肯定性例子的概率或否定性例子的概率,并将学习结果存储在学习结果数据存储单元133中(步骤S22)。
之后,输入要获得其摘要的文本2(步骤S23)。摘要候选生成单元134通过预定的方法从文本2生成一个摘要候选(步骤S24)。特征和解决方案候选抽取单元135从输入的文本2和摘要候选抽取一对特征集合和解决方案候选,将该对传送到摘要候选和估计解决方案对生成单元136(步骤S25)。
摘要候选和估计解决方案对生成单元136就所收到的解决方案候选和特征集合根据学习结果数据估计肯定性例子的概率或否定性例子的概率,将具有最高概率的候选设定为估计解决方案,然后生成摘要候选和估计解决方案对137(步骤S26)。摘要选择单元138设定摘要候选和估计解决方案对137的摘要候选作为摘要3(步骤S27)。
在第一实施例中,用户可以在必要时使用自动概括处理装置10,并可以在使用该装置时赋予该摘要输出以评估1到3。于是,用户定制摘要的评估时就能不感到操作上的工作负荷。
以下,将描述第二个实施例。
图8表示按照本发明第二实施例的处理装置的配置的例子。图8中所示的自动摘要处理装置30包括图1中所示的自动摘要处理装置10的除了评估用户化装置110以外的每个处理装置,并且也包括替代评估用户化装置110的评估用户化装置140。
评估用户化装置140包括文本显示单元141和一个摘要编辑单元142。
文本显示单元141是用于在显示器(图8中未予示出)上显示预先准备的文本5的装置。
摘要编辑单元142是用于从文本显示单元141所显示的文本5中抽取用户规定作为摘要的部分或者通过改变用户规定的部分中的措辞而编辑摘要的装置。
图9表示按照第二实施例的评估用户化处理的流程图。文本显示单元141提取预先准备的文本5,并在显示器上显示之(步骤S31)。
在显示的文本5上,用户规定适合作为摘要的部分,用户规定的范围被接受和抽取(步骤S32)。如果所规定的范围被编辑,则也接收编辑内容,然后,将编辑后的规定范围的部分作为摘要来使用(步骤S33) 。
用户通过使用诸如鼠标的指针设备在所显示的文本上拖动、或者通过移动光标键规定起点位置和终点位置,规定要用作摘要的范围。文本显示单元141通过使用显示器上的反色调或标记来区分未被规定的范围,而显示规定的范围。
图10表示一例要显示的文本和一例由用户A规定的范围。用户A规定以下部分为适合作为摘要的部分。
“在对目标小说进行实验时,对测试样本作过的分析,具有再现率84%和相关率82%的精确度。”
摘要编辑单元142用用户A规定的该部分(图10中由虚线矩形所指示的部分)作为摘要。
另外,用户B规定以下部分为适合作为摘要的部分。“在自然语言中,动词有时被省略。恢复被省略的动词对于实现交互式系统和高质量机器翻译系统来说是绝对必要的。因此,在这个研究中,根据表面措辞(关键词)和例子补充被省略的动词。”
摘要编辑单元142用用户B规定的该部分(图11中由虚线矩形所指示的部分)作为摘要。
另外,用户C规定以下部分为适合作为摘要的部分。“在自然语言中,动词有时被省略。恢复被省略的动词对于实现交互式系统和高质量机器翻译系统来说是绝对必要的。因此,在这个研究中,根据表面措辞(关键词)和例子补充被省略的动词”。“在对目标小说进行实验时,对测试样本作过的分析,具有再现率84%和相关率82%的精确度。”
摘要编辑单元142用用户C规定的该部分(图12中由虚线矩形所指示的部分)作为摘要。
在这点上,在显示屏上用户规定的范围可以与文本分开显示,对于规定范围内的措辞,用户还可以通过删除任意位置或改变措辞来编辑内容。例如,如图13中所示,摘要编辑单元142在与文本不同的域中显示在文本上规定的范围,在该范围中接受用户进行删除、增加、改变短语等的输入。
当图13中所示的显示屏上的摘要确定按钮被一个诸如点击鼠标的操作选择时,摘要编辑单元142接受选择,抽取该规定范围内的内容作为摘要。然后,当图13中所示的显示屏上的取消按钮被选择时,该规定范围内的内容被清除。
下一步,摘要编辑单元142将文本5和所抽取的摘要与预定的解决方案(好评估)一起存储在解决方案数据存储单元130中(步骤S34) 。
评估用户化装置140设定通过把一个预定的解决方案(差评估)加到一个用户规定的摘要以外的摘要而产生的数据—该摘要例如是按照第一实施例由自动概括处理装置20生成的摘要、由自动概括处理装置20的摘要候选生成单元124生成的摘要候选、或者作为解决方案数据随机手工创建的摘要,并把数据存储在解决方案数据存储单元130中。
随后,机器学习处理和自动概括处理的流程与图5中所示的处理的流程相同。这里,机器学习单元122为每个用户学习由图3中所示的文本和图10至12中所示的任何一个摘要(具体来说,用户所规定的范围)和解决方案构成的案例。
图14是表示按照本发明第二实施例的处理装置的另一个配置例子。在这个实施例中,会出现存在太多的解决方案(类别目标)和处理不能被一般机器学习方法执行的情况。
因此,在图14中所示的自动概括处理装置40中,机器学习单元132通过使用一种机器学习方法使得能够进行处理,在该机器学习方法中,只考虑两类解决方案(类别目标),即肯定性例子和否定性例子。
自动概括处理装置40包括图6中所示的自动摘要处理装置20的除了评估用户化装置110以外的每个处理装置,并且进一步包括替代评估用户化装置110的评估用户化装置140。
在本实施例中,由于用户在文本上规定适合作为摘要的范围,用户的工作负荷比第一实施例中的工作负荷重。然而,由于更接近于用户所需的摘要的数据被用作解决方案数据(被监督的数据),又可能更快地学习输出用户所需的摘要。
以下,将描述第三个实施例。
图15是表示按照本发明第三实施例的处理装置的配置的例子。图15中所示的自动概括处理装置50包括一个取代图1中所示的自动摘要处理装置10的评估用户化装置110的评估用户化装置150,并且也包括与构成自动摘要处理装置10的处理装置相同的处理装置,作为其它处理装置。
评估用户化装置150包括摘要显示单元151和质量信息设定单元152。
摘要显示单元151是用于在显示器(图15中未予示出)上显示文本的摘要及预先准备的摘要4的装置。
质量信息设定单元152是用于生成多条关于摘要的评估的质量信息和设定每个质量信息的评估的装置。
质量信息是关于构成摘要的评估的各种质量的信息,例如是:(1)是否要重视短句子(重视短句子)的信息;(2)是否重视摘要中包括关于数量的措辞的事实(重视定量措辞)的信息;(3)是否重视摘要中包括关于方法的措辞的事实(重视方法措词)的信息;(4)是否重视摘要摘要的写作风格(重视写作风格)的信息;(5)是否重视摘要的可读性(重视可读性)的信息。
评估用户化装置150的形成,使用户能设定多条关于符合用户需要的评估的质量信息,使得机器学习单元122能学习多条关于摘要的评估的质量信息的每一条。然后用多条质量信息定义用户对摘要的评估。
在本实施例中,解决方案数据存储单元120是对应于在质量信息设定单元152中设定的质量信息的条数准备的,并且对每条质量信息进行机器学习。相应地,对应于质量信息的条数,提供解决方案和特征对抽取单元121、机器学习单元122、学习结果数据存储单元123、摘要候选和估计解决方案对生成单元126的每一个。
图16表示该评估用户化处理的流程图。摘要显示单元151显示从文本和摘要4中提取的摘要(步骤S41)。质量信息设定单元152为所显示的摘要显示多个质量信息项,提示用户输入每项值、新项设定等等,并接收用户的输入(步骤S42)。
图17和18表示质量信息设置屏的例子。在质量信息设置屏上,提供对应于多条位置信息的每一条的滑动条。用户通过在任何位置设定一个滑动钮,例如在每个质量信息滑动条的右边或左边设定滑动按钮,就能规定每个质量信息的评估。例如,用户通过移动滑动条上的滑动钮,就每个质量信息项,例如就“重视短句子、重视定量措辞、重视方法、重视写作风格、重视可读性”,设定给予所显示摘要什么评估。在图17和18中,随着滑动钮在滑动条的方向上从左边移向右边,形成越来越高的评估。用户通过在滑动条的那一边上输入任何质量信息,就能自由地定义某个滑动条代表什么。
当摘要显示单元151显示图4A中所示的摘要r1时,如图17中所示,用户A将“重视短句子”滑动钮定位在右边,因为摘要r1是个短句子;将“重视定量措辞”滑动钮定位在右边,因为这里有关于数量的措辞;将“重视方法”滑动钮定位在左边,因为这里没有关于方法的描述;将“重视写作风格”滑动钮和“重视可读性”滑动钮定位在右边,因为写作风格和可读性不是那么差。
另外,当摘要显示单元151显示图4B中所示的摘要r2时,如图18中所示,用户A将“重视短句子”滑动钮移动到左边,以便给出低的评估,因为摘要r2不是那么短。由于其它质量信息相当好,将其它质量信息的滑动钮移到右边,以便给出高的评估。
然后,质量信息设定单元152设定每个质量信息的输入值作为每个解决方案,将对每个质量信息的解决方案与文本和摘要一起存储在解决方案数据存储单元120中(步骤S43)。
随后,机器学习处理和自动概括处理的流程几乎与图5中所示的处理的流程相同。这里,为每个质量信息提供的机器学习单元122用存储在对应的质量信息的解决方案数据存储单元120中的案例作为解决方案。
机器学习单元122对每个质量信息进行学习。例如,关于质量信息“重视短句子”,每个案例的解决方案如下:在案例c1(摘要r1)中,“解决方案=最右边”,在案例c2(摘要r2)中,“解决方案=左边”。机器学习单元122用这些解决方案数据作为被监视的数据来学习在什么案例中用重视短句子进行评估。对其他质量信息也进行同样的学习。
在本实施例中,在机器学习处理之后,摘要候选生成单元123通过预定的方法从输入文本2中生成一个摘要候选,特征抽取单元125从输入文本2和该摘要候选抽取一个特征集合。
然后,摘要候选和估计解决方案对生成单元126对应于每个质量信息,根据学习结果数据就所收到的特征集合估计易于产生什么解决方案,并生成摘要候选和估计解决方案的一对(摘要候选和估计解决方案对)127。例如,摘要候选和估计解决方案对生成单元126根据学习结果数据计算多个摘要候选的每个估计解决方案及其可靠度因子,为每个质量信息生成摘要候选和估计解决方案对127。
摘要选择单元128接收其中赋予了摘要的评估的质量信息的多少重要性的用户评估设定信息7,按摘要候选和估计解决方案对127比较每个质量信息的评估值和用户评估设定信息7,为用户评估设定信息7选择最相似的摘要候选和估计解决方案对、或者最适合的摘要候选和估计解决方案对,以设定摘要候选和估计解决方案对127的摘要候选作为摘要3。
摘要选择单元128可以显示如图17中所示的质量信息设定屏,提示用户通过改变每项质量信息的滑动条上的滑动钮的位置来设定当前必需的是摘要质量的用户评估设定信息7。
例如,当“重视短句子”滑动钮、“重视定量措辞”滑动钮和“重视方法”滑动钮移动到最右边,并将“重视写作风格”滑动钮和“重视可读性”滑动钮移动到最左边时,用户评估设定信息7的意思是,用户请求将摘要3改编成其中句子最好较短、有定量措词和方法、但是不管写作风格和可读性的质量评估。
作为摘要候选和估计解决方案对127的一个简单选择方法,摘要选择单元128也可以利用例如以下的表达式来获得所有解决方案的组合值Total_Score(总分)。
Total_Score=a(重视短句子)×score(重视短句子)
+a(重视定量措辞)×score(重视定量措辞)
+a(重视方法)×score(重视方法)
+a(重视写作风格)×score(重视写作风格)
+a(重视可读性)×score(重视可读性)
其中a(X)是一个从由用户规定的质量信息X的滑动条上的滑动钮的位置获得的值。该值随滑动钮在滑动条的右边的位置而变大。值score(X)是根据学习结果数据计算的质量信息X的评估的值。摘要选择单元128选择具有最大组合值Total-Score的摘要候选和估计解决方案对127,并输出该摘要候选作为摘要3。
在本实施例中,其中摘要被用在机器学习单元122中的处理方法,被显示并被用户评估,并且类似于在第一实施例中的处理。然而,在本实施例中,作为第二实施例中的机器学习方法,用户可以从文本中规定一个适合作为摘要的范围,用户进一步利用滑动条等评估多个关于评估的质量,并且可以收集是监督人信号的解决方案数据。在这种处理的情况下,就能应对即使同一个用户对每个处理请求一个不同类型的摘要的情形。并且也能同时学习多条质量信息,由此能在用户给出评估(解决方案)时降低整个处理负荷。
在本实施例中,可以使用具有如图19中所示的处理装置的配置的自动概括处理装置60。图19的自动概括处理装置60包括构成图6中所示的自动摘要处理装置20的、除了评估用户化装置110以外的每个处理装置的处理装置,并且包括取代评估用户化装置110的评估用户化装置150。
自动概括处理装置60通过采用一种在实际的机器学习处理中只考虑两类解决方案(类别目标)—即肯定性例子和否定性例子—的机器学习方法,能够避免机器学习处理中过重的处理负荷。
如上所述,通过本发明的各个实施例对本发明进行了说明,但是在本发明的范围内可以作出各种改变。例如,有可能对从第一到第三的实施例中的任意实施例进行组合。
以下,将说明第四个实施例。
图20表示按照本发明第四实施例的处理装置的配置的例子。图20中所示的自动概括处理装置70包括解决方案数据存储单元120、解决方案和特征对抽取单元121、机器学习单元122、学习结果数据存储单元123、特征抽取单元125、解决方案估计单元160以及评估用户化装置140。
自动概括处理装置70的每个单元,即解决方案数据存储单元120、解决方案和特征对抽取单元121、机器学习单元122、学习结果数据存储单元123、特征抽取单元125和评估用户化装置140,都是执行与图8中所示的具有相同标号的处理装置所执行的几乎类似的处理的处理装置。
解决方案估计单元160是用于参考学习结果数据存储单元123中的学习结果数据、估计就从特征抽取单元125传送的特征集合而言易于产生什么解决方案、并将估计解决方案161设定为摘要3的装置。
在本实施例中,解决方案数据存储单元120存储具有一个作为问题的文本和一个作为解决方案的该文本的摘要的解决方案数据,机器学习单元122利用从这些解决方案数据中抽取的解决方案和特征对进行机器学习。特征抽取单元125也抽取输入文本2的特征,并将其传送到解决方案估计单元160。
图21表示按照第四实施例的机器学习处理和自动概括处理。
解决方案和特征对抽取单元121从解决方案数据存储单元120为每个案例抽取一对解决方案和特征集合(步骤S51)。下一步,机器学习单元122学习从解决方案和特征集合的各对中什么特征集合易于产生什么解决方案,并将学习结果存储在学习结果数据存储单元123(步骤S52)。在这点上,步骤S51和S52中的处理与图5中所示的步骤S11和S12中的处理是相同的。
之后,输入要获得其摘要的文本2(步骤S53)。特征抽取单元125通过与解决方案和特征对抽取单元121几乎相同的处理,从输入的文本2抽取一个特征集合,并将其传送给解决方案估计单元160(步骤S54)。然后,解决方案估计单元160根据学习结果就所接收的特征集合而言估计易于产生什么解决方案,且设定该估计解决方案161作为摘要3(步骤S55)。
在本实施例中,利用具有作为解决方案的一个文本的摘要的解决方案数据进行机器学习,要成为摘要的估计解决方案是参考该学习结果直接在解决方案估计处理中获得的。
如上所述,通过本发明,用户能任意地设定对要成为机器学习的解决方案数据的摘要的估计。通过这种手段,即使在使用计算机的自动概括处理中,也能进行专用于用户的概括而不是按一个类别的概括。
另外,即使是同一个人作的摘要的评估,也被认为是变化的。通过本发明,即使由同一个人评估,也能按需设定一个摘要的评估。这样,通过用新的解决方案数据再次进行机器学习,就能进行适合新的评估方面的概括。
Claims (22)
1.解决方案数据编辑处理装置,用于编辑在由机器学习方法进行的数字化文本的自动概括处理中使用的解决方案数据,该装置包含:
摘要显示处理装置,用于在显示器上显示从文本生成的摘要;
评估创建处理装置,用于接收由用户设定的用作该摘要的评估的关于该摘要的评估信息;和
解决方案数据输出处理装置,用于输出用该文本和摘要作为问题和用该评估作为解决方案的解决方案数据。
2.解决方案数据编辑处理装置,用于编辑在由机器学习方法进行的数字化文本的自动概括处理中使用的解决方案数据,该装置包含:
文本显示处理装置,用于在显示器上显示文本;
摘要编辑处理装置,用于接收用户从文本规定的部分数据并用该部分数据作为摘要;和
解决方案数据输出处理装置,用于输出用该文本和摘要作为问题并且其中给予该问题一个预定解决方案的解决方案数据。
3.按照权利要求2的解决方案数据编辑处理装置,其中,摘要编辑处理装置进一步按照用户的指令改变该部分数据的短语,用改变了的部分数据作为摘要。
4.解决方案数据编辑处理装置,用于编辑在由机器学习方法进行的数字化文本的自动概括处理中使用的解决方案数据,该装置包含:
文本显示处理装置,用于在显示器上显示文本;
摘要编辑处理装置,用于接收用户从文本规定的部分数据并用该部分数据作为摘要;和
解决方案数据输出处理装置,用于输出用该文本作为问题并且其中给予该问题一个包括该摘要的预定解决方案的解决方案数据。
5.按照权利要求4的解决方案数据编辑处理装置,其中,摘要编辑处理装置进一步按照用户的指令改变部分数据的短语;用改变了的部分数据作为摘要。
6.解决方案数据编辑处理装置,用于编辑在由机器学习方法进行的数字化文本的自动概括处理中使用的解决方案数据,该装置包含:
摘要显示处理装置,用于在显示器上显示从文本生成的摘要;
评估创建处理装置,用于接收由用户规定的关于该摘要的每个评估质量的评估信息并用该评估信息作为质量评估;和
解决方案数据输出处理装置,用于输出用文本和摘要作为问题和用该质量评估作为每个评估质量的解决方案的解决方案数据。
7.解决方案数据编辑处理方法,用于编辑在由机器学习方法进行的数字化文本的自动概括处理中使用的解决方案数据,该方法包含:
在显示器上显示从文本生成的摘要;
接收由用户设定的用作该摘要的评估的关于该摘要的评估信息;和
输出用该文本和摘要作为问题和用该评估作为解决方案的解决方案数据。
8.解决方案数据编辑处理方法,用于编辑在由机器学习方法进行的数字化文本的自动概括处理中使用的解决方案数据,该方法包含:
在显示器上显示文本;
接收用户从文本规定的部分数据并用该部分数据作为摘要;和
输出用该文本和摘要作为问题并且其中给予该问题一个预定解决方案的解决方案数据。
9.按照权利要求8的解决方案数据编辑处理方法,其中,在概括该部分数据时,该方法进一步包括:按照用户的指令改变该部分数据的短语;用改变了的部分数据作为摘要。
10.解决方案数据编辑处理方法,用于编辑在由机器学习方法进行的数字化文本的自动概括处理中使用的解决方案数据,该方法包含:
在显示器上显示文本;
接收用户从文本规定的部分数据并用该部分数据作为摘要;和
输出用该文本作为问题并且其中给予该问题一个包括该摘要的预定解决方案的解决方案数据。
11.按照权利要求10的解决方案数据编辑处理方法,其中,当用该部分数据作为摘要时,该方法进一步包括:按照用户的指令改变该部分数据的短语;用改变了的部分数据作为摘要。
12.解决方案数据编辑处理方法,用于编辑在由机器学习方法进行的数字化文本的自动概括处理中使用的解决方案数据,该方法包含:
在显示器上显示从文本生成的摘要;
接收由用户关于该摘要的对每个评估质量规定的评估信息并用该评估信息作为质量评估;和
输出用每个评估质量的文本和摘要作为问题和用该质量评估作为解决方案的解决方案数据。
13.自动概括处理装置,用于由机器学习方法利用用文本和文本的摘要作为问题和用摘要的评估作为解决方案的解决方案数据自动地概括数字化文本,该处理装置包含:
解决方案数据存储装置,用于按照用户的指令改变解决方案数据,并存储改变了的解决方案数据;
机器学习处理装置,用于从解决方案数据中抽取一对问题的特征集合、和解决方案,学习从该对中什么特征易于产生什么解决方案,并将学习结果数据存储在学习结果数据存储装置中;
摘要候选生成处理装置,用于从输入文本数据中生成摘要候选;
摘要候选和估计解决方案对的生成装置,用于从文本数据和摘要候选中抽取一个特征集合,根据学习结果数据估计从该特征集合中易于产生什么解决方案,获得一个是估计解决方案的可靠度因子,用以生成一对摘要候选和估计解决方案;和
摘要选择处理装置,用于从摘要候选和估计解决方案的各对中选择估计解决方案的可靠度因子最大的一对,并用该对的摘要候选作为摘要。
14.按照权利要求13的自动概括处理装置,其中,
解决方案数据存储装置存储其解决方案是关于摘要的对每个评估质量的评估信息的解决方案数据;
摘要选择处理装置接受每一个质量评估的一个成对的评估信息,选择一对摘要候选和具有与该成对信息最相似的估计解决方案的估计解决方案,用该对的摘要候选作为摘要。
15.自动概括处理装置,用于由机器学习方法利用用文本和文本的摘要作为问题和用摘要的评估作为解决方案的解决方案数据自动地概括数字化文本,该处理装置包含:
解决方案数据存储装置,它按照用户的指令改变解决方案数据;
机器学习处理装置,用于从解决方案数据中抽取一对解决方案或解决方案候选和问题特征集合,学习从所抽取的各对中什么解决方案或解决方案候选和特征集合何时产生肯定性例子的概率或否定性例子的概率,将学习结果数据存储在学习结果数据存储装置中;
摘要候选生成处理装置,它从输入文本数据中生成摘要候选;
摘要候选和估计解决方案对的生成装置,它从文本数据和摘要候选中抽取一对特征集合和解决方案候选,根据学习结果数据估计什么解决方案或解决方案候选和特征集合对产生肯定性例子的概率或否定性例子的概率,生成一对摘要候选和估计解决方案;和
摘要选择处理装置,它从来自摘要候选和估计解决方案的各对中的估计解决方案的各对中,选择估计解决方案的可靠度因子最大的一对,并用该对的摘要候选作为摘要。
16.按照权利要求15的自动概括处理装置,其中,
解决方案数据存储装置存储其解决方案是关于摘要的对每个评估质量的评估信息的解数据;
摘要选择处理装置接受每一个评估质量的一个成对信息,选择摘要候选和具有与该对信息最相似的估计解决方案的估计解决方案的一对,用该对的摘要候选作为摘要。
17.自动概括处理装置,用于由机器学习方法利用用文本作为问题和用文本的摘要作为解决方案的解决方案数据自动地概括数字化文本,该处理装置包含:
解决方案数据存储装置,它按照用户的指令改变解决方案数据;
机器学习处理装置,它从解决方案数据中抽取一对问题的特征集合和解决方案,学习从该对中什么特征易于生成什么解决方案,将学习结果数据存储在学习结果数据存储装置中;
摘要候选生成处理装置,它从输入文本数据中生成摘要候选;
摘要候选和估计解决方案对的生成装置,它从文本数据和摘要候选中抽取一对特征集合和解决方案候选,根据学习结果数据估计什么解决方案或解决方案候选和特征集合对产生的肯定性例子的概率或否定性例子的概率,生成一对摘要候选和估计解决方案;和
解决方案估计处理装置,它从输入文本数据抽取一个特征集合,根据学习结果数据估计从该特征集合易于产生什么解决方案。
18.自动概括处理方法,用于由机器学习方法利用用文本和文本的摘要作为问题和用摘要的评估作为解决方案的解决方案数据自动地概括数字化文本,该方法包含:
按照用户的指令改变解决方案数据,并访问存储改变了的解决方案数据的解决方案数据存储装置;
从解决方案数据中抽取一对问题的特征集合和解决方案,学习从该对中什么特征易于产生什么解决方案,并将学习结果数据存储在学习结果数据存储装置中;
从输入文本数据中生成摘要候选;
从文本数据和摘要候选中抽取一个特征集合,根据学习结果数据估计从该特征集合中易于产生什么解决方案,获得一个是估计解决方案的可靠度因子,生成一对摘要候选和估计解决方案;和
从摘要候选和估计解决方案中选择估计解决方案的可靠度因子最大的一对,并用该对的摘要候选作为摘要。
19.按照权利要求18的自动摘要概括处理方法,其中,
当访问解决方案数据存储装置时,要被访问的解决方案数据存储装置存储其解决方案是关于摘要的每个评估质量的评估信息的解决方案数据;
在从一对摘要候选和估计解决方案中选择摘要时,选择摘要候选和具有与该对信息最相似的估计解决方案的一对估计解决方案,用该对的摘要候选作为摘要。
20.自动概括处理方法,用于由机器学习方法利用用文本和文本的摘要作为问题和用摘要的评估作为解决方案的解决方案数据自动地概括数字化文本,该方法包含:
按照用户的指令改变解决方案数据,并访问存储改变了的解决方案数据的解决方案数据存储装置;
从解决方案数据中抽取一对解决方案或解决方案候选和问题的特征集合,学习从所抽取的各对中什么解决方案或解决方案候选和特征集合产生肯定性例子的概率或否定性例子的概率,将学习结果数据存储在学习结果数据存储装置中;
从输入文本数据中生成摘要候选;
从文本数据和摘要候选中抽取一对特征集合和解决方案候选,就特征集合和摘要候选的一对,估计肯定性例子的概率或否定性例子的概率,生成一对摘要候选和估计解决方案;和
从摘要候选和估计解决方案的各对中选择估计解决方案的肯定性例子的可靠度因子最大的一对,并用所选择的该对的摘要候选作为摘要。
21.按照权利要求20的自动概括处理方法,其中,
当访问解决方案数据存储装置时,被访问的解决方案数据存储装置存储其解决方案是关于摘要的对每个评估质量的评估信息的解数据;
在从一对摘要候选和估计解决方案中选择摘要时,接受每一个评估质量的成对的评估信息,选择摘要候选和具有与该成对信息最相似的估计解决方案的估计解决方案的一对,用该对的摘要候选作为摘要。
22.自动概括处理方法,用于由机器学习方法利用用文本作为问题和用文本的摘要作为解决方案的解决方案数据自动地概括数字化文本,该方法包合:
按照用户的指令改变解决方案数据,并访问存储改变了的解决方案数据的解决方案数据存储装置;
从解决方案数据中抽取一对问题的特征集合和解决方案,学习从该对中什么特征易于产生什么解决方案,将学习结果数据存储在学习结果数据存储装置中;和
从输入文本数据中抽取特征集,并根据学习结果数据估计从该特征集合中易于产生什么解决方案。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP45925/2002 | 2002-02-22 | ||
JP45925/02 | 2002-02-22 | ||
JP2002045925A JP2003248676A (ja) | 2002-02-22 | 2002-02-22 | 解データ編集処理装置、解データ編集処理方法、自動要約処理装置、および自動要約処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1439979A true CN1439979A (zh) | 2003-09-03 |
CN100419733C CN100419733C (zh) | 2008-09-17 |
Family
ID=27750608
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB031054609A Expired - Fee Related CN100419733C (zh) | 2002-02-22 | 2003-02-21 | 解决方案数据编辑处理及自动概括处理装置和方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US7120613B2 (zh) |
JP (1) | JP2003248676A (zh) |
CN (1) | CN100419733C (zh) |
Families Citing this family (40)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7475334B1 (en) * | 2000-01-19 | 2009-01-06 | Alcatel-Lucent Usa Inc. | Method and system for abstracting electronic documents |
JP3682529B2 (ja) * | 2002-01-31 | 2005-08-10 | 独立行政法人情報通信研究機構 | 要約自動評価処理装置、要約自動評価処理プログラム、および要約自動評価処理方法 |
US8428934B2 (en) * | 2010-01-25 | 2013-04-23 | Holovisions LLC | Prose style morphing |
US7363214B2 (en) * | 2003-08-08 | 2008-04-22 | Cnet Networks, Inc. | System and method for determining quality of written product reviews in an automated manner |
US20050255431A1 (en) * | 2004-05-17 | 2005-11-17 | Aurilab, Llc | Interactive language learning system and method |
US20050261889A1 (en) * | 2004-05-20 | 2005-11-24 | Fujitsu Limited | Method and apparatus for extracting information, and computer product |
US7698339B2 (en) * | 2004-08-13 | 2010-04-13 | Microsoft Corporation | Method and system for summarizing a document |
US7801723B2 (en) * | 2004-11-30 | 2010-09-21 | Palo Alto Research Center Incorporated | Systems and methods for user-interest sensitive condensation |
US7827029B2 (en) * | 2004-11-30 | 2010-11-02 | Palo Alto Research Center Incorporated | Systems and methods for user-interest sensitive note-taking |
EP1672483A1 (de) * | 2004-12-20 | 2006-06-21 | Siemens Aktiengesellschaft | Erfassung von Daten in einem Datenverarbeitungssystem |
US7401077B2 (en) * | 2004-12-21 | 2008-07-15 | Palo Alto Research Center Incorporated | Systems and methods for using and constructing user-interest sensitive indicators of search results |
US7574349B2 (en) * | 2006-03-29 | 2009-08-11 | Xerox Corporation | Statistical language-model based system for detection of missing attachments |
WO2007146100A2 (en) * | 2006-06-07 | 2007-12-21 | Cnet Networks, Inc. | Evaluative information system and method |
US7725442B2 (en) * | 2007-02-06 | 2010-05-25 | Microsoft Corporation | Automatic evaluation of summaries |
US7925496B1 (en) | 2007-04-23 | 2011-04-12 | The United States Of America As Represented By The Secretary Of The Navy | Method for summarizing natural language text |
JP2009064187A (ja) | 2007-09-05 | 2009-03-26 | Sony Corp | 情報処理装置、情報処理方法、およびプログラム |
US8600990B2 (en) * | 2008-03-31 | 2013-12-03 | Oracle International Corporation | Interacting methods of data extraction |
US20110093263A1 (en) * | 2009-10-20 | 2011-04-21 | Mowzoon Shahin M | Automated Video Captioning |
WO2011087927A1 (en) * | 2010-01-14 | 2011-07-21 | Venture Gain LLC | Multivariate residual-based health index for human health monitoring |
WO2011119142A1 (en) * | 2010-03-22 | 2011-09-29 | Hewlett-Packard Development Company, L.P. | Adjusting an automatic template layout by providing a constraint |
CN102385861B (zh) * | 2010-08-31 | 2013-07-31 | 国际商业机器公司 | 一种用于从语音内容生成文本内容提要的系统和方法 |
US9317595B2 (en) * | 2010-12-06 | 2016-04-19 | Yahoo! Inc. | Fast title/summary extraction from long descriptions |
JP5638503B2 (ja) * | 2011-11-04 | 2014-12-10 | 日本電信電話株式会社 | テキスト要約装置、方法及びプログラム |
US8600961B2 (en) * | 2012-02-16 | 2013-12-03 | Oracle International Corporation | Data summarization integration |
US8839033B2 (en) | 2012-02-29 | 2014-09-16 | Oracle International Corporation | Data summarization recovery |
JP6344237B2 (ja) * | 2012-07-31 | 2018-06-20 | 日本電気株式会社 | 問題事態検出装置、問題事態検出方法及び問題事態検出用プログラム |
US10778618B2 (en) * | 2014-01-09 | 2020-09-15 | Oath Inc. | Method and system for classifying man vs. machine generated e-mail |
JP6170891B2 (ja) * | 2014-09-16 | 2017-07-26 | 日本電信電話株式会社 | 重みベクトル学習装置、要約生成装置、方法、及びプログラム |
US10387882B2 (en) | 2015-07-01 | 2019-08-20 | Klarna Ab | Method for using supervised model with physical store |
US9904916B2 (en) | 2015-07-01 | 2018-02-27 | Klarna Ab | Incremental login and authentication to user portal without username/password |
CN106326435A (zh) * | 2016-06-02 | 2017-01-11 | 北京赛思信安技术股份有限公司 | 一种对大数据可视化自动解析和装配的系统及方法 |
WO2018101694A1 (en) | 2016-11-29 | 2018-06-07 | Samsung Electronics Co., Ltd. | Electronic apparatus and method for summarizing content |
JP6415619B2 (ja) * | 2017-03-17 | 2018-10-31 | ヤフー株式会社 | 解析装置、解析方法、およびプログラム |
US10127323B1 (en) * | 2017-07-26 | 2018-11-13 | International Business Machines Corporation | Extractive query-focused multi-document summarization |
JP2019053558A (ja) * | 2017-09-15 | 2019-04-04 | ヤフー株式会社 | 学習装置、学習方法、学習プログラム、第1のモデルおよび第2のモデル |
CN110188886B (zh) * | 2018-08-17 | 2021-08-20 | 第四范式(北京)技术有限公司 | 对机器学习过程的数据处理步骤进行可视化的方法和系统 |
US11256867B2 (en) * | 2018-10-09 | 2022-02-22 | Sdl Inc. | Systems and methods of machine learning for digital assets and message creation |
JP2021047817A (ja) * | 2019-09-20 | 2021-03-25 | 富士ゼロックス株式会社 | 出力装置、及び出力プログラム |
JP7476578B2 (ja) | 2020-03-06 | 2024-05-01 | 富士フイルムビジネスイノベーション株式会社 | 学習装置及びプログラム |
CN114154461A (zh) * | 2020-09-08 | 2022-03-08 | 第四范式(北京)技术有限公司 | 一种文本数据的处理方法、装置及系统 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0256054A (ja) * | 1988-08-19 | 1990-02-26 | Matsushita Electric Ind Co Ltd | 文書作成装置 |
JP2783558B2 (ja) * | 1988-09-30 | 1998-08-06 | 株式会社東芝 | 要約生成方法および要約生成装置 |
JPH02297134A (ja) * | 1989-02-28 | 1990-12-07 | Toshiba Corp | 文書要約支援装置 |
US5638543A (en) * | 1993-06-03 | 1997-06-10 | Xerox Corporation | Method and apparatus for automatic document summarization |
JPH07244663A (ja) * | 1994-03-04 | 1995-09-19 | Nippon Telegr & Teleph Corp <Ntt> | 文書情報要旨部分の抽出方法とその装置 |
US5778397A (en) * | 1995-06-28 | 1998-07-07 | Xerox Corporation | Automatic method of generating feature probabilities for automatic extracting summarization |
JP3579204B2 (ja) * | 1997-01-17 | 2004-10-20 | 富士通株式会社 | 文書要約装置およびその方法 |
JP3001047B2 (ja) * | 1997-04-17 | 2000-01-17 | 日本電気株式会社 | 文書要約装置 |
JP3614648B2 (ja) * | 1998-03-13 | 2005-01-26 | 富士通株式会社 | 文書理解支援装置、要約文生成方法、並びに文書理解支援プログラムを記録したコンピュータ読み取り可能な記録媒体 |
US6317708B1 (en) * | 1999-01-07 | 2001-11-13 | Justsystem Corporation | Method for producing summaries of text document |
JP2001344260A (ja) * | 2000-06-05 | 2001-12-14 | Open Door:Kk | Hpコメント評価システム |
-
2002
- 2002-02-22 JP JP2002045925A patent/JP2003248676A/ja active Pending
-
2003
- 2003-02-21 CN CNB031054609A patent/CN100419733C/zh not_active Expired - Fee Related
- 2003-02-21 US US10/369,588 patent/US7120613B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN100419733C (zh) | 2008-09-17 |
US20030163790A1 (en) | 2003-08-28 |
US7120613B2 (en) | 2006-10-10 |
JP2003248676A (ja) | 2003-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1439979A (zh) | 解决方案数据编辑处理及自动概括处理装置和方法 | |
CN1894688A (zh) | 对译判断装置、方法及程序 | |
CN1257470C (zh) | 评价网页的装置和方法 | |
CN1113305C (zh) | 语言处理装置和方法 | |
CN1858786A (zh) | 一种电子文档格式化批注系统与方法 | |
CN1174332C (zh) | 转换表达方式的方法和装置 | |
CN1942877A (zh) | 信息提取系统 | |
CN1101032C (zh) | 相关词抽取设备和方法 | |
CN1773508A (zh) | 把源文档转换成目标网页文件的方法 | |
CN1281191A (zh) | 信息检索方法和信息检索装置 | |
CN1934569A (zh) | 集成有用户注释的搜索系统和方法 | |
CN1328668A (zh) | 用于指定网络上的位置的系统和处理 | |
CN101034414A (zh) | 信息处理设备和方法以及程序 | |
CN1815435A (zh) | 文档处理装置和文档处理方法 | |
CN1368693A (zh) | 用于全球化软件的方法和设备 | |
CN1794231A (zh) | 具有替换格式的上下文无关的文档部分 | |
CN1542736A (zh) | 在自然语言理解系统中用于位置的基于规则的语法和用于前终端的统计模型 | |
CN1186287A (zh) | 用于字符识别的方法和装置 | |
CN1680942A (zh) | 文档组分析设备、文档组分析方法及文档组分析系统 | |
CN1379882A (zh) | 将二维数据转换为标准形式的方法 | |
CN101080927A (zh) | 内容推荐装置 | |
CN1828606A (zh) | 信息提供方法以及门户站点系统 | |
CN1959678A (zh) | 信息处理方法及其设备 | |
CN1748215A (zh) | 信息处理设备、和信息处理方法以及计算机程序 | |
CN1641633A (zh) | 基于成熟工艺文档的工艺术语提取、规律分析和重用方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20080917 Termination date: 20160221 |