CN101529500A

CN101529500A - 内容概括系统、内容概括的方法和程序

Info

Publication number: CN101529500A
Application number: CNA200780039556XA
Authority: CN
Inventors: 长友健太郎
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2006-10-23
Filing date: 2007-10-17
Publication date: 2009-09-09
Anticipated expiration: 2027-10-17
Also published as: JP5104762B2; WO2008050649A1; CN101529500B; JPWO2008050649A1; US20100031142A1

Abstract

本发明提供一种概括系统，即使是比较长的声音或人与人之间的自然对话声音，也能够生成足够实用的概括。该系统具有声音输入单元(201)、重要部位指示单元(203)、重要区间推测单元(205)、声音识别单元(202)和文本概括单元(206)，把包括从声音输入单元输入的声音中、由重要部位指示单元指示的部位在内的声音区间捕捉为进行概括所需要的区间，在由重要区间推测单元推测合适的区间后，在对此进行考虑的基础上，识别声音进而进行文本概括。

Description

内容概括系统、内容概括的方法和程序

技术领域

(相关申请的记述)

(相关申请)本申请要求日本专利申请2006-287562号(2006年10月23日申请)的优先权，并且所述在先申请的全部内容引用到本说明书中。

本发明涉及一种概括内容的系统、方法和程序，尤其涉及适用于从声音信号概括谈话内容的系统、方法和程序。

背景技术

专利文献1公开了现有的谈话内容概括系统的一例。如图1所示，该现有的谈话内容概括系统由声音输入单元101、声音识别单元102和文本概括单元103构成。

具有图1所示结构的现有的谈话内容概括系统进行如下动作。

首先，使用声音识别单元102把来自声音输入单元101的声音信号转换为文本。

然后，通过某个文本概括单元概括所转换的文本，并生成概括文本。在概括文本时使用非专利文献1中列举的各种公知技术。

专利文献1：日本特开2000-010578号公报

非专利文献1：奥村学、难波英嗣“テキスト自動要約に関する研究動向(有关文本自动概括的研究方向)”，自然言語処理，Vol.6，No.6，pp.1-26，1999.

发明内容

另外，上述专利文献1、非专利文献1的全部公开内容也引用到本说明书中。以下的分析是由本发明给出的。

图1所示的现有的系统具有以下问题。

第1问题点在于，在现有的文本概括技术中，对于像某种程度以上较长的谈话和人与人之间的自然对话那样具有复杂多种构造的文本，不能以足够良好的质量进行概括。

其原因是，以往的概括算法设计成为只能针对构造简单、特征明确、且比较短的文本具有足够良好的质量。因此，以足够良好的质量概括具有复杂多种构造的文本实质上是不可能的。

列举现有概括算法的两个典型示例。

第一算法是专利文献1记载的方法。该方法预先列举假设的概括源文本的所有构造，在与任一构造匹配时，使用与该构造相关联的转换规则而生成概括文本。

例如，预先登记“部门”和“人名”接近的构造，若此时的概括生成规则设为生成“部门人名”，则针对“营业部的佐藤先生”这一输入文本，可以生成“营业佐藤”的概括文本。

为了使该第一算法在实际应用中能够充分得到使用需要以下条件：

·输入文本的构造例如是按照上面所述能够写下来的简单构造，并且

·非多样化，预先已有详尽登记。

反之，针对构造复杂且多样化的输入，不具有实用性。

第二算法是非专利文献1记载的方法。即，

把文本分割成为几个部分，

根据某种标准对该各部分计算重要度。

从所有部分中重要度较低的开始依次去除，并反复实施直到成为必要的大小。

这样，可以获得只由文本整体的重要部分构成的足够小的文本(概括文本)。

根据非专利文献1，作为重要度的计算方法，可以综合使用该部分中包含的：

·重要单词的个数、

·各个单词的重要度之和、

·基于连词等的部分逻辑加权、

·标题和句首、句尾等普通文章构造的知识等。

但是，在该第二算法的方法中，由于降低到重要度这种一维标准来判定文本部分的要与不要，所以针对不一样的文本难以形成合适的概括。

例如在文本是关于两个主题的讨论时，

在关于主题1的记述量明显多于关于主题2的记述量时，在概括文本中容易保留关于主题1的记述。

像会议和窗口接待那样的人与人之间的自然对话声音，在一个对话中关于各种主题进行信息交换。

此时，与对话的所有参加人员周知的信息相关的谈话比较少，与其真正的重要度无关。

另一方面，即使是结果不怎么重要的信息，但由于一部分参加者不怎么清楚的原因，记述量增加，结果容易导致判定为重要度比较高。

因此，该第二算法对于较长的谈话和人与人之间的自然对话的概括仍不充分。

第2问题点在于，在用户准备了可以指示声音中的重要部位的模式时，若实时地提供该声音，则指定合适的部位这一行为本身就很困难。

例如假设在人与人之间进行对话的情况下指示重要部位的情况即可明白，但人们在听到某种声音时，人们理解其意思、并判定在整体中的重要度和是否包含于概括中，是在该相应部位的声音发出之后稍微有滞后而进行的。

因此，本发明的目的在于提供一种谈话内容概括系统，即使是比较长的声音或人与人之间的自然对话声音，也能够生成足够实用的概括。

本发明的其他目的在于提供一种谈话内容概括系统，在用户准备了能够指示声音中的重要部位的模式时，即使在实时地发出该声音的情况下，也能够指定合适的部位。

为了解决上述问题，本申请公开的发明大致采取以下结构。

本发明涉及的一种内容概括系统具有：内容输入单元，输入与经过的时间相关联地提示的内容；文本提取单元，从由所述内容输入单元输入的内容中提取文本信息；重要部位指示单元，输入重要部位的指示；和同步单元，实现由所述内容输入单元输入的内容与由所述重要部位指示单元输入的重要部位指示的同步。

在本发明中，具有重要区间推测单元，对由所述文本提取单元得到的文本信息进行预先设定的预定处理，并推测与所述重要部位指示对应的重要区间。

在本发明中，具有文本概括单元，参照由所述重要区间推测单元得到的重要区间，对由所述文本提取单元得到的文本信息进行文本的概括处理，并输出概括文本。

在本发明中，所述文本概括单元对从所述重要区间推测单元推测的重要区间所相应的内容得到的文本优先执行概括处理。

在本发明中，由所述内容输入单元输入的内容包括声音，所述文本提取单元具有声音识别单元，该声音识别单元通过对作为内容而输入的声音信号进行声音识别来提取文本信息。

在本发明中，所述文本提取单元可以构成为包括以下任一个单元：提取作为内容而提供的文字信息来作为文本信息的单元；通过从包括元信息在内的多媒体信号中读出元信息而提取文本信息的单元；通过从影像信号中读出隐藏字幕信号而提取文本信息的单元；和通过对影像中包含的文字进行图像识别而提取文本信息的单元。

在本发明中，所述重要区间推测单元把从所述重要部位指示单元输入的、具有位于内容的重要部位附近的文本信息的内容区间包含到推测区间内。

在本发明中，来自所述内容输入单元的内容包括声音，所述重要区间推测单元把从所述重要部位指示单元输入的、位于声音的重要部位附近的谈话包含到推测区间内。

在本发明中，在与所述重要部位指示相应的内容的部位不存在文本信息时，所述重要区间推测单元把上述部位之前的、具有文本信息的内容的区间用作推测区间。

在本发明中，来自所述内容输入单元的内容包括声音，在与重要部位指示相应的声音的部位没有声音时，所述重要区间推测单元把上述部位之前的谈话区间用作推测区间。

在本发明中，在将位于重要部位指示所相应的内容前后的、具有文本信息的内容的区间包含到推测区间内时，所述重要区间推测单元优先包含靠前的区间。

在本发明中，在将与重要部位指示相应的声音前后的谈话包含到推测区间内时，所述重要区间推测单元优先包含靠前的谈话。

在本发明中，在位于重要部位指示所相应的内容前后的文本包含预先设定的单词时，所述重要区间推测单元按照预定的算法使推测区间伸缩。

在本发明中，还具有概括结果评价单元，分析所述文本概括单元的输出并评价概括的精度，所述重要区间推测单元根据所述概括结果的评价，使所提取的重要区间中任一个或多个区间伸缩。

在本发明中，具有概括率计算单元作为所述概括结果评价单元，所述概括率计算单元分析所述文本概括单元的输出并计算概括率，在所述概括率高于预定的值时，所述重要区间推测单元缩小所提取的重要区间中的任一个区间，在所述概括率低于预定的值时，所述重要区间推测单元扩大所提取的重要区间中的任一个区间。

本发明涉及的系统具有：输入声音信号的声音输入部；

进行声音的识别并输出声音识别结果的文本的声音识别部；

输出从所述声音输入部输入的声音的声音输出部；

指示重要部位的重要部位指示部；

同步部，从所述声音识别部获取与由所述重要部位指示部输入的重要部位的时序对应的声音识别结果的文本；

重要区间推测部，根据由所述同步部获取的与重要部位的时序对应的声音识别结果的文本，设定重要区间的初始值；和

文本概括部，根据从所述声音识别部输出的声音识别结果的文本，进行考虑了由所述重要区间推测部输出的重要区间的文本概括处理，并输出概括文本。

本发明涉及的一种内容文本概括方法，通过计算机从输入的内容中提取文本信息并生成概括，其特征在于，包括以下步骤：输入重要部位的指示；对从所述输入的内容中提取的文本信息推测与所述重要部位对应的重要区间；和生成考虑了所述重要区间的概括文本。

本发明涉及的方法包括以下步骤：内容输入步骤，输入随着时间的经过而顺序地提示的内容；文本提取步骤，从在所述内容输入步骤中输入的内容中提取文本信息；指示重要部位的重要部位指示步骤；和实现在所述内容输入步骤中输入的内容与在所述重要部位指示步骤中输入的重要部位的同步的步骤。

在本发明涉及的方法中，也可以包括重要区间推测步骤，对在所述文本提取步骤中获得的文本信息进行预先设定的预定处理，并推测与所述重要部位指示对应的重要区间。

在本发明涉及的方法中，也可以包括文本概括步骤，参照在所述重要区间推测步骤中获得的重要区间，对在所述文本提取步骤中获得的文本信息进行文本的概括处理，并输出概括文本。

在本发明中，所述文本概括步骤也可以对从所述重要区间推测步骤获得的重要区间所相应的内容得到的文本优先进行概括处理。

本发明涉及的一种程序，使计算机进行内容文本概括，该内容文本概括是指从输入的内容中提取文本信息并生成概括，所述程序的特征在于，使所述计算机执行以下处理：输入重要部位的指示；对从所述输入的内容中提取的文本信息推测与所述重要部位对应的重要区间；和生成考虑了所述重要区间的概括文本。

本发明涉及的一种程序使所述计算机执行以下处理：内容输入处理，输入随着时间的经过而顺序地提示的内容；文本提取处理，从在所述内容输入处理中输入的内容中提取文本信息；指示重要部位的重要部位指示处理；和实现在所述内容输入处理中输入的内容与在所述重要部位指示处理中输入的重要部位的同步的处理。

在本发明涉及的程序中，也可以使计算机执行重要区间推测处理，对在所述文本提取处理中获得的文本信息进行预先设定的预定处理，并推测与所述重要部位指示对应的重要区间。

在本发明涉及的程序中，也可以使计算机执行文本概括处理，参照由所述重要区间推测单元获得的重要区间，对在所述文本提取处理中获得的文本信息进行文本的概括处理，并输出概括文本。

在本发明涉及的程序中，所述文本概括处理也可以对从在所述重要区间推测处理中获得的重要区间所相应的内容得到的文本优先进行概括处理。

本发明涉及的内容概括系统，生成所输入的内容的概括，该系统具有输入重要部位的指示的单元和以下单元：分析所述内容，把所述重要部位的指示的输入作为契机，生成与所述契机对应的、包括内容的一部分的概括，从实时提示或再现的内容自由地生成包括与所述重要部位的指示输入对应的内容部分在内的概括。

在本发明中，也可以分析所述内容并提取文本信息，生成与所述重要部位的指示输入对应的、包括文本信息的概括。

在本发明中，也可以对所述内容的声音信息进行声音识别并转换为文本，生成与所述重要部位的指示输入对应的、包括声音识别结果的文本信息的概括。

在本发明中，也可以对所述内容的声音信息进行声音识别并转换为文本，生成与所述重要部位的指示的输入对应的、包括声音信息的文本或包括声音信息的文本和图像在内的概括。

在本发明中，作为所述重要部位的指示的输入，也可以输入成为生成内容概括的关键信息的信息，并分析所述内容，把包括所述关键信息所对应的信息在内的内容的一部分作为概括而输出。

在本发明中，也可以分析构成所述内容的图像信息并提取文本，生成作为所述重要部位的指示而输入的关键信息所对应的、包括图像信息的概括。

根据本发明，可以提供一种谈话内容概括系统，即使是比较长的声音或人与人之间的自然对话声音，也能够生成足够实用的概括。

其原因在于，在本发明中，即使是具有复杂构造或未知构造的声音，也能够通过指定用户认为合适的声音的一部分来提高文本概括的精度。

根据本发明，可以提供一种谈话内容概括系统，即使在实时地发出声音的情况下，用户也能够适当地指定声音中的重要部位。

其原因在于，在本发明中，重要部位例如是作为“点”而指定的，其自动地扩展为“区间”，所以用户只需在听到认为重要的声音的瞬间采取重要部位指示的行动即可。

另外，其原因还在于，在本发明中，在进行重要区间推测时，由于进行了重要部位指示的时序以前的声音也能够追溯成为对象，所以即使是已经再生的过去的声音，也能够通过重要区间推测单元将其追溯为重要区间提取，并添加到概括中。

附图说明

图1是表示专利文献1的系统的结构的图。

图2是表示本发明的第1实施方式的结构的图。

图3是表示本发明的第1实施方式的动作的流程图。

图4是表示本发明的第2实施方式的结构的图。

图5是表示本发明的第2实施方式的动作的流程图。

图6是表示本发明的一个实施例的结构的图。

标号说明

100、200、400、600计算机

101声音输入单元

102声音识别单元

103文本概括单元

201声音输入单元

202声音识别单元

203重要部位指示单元

204同步单元

205重要区间推测单元

206文本概括单元

401声音输入单元

402声音识别单元

403重要部位指示单元

404同步单元

405重要区间推测单元

406文本概括单元

407概括评价单元

601声音输入部

602声音识别部

603声音输出部

604指示按钮

605同步部

606重要区间推测部

607文本概括部

608概括评价部

具体实施方式

以下，参照附图具体说明用于实施本发明的优选方式。

在把本发明涉及的内容概括系统适用于谈话内容概括系统的实施方式中，具有声音输入单元(201)、重要部位指示单元(203)、重要区间推测单元(205)、声音识别单元(202)和文本概括单元(206)，把从声音输入单元输入的声音中、包括由重要部位指示单元(203)指示的部位在内的声音区间捕捉为进行概括所需要的区间，在由重要区间推测单元(205)推测合适的区间后，在考虑该区间的基础上识别声音，并进行文本概括。通过由用户另行受理所需最低限度的信息的输入，可以使用户所指定的声音的任意部位包含于概括中。

图2是表示本发明的第1实施方式的结构的图。本发明的第1实施方式是可以使用户所指定的声音的任意部位包含于概括中的谈话内容概括系统。

参照图2，在本发明第1实施方式的谈话内容概括系统中，根据程序控制而动作的计算机200具有声音输入单元201、声音识别单元202、重要部位指示单元203、同步单元204、重要区间推测单元205和文本概括单元206。这些单元分别大致进行以下动作。

声音输入单元201获取成为概括处理的对象的声音波形信号作为数字数据(与时间的经过相关联的数字信号串)。

声音识别单元202对由声音输入单元201得到的数字信号串实施声音识别处理，输出文本信息作为其结果。此时，识别结果文本是以原来的声音波形与由声音识别单元202输出的时刻信息成为同步的形式得到。

重要部位指示单元203根据用户的操作向同步单元204和重要区间推测单元205发送重要部位指示信号。

同步单元204进行调节使由声音输入单元201得到的声音波形数据与由重要部位指示单元203得到的重要部位指示信号同步。

例如，如果从声音输入单元201获取某个声音波形数据的时刻、与从重要部位指示单元203输入某个重要部位指示信号的时刻相同，则判定为在相同的相对时刻之后从上述各单元输入的声音波形数据与重要部位信号实现同步。

此时，由声音输入单元201得到的声音波形数据与由声音识别单元202输出的识别结果彼此同步，所以也能够间接地确保由重要部位指示单元203得到的重要部位指示信号与声音识别结果的同步。

重要区间推测单元205根据来自重要部位指示单元203的重要部位指示信号及其时刻信息，对与在该时刻附近从声音输入单元201输出的声音相应的、通过声音识别单元202得到的声音识别结果文本进行预先设定的预定处理，推测用户通过重要部位指示单元203指示的声音区间。

文本概括单元206对通过声音识别单元202得到的声音识别结果文本考虑通过重要区间推测单元205得到的重要区间，进行预先设定的概括处理，并输出得到的概括文本作为其结果。

下面，参照图2和图3的流程图，具体说明本实施方式的整体动作。

首先，从声音输入单元201输入声音信号(图3中的步骤A1)。

然后，声音识别单元202对所输入的声音信号进行声音识别，输出声音识别结果文本(步骤A2)。

用户使用重要部位指示单元203发出重要部位指示信号(步骤A3)，此时重要区间推测单元205接收到该信号而动作，通过同步单元204获取与重要部位指示信号相应的时刻及其前后的声音识别结果文本，并把其作为输入而进行重要区间的推测处理(步骤A4)。

最后，文本概括单元206考虑所推测的重要区间，并对声音识别结果文本实施文本概括处理，输出谈话内容概括文本(步骤A5)。

下面，说明本实施方式的作用效果。

在本实施方式中，用户通过输入重要部位指示信号，可以提供使在文本概括处理中考虑声音的任意部位的指示。因此，可以与文本概括的质量和输入声音的文章构造的复杂程度无关地，使用户要求的任意部位的声音包含于概括中。

并且，在本实施方式中，不仅输入重要部位指示信号的时间点的声音，包括该时间点前后在内都被视为概括时需要重视的区间(重要区间)，所以用户不需指示区间，只指示点即可将用户要求的任意部位的声音包含于概括中。

并且，同时在发出某个声音之后到用户想要指示该声音存在些许时滞时，也能够使该声音包含于概括中。

即，尤其在实时(实际时间)输入声音的情况下，能够容易实现用户指示重要部位的行为。

下面，说明本发明的第2实施方式。图4是表示本发明的第2实施方式的系统结构的图。参照图4，在本发明的第2实施方式中，根据程序控制而动作的计算机400具有声音输入单元401、声音识别单元402、重要部位指示单元403、同步单元404、重要区间推测单元405、文本概括单元406和概括评价单元407。

概括评价单元407是新增加的单元，除此之外与所述第1实施方式的结构相同。以下说明与所述第1实施方式的不同之处，关于相同部分的说明，为了避免反复而适当省略。

重要区间推测单元405进行与所述第1实施方式的重要区间推测单元大致相同的动作，根据来自重要部位指示单元403的重要部位指示信号及其时刻信息，对与在该时刻附近从声音输入单元401输出的声音相应的、通过声音识别单元402得到声音识别结果文本进行预定的处理，并推测用户通过重要部位指示所指示的声音区间。

在本实施方式中，重要区间推测单元405把由概括评价单元407得到的概括评价作为输入，根据该评价进一步进行重要区间的推测处理。

概括评价单元407按照预先设定的标准评价文本概括单元406生成的概括文本，如果判定概括文本有改善的余地，则向重要区间推测单元405提供所需的信息，再次进行重要区间的推测处理。

下面，参照图4和图5的流程图，具体说明本实施方式的整体动作。

参考从重要部位指示单元403输入的重要部位指示信号，由文本概括单元406概括从声音输入单元401输入的声音数据为止的流程，与图3所示的所述第1实施方式的处理步骤相同(图5中的步骤B1～B5)。

在本实施方式中，还进行以下动作。

概括评价单元407按照预先设定的标准评价文本概括单元406生成的概括文本(步骤B6)。在该评价的结果判定有改善的余地时(步骤B7)，返回步骤B4，重要区间推测单元405再次起动。

作为概括评价单元407的评价标准，例如可以使用概括率。概括率指概括文本的尺寸相对于源文本(大多使用字节数或字符数)的比例。

在概括率比预先设定的阈值充分低时，使重要区间推测单元405动作，把更宽的区间设为重要区间，相反在概括率充分高时，使重要区间推测单元405动作，把较窄的区间设为重要区间。

下面，说明本实施方式的作用效果。

所述第1实施方式的重要区间推测单元205的重要区间推测，主要基于从重要部位指示单元203输入的重要部位指示。该情况下，只能进行基于局部信息的区间推测。

相比之下，本发明的第2实施方式的重要区间推测单元405根据由概括评价单元407提供的信息，进行考虑了概括文本整体的区间推测，所以能够实现更高精度的概括文本。

另外，在所述第1和第2实施方式中，作为从输入的内容(声音)中提取文本信息的文本提取单元，说明了使用声音识别单元的示例，但本发明不限于这种结构。

除声音识别单元以外，只要是可以提取文本的装置，就可以使用任意的文本提取单元。

文本提取单元提取作为内容而提供的文字信息来作为文本信息。或者，文本提取单元通过从包括元信息的多媒体信号中读出元信息来提取文本信息。或者，文本提取单元通过从影像信号中读出隐藏字幕(Closed Caption)信号来提取文本信息。

或者，文本提取单元通过对影像中包含的文字进行图像识别来提取文本信息。以下说明具体的实施例。

实施例

图6是表示本发明的一个实施例的结构的图。如图6所示，在本实施例中，计算机600具有声音输入部601、声音识别部602、声音输出部603、指示按钮604、同步部605、重要区间推测部606、文本概括部607和概括评价部608。

从声音输入部601输入声音波形。该声音立即被传送给声音识别部602。在声音识别部602中进行预先提供的模型与声音的匹配处理，并输出声音识别结果文本。

另一方面，从声音输入部601输入的声音波形立即被传送给声音输出部603，通过扬声器等到达用户的耳朵。

用户听着该声音以任意的时序按下指示按钮604。

检测到指示按钮604被按下的同步部605，首先求得与该按下时序相应的声音。

当从声音输入部601输入的声音被立即传送给声音输出部603而到达用户的耳朵时，与该按下时序相应的声音成为在该时刻输入的声音。

另外，同步部605从声音识别部602的输出获得与按下时序相应的声音的声音识别结果文本。

重要区间推测部606根据由同步部605获取的、与指示按钮604的按下时序对应的识别结果文本，设定重要区间的初始值。例如，把包括该识别结果文本的一个发声区间(连续的非噪声区间)设定为重要区间的初始值。

或者，也可以把与包括该识别结果文本的单词和分句、句子(用标点符号和终助词隔开的一串单词组)相应的声音区间作为重要区间的初始值。

并且，此时也可以利用从声音识别部602获取的非文本信息。例如，不满足预先设定的识别似然率(likelihood)的识别结果文本是错误地识别了噪声的结果的可能性比较大，所以采用将与该文本相应的声音区间排除在重要区间的初始值设定的考虑范围之外的方法。

重要区间推测部606根据需要使重要区间相对于初始值伸缩。作为是否进行伸缩的判定标准，例如采用根据当前的重要区间中是否出现了预先设定的词语来判定的方法等。

例如，如果从重要区间得到的识别结果文本中一个功能词也没有，则考虑把其前后的区间纳入重要区间。

相反，如果从重要区间得到的识别结果文本包括“那么”等填充词，则考虑将与这些填充词相应的声音区间从重要区间中删除。

并且，在将要概括的内容在某种程度上被限定时，根据

·有无预先设定的指示词(“那个”、“即”、“也就是说”、“确认”)，

·有无电话号码、人名、组织名称、产品名称等更加限定的单词，

可以进行精度更高的重要区间推测。

并且，作为其他判定标准，也可以采用根据重要区间中是否存在有效的声音识别文本来判定的方法。

根据指示按钮604的按下时序，相应的声音会是噪声等，因此有时不能获得有效的识别结果文本。

该情况下，求得包括相应的声音之前或之后的识别结果文本在内的声音区间，将其作为重要区间。

作为选择之前或之后哪一方的标准，例如可以采用以下方法：

(a)选择更接近按下时序的一方，

(b)比较属于前后区间的文本的属性(预先提供的重要度和词性、是否包括“这是因为”等语法关键词等)，选择一般性重要度较高的一方，

(c)选择声音识别处理的精度更高的一方等。

并且，关于用户按下指示按钮的时序，可以采用比听到目标声音的时序略微滞后的启发式(Heuristic)而始终选择之前的一方的方法。当然也可以把前后双方的区间作为重要区间。

关于重要区间的伸缩方法，例如可以采用根据与该区间前后的预先设定的时间或单词/句子数量相应的声音量而相应地伸缩的方法。

例如，在扩展区间时，将前后的谈话逐个地纳入当前的区间。

关于重要区间的其他伸缩方法，当在重要区间的初始值附近(其根据时间及谈话的数量而定义)出现了预先设定的关键词时，采用伸缩到得知与该关键词一起产生的单词组中的任一个所属的声音区间为止的方法。

例如，在重要区间中出现“电话号码”时，如果其之后的谈话中出现了像电话号码的数字串，则把该谈话区间纳入重要区间。

该方法需要启发，所以可以利用的情况受到限定，但精度非常高。

并且，关于重要区间的其他伸缩方法，当在重要区间的初始值附近出现了预先设定的指示词(“那个”、“即”、“也就是说”、“进行确认”)等时，采用把其之后的声音区间纳入重要区间的方法。

该方法与使用所述一起产生的关键词的方法相似，但所采用的技术通用性比较高，所以可利用范围比较广泛。

另外，关于重要区间的其他伸缩方法，当在重要区间附近发现了预先定义的音响特征现象(功率和间距、谈话速度的变化等)时，也可以采用把其附近的声音区间纳入重要区间的方法。

例如，以比预先设定的阈值大的功率发出的声音表示讲话者想要强调该谈话内容的可能性比较大。

重要区间推测部606把最终认为最合适的区间作为重要区间，并通知给文本概括部607。

根据情况，作为初始值而设定的区间有时也作为最佳重要区间而输出。

文本概括部607根据从声音识别部602输出的声音识别结果文本，考虑由重要区间推测部606输出的重要区间，进行文本概括处理并输出概括文本。

关于考虑了重要区间的文本概括的方法，例如在与普通的文本概括同样地求得文本各部分的重要度时，采用如下方法：对由重要区间推测部606推测为重要区间的区间所相应的文本部位的重要度实施偏置(Bias)。

并且，关于考虑了重要区间的其他文本概括的方法，例如可以采用如下方法：只利用作为重要区间而得到的几个区间来进行文本概括。该情况下，重要区间推测部606在推测区间时优选调整为推测略大的区间。

概括评价部608按照预定的标准评价文本概括部607输出的概括文本。

在概括文本不符合预先设定的标准时，重要区间推测部606再次动作，再次使重要区间伸缩，并发送给文本概括部607。通过反复数次该动作，可以获得质量良好的概括文本。

关于反复次数，可以采用

·一直反复到概括文本符合预先设定的标准的方法，

·一直反复到预定的处理时间的方法

·一直反复到预定的次数的方法等。

关于概括文本的评价标准例如可以考虑概括率。

文本概括中的概括率，指概括文本的尺寸相对于源文本尺寸的比例。尺寸通常用字符数单位计数。

在本实施例中，采用声音识别部602对从声音输入部601输入的全部声音区间进行声音识别的结果所得到的声音识别结果文本的总字符数、与文本概括部607输出的概括文本的字符数的比例。

在使用概括率作为评价标准时，例如在文本概括部607输出的概括文本的概括率超过预先设定的目标概括率时，考虑缩小重要区间，相反在大大低于目标概括率时，考虑扩大重要区间。

根据本发明，针对人与人之间的自然谈话和某种程度较长的声音，可以生成更加合适的概括文本，所以例如可以适用于以下用途，

·制作会议纪要

·制作讲演的讲话记录

·电话接待的接待内容的备忘录

·制作记录文件

·制作电视节目集锦等。

并且，本发明不仅适用于文本概括，也可以适用于文本检索等。该情况下，图4所示的文本概括单元406被替换为检索询问(Searchquery)生成单元。

检索询问生成单元的动作例如从重要区间中包含的文本中提取独立词语，生成它们的逻辑积作为检索询问。

然后，把检索询问提供给任意的检索引擎，从而可以提供给用户容易操作的检索功能。

并且，通过用准备检索结果评价单元来取代图4中的概括评价单元407，例如在推测的重要区间中没有发现一个检索结果时，可以考虑重新进行重要区间推测(扩大区间)。

在本发明中，也可以对内容的声音信息进行声音识别并转换为文本，生成包括与所述重要部位的指示的输入对应的声音识别结果的文本和该声音所对应的图像信息在内的概括。在本发明中，作为所述重要部位的指示的输入，可以输入成为生成内容概括的关键信息(时序信息、文本信息、属性信息)的信息，并分析所述内容而把包括所述关键信息所对应的信息在内的内容的一部分作为概括而输出。

在本发明的全部公开内容(包括权利要求书)范围内，可以根据其基本技术思想进行实施方式及实施例的变更及调整。并且，在本发明的权利要求书的范围内，可以实现各种公开要素的多种组合及选择。

Claims

1.一种内容概括系统，其特征在于，具有：

内容输入单元，输入与经过的时间相关联地提示的内容；

文本提取单元，从由所述内容输入单元输入的内容中提取文本信息；

重要部位指示单元，输入重要部位的指示；和

同步单元，实现由所述内容输入单元输入的内容与由所述重要部位指示单元输入的重要部位指示的同步。

2.根据权利要求1所述的内容概括系统，其特征在于，

具有如下单元：对从所述输入的内容中提取的文本信息，推测与所述重要部位对应的重要区间。

3.根据权利要求1或2所述的内容概括系统，其特征在于，

具有文本概括单元，进行文本的概括处理并输出概括文本。

4.一种内容概括系统，具有：内容输入单元，输入随着时间的经过而顺序地提示的内容；文本提取单元，从由所述内容输入单元输入的内容中提取文本信息；和文本概括单元，进行文本的概括处理并输出概括文本，所述内容概括系统的特征在于，还具有：

指示重要部位的重要部位指示单元；和

同步单元，实现由所述内容输入单元输入的内容与由所述重要部位指示单元输入的重要部位的同步。

5.根据权利要求4所述的内容概括系统，其特征在于，

具有重要区间推测单元，对由所述文本提取单元得到的文本信息进行预先设定的预定处理，并导出被推测是指示为所述重要部位的重要区间。

6.根据权利要求5所述的内容概括系统，其特征在于，

所述文本概括单元参照由所述重要区间推测单元得到的重要区间，对由所述文本提取单元得到的文本信息进行文本的概括处理，并输出概括文本。

7.根据权利要求5或6所述的内容概括系统，其特征在于，

所述文本概括单元对从所述重要区间推测单元推测的重要区间所相应的内容中得到的文本优先执行概括处理。

8.根据权利要求1～7中任一项所述的内容概括系统，其特征在于，

由所述内容输入单元输入的内容包括声音，

所述文本提取单元具有声音识别单元，该声音识别单元通过对作为内容而输入的声音信号进行声音识别来提取文本信息。

9.根据权利要求1～7中任一项所述的内容概括系统，其特征在于，所述文本提取单元包括以下任一个单元：

提取作为内容而提供的文字信息来作为文本信息的单元；

通过从包括元信息在内的多媒体信号中读出元信息而提取文本信息的单元；

通过从影像信号中读出隐藏字幕信号而提取文本信息的单元；和

通过对影像中包含的文字进行图像识别而提取文本信息的单元。

10.根据权利要求5～7中任一项所述的内容概括系统，其特征在于，

所述重要区间推测单元把从所述重要部位指示单元输入的、具有位于内容的重要部位附近的文本信息的内容区间包含到推测区间内。

11.根据权利要求5～7中任一项所述的内容概括系统，其特征在于，

来自所述内容输入单元的内容包括声音，

所述重要区间推测单元把从所述重要部位指示单元输入的、位于声音的重要部位附近的谈话包含到推测区间内。

12.根据权利要求5～7中任一项所述的内容概括系统，其特征在于，

在与所述重要部位指示相应的内容的部位不存在文本信息时，所述重要区间推测单元把上述部位之前的、具有文本信息的内容的区间用作推测区间。

13.根据权利要求5～7中任一项所述的内容概括系统，其特征在于，

来自所述内容输入单元的内容包括声音，

在与重要部位指示相应的声音的部位没有声音时，所述重要区间推测单元把上述部位之前的谈话区间用作推测区间。

14.根据权利要求10所述的内容概括系统，其特征在于，

在将位于重要部位指示所对应的内容前后的、具有文本信息的内容的区间包含到推测区间内时，所述重要区间推测单元优先包含时间上靠前的区间。

15.根据权利要求11所述的内容概括系统，其特征在于，

在将与重要部位指示相应的声音前后的谈话包含到推测区间内时，所述重要区间推测单元优先包含靠前的谈话。

16.根据权利要求5～7、10～15中任一项所述的内容概括系统，其特征在于，

在位于重要部位指示所相应的内容前后的文本包含预先设定的单词时，所述重要区间推测单元使推测区间伸缩。

17.根据权利要求5～7、10～16中任一项所述的内容概括系统，其特征在于，

还具有概括结果评价单元，分析所述文本概括单元的输出并评价概括的精度，

所述重要区间推测单元根据所述概括结果的评价，使所提取的重要区间中任一个或多个区间伸缩。

18.根据权利要求17所述的内容概括系统，其特征在于，

具有概括率计算单元作为所述概括结果评价单元，所述概括率计算单元分析所述文本概括单元的输出并计算概括率，

在所述概括率高于预定的值时，所述重要区间推测单元缩小所提取的重要区间中的任一个区间，在所述概括率低于预定的值时，所述重要区间推测单元扩大所提取的重要区间中的任一个区间。

19.根据权利要求1～3中任一项所述的内容概括系统，其特征在于，

具有：输入声音信号作为内容的声音输入部；和

声音识别部，对来自所述声音输入部的输入声音信号进行识别，并输出声音识别结果的文本，

把包含从所述声音输入部输入的声音中、由指示所述重要部位的单元指示的部位的声音区间捕捉为进行概括所需要的区间，由推测所述重要区间的单元推测合适的区间，在对此进行考虑的基础上，识别声音进而进行文本概括，从而生成谈话内容的概括，通过由用户另行受理所需最低限度的信息的输入，能够将用户指定的声音的任意部位包含到概括中。

20.根据权利要求1～3中任一项所述的内容概括系统，其特征在于，

具有：输入声音信号作为内容的声音输入部；

声音识别部，对来自所述声音输入部的输入声音信号进行识别，并输出声音识别结果的文本；和

输出从所述声音输入部输入的声音的声音输出部，

指示所述重要部位的单元具有用于用户指示重要部位的操作按钮，

所述内容概括系统还具有同步部，该同步部从所述声音识别部获取与由所述操作按钮输入的重要部位的时序对应的声音识别结果的文本，

推测所述重要区间的单元根据由所述同步部获取的与重要部位的时序对应的声音识别结果的文本，设定重要区间的初始值，

生成所述概括文本的单元根据从所述声音识别部输出的声音识别结果的文本，进行考虑了所述重要区间的文本概括处理，并输出概括文本。

21.一种内容概括方法，通过计算机从输入的内容中提取文本信息并生成概括，其特征在于，包括以下步骤：

输入重要部位的指示；

对从所述输入的内容中提取的文本信息推测与所述重要部位对应的重要区间；和

生成考虑了所述重要区间的概括文本。

22.一种内容概括方法，其特征在于，包括以下步骤：

内容输入步骤，输入随着时间的经过而顺序地提示的内容；

文本提取步骤，从在所述内容输入步骤中输入的内容中提取文本信息；

指示重要部位的重要部位指示步骤；和

实现在所述内容输入步骤中输入的内容与在所述重要部位指示步骤中输入的重要部位的同步的步骤。

23.一种程序，使计算机进行内容文本概括，该内容文本概括是指从输入的内容中提取文本信息并生成概括，所述程序的特征在于，使所述计算机执行以下处理：

输入重要部位的指示；

生成考虑了所述重要区间的概括文本。

24.根据权利要求23所述的程序，其特征在于，使所述计算机执行以下处理：

内容输入处理，输入随着时间的经过而顺序地提示的内容；

文本提取处理，从在所述内容输入处理中输入的内容中提取文本信息；

指示重要部位的重要部位指示处理；和

实现在所述内容输入处理中输入的内容与在所述重要部位指示处理中输入的重要部位的同步的处理。