CN107430851A

CN107430851A - 发言提示装置、发言提示方法以及程序

Info

Publication number: CN107430851A
Application number: CN201580077752.0A
Authority: CN
Inventors: 长健太; 加纳敏行
Original assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Current assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Priority date: 2015-04-10
Filing date: 2015-04-10
Publication date: 2017-12-01
Anticipated expiration: 2035-04-10
Also published as: JPWO2016163028A1; US10347250B2; JP6618992B2; US20170365258A1; WO2016163028A1; CN107430851B

Abstract

实施方式的发言提示装置(1)具备发言记录部(2)、语音识别部(3)、关联度计算部(5)及UI控制部(4)。发言记录部(2)记录基于语音的发言。语音识别部(3)对所记录的发言进行语音识别。关联度计算部(5)针对语音识别出的各发言分别计算与字符串的关联度，该字符串从在具有第1显示区域和第2显示区域的UI画面的上述第2显示区域显示的字符串中指定。UI控制部(4)使根据上述关联度的高低所选择的发言的语音识别结果显示在上述UI画面的上述第1显示区域。

Description

发言提示装置、发言提示方法以及程序

技术领域

本发明的实施方式涉及发言提示装置、发言提示方法以及程序。

背景技术

进行会议中所记述的笔记与会议中的哪个发言相对应的对应关联，在使例如会议的会议纪要制作等作业效率化方面是有效的。作为这种进行对应关联的技术，已知有如下技术，即，相应于会议中的语音以及影像的记录，记录作为文本而输入的笔记的输入时间，并显示与所记录的语音、影像的再现时对应的笔记部分或再现与笔记对应的语音、影像的技术。

但是，希望与会议中的发言相对应关联的信息，不限于在会议中作为文本而输入的笔记。例如对于在会议中写在纸上的手写的笔记、在会议前所制作的议事日程等未在会议中输入的信息，有时也期望与会议中的发言相对应关联。而且，在具有不限于会议中的发言还记录基于语音的发言的结构的各种各样的系统中，有想要实现能够以易于理解的方式对用户提示与任意的信息对应的发言的需求。

现有技术文献

专利文献

专利文献1：日本特开2008－172582号公报

发明内容

发明要解决的课题

本发明要解决的课题在于，提供能够以易于理解的方式对用户提示与任意的信息对应的发言的发言提示装置、发言提示方法以及程序。

用于解决课题的手段

实施方式的发言提示装置具备发言记录部、语音识别部、关联度计算部及UI控制部。发言记录部记录基于语音的发言。语音识别部对所记录的发言进行语音识别。关联度计算部针对语音识别出的各发言分别计算与字符串的关联度，该字符串从在具有第1显示区域和第2显示区域的UI画面的上述第2显示区域显示的字符串中指定。UI控制部使根据上述关联度的高低所选择的发言的语音识别结果显示在上述UI画面的上述第1显示区域。

附图说明

图1是表示第1实施方式的发言提示装置的构成例的框图。

图2是表示实施方式的发言提示装置的动作概要的流程图。

图3是说明收录会议中的发言的场景的具体例的图。

图4是表示用户数据的具体例的图。

图5是表示会议数据的具体例的图。

图6是表示会议中的发言的具体例的图。

图7是表示发言数据的具体例的图。

图8是表示发言识别数据的具体例的图。

图9是表示UI画面的一例的图。

图10是表示在“议事笔记”区域记入了议事笔记的UI画面的图。

图11是表示输入文本数据的具体例的图。

图12是表示第2实施方式的发言提示装置的构成例的框图。

图13是表示第3实施方式中的UI画面的一例的图。

图14是表示第4实施方式的发言提示装置的构成例的框图。

图15是表示录音环境数据的具体例的图。

图16是表示会议设定画面的一例的图。

图17是概略地表示发言提示装置的硬件构成的一例的框图。

具体实施方式

以下，参照附图详细地说明实施方式的发言提示装置、发言提示方法以及程序。在以下所示的实施方式中，例示了记录会议中的基于语音的发言，并在会议后的议事笔记制作时，提示与所指定的笔记部分关联的会议中的发言的构成的发言提示装置。该发言提示装置，例如，作为利用了网络的服务器·客户端系统的服务器装置而实现，提供在客户端终端显示后述的UI画面并进行基于使用了该UI画面的操作的处理等的服务。另外，发言提示装置也可以是在云系统上动作的虚拟机。而且，发言提示装置也可以作为用户直接利用的独立的装置而构成。

＜第1实施方式＞

图1是表示本实施方式的发言提示装置1的构成例的框图。该发言提示装置1如图1所示，具备发言记录部2、语音识别部3、UI控制部4、关联度计算部5以及数据保存部10。

发言记录部2记录会议中产生的基于语音的发言。发言被输入至进行了该发言的发言用户佩戴的领带夹麦克风或者头戴式耳机的麦克风等的单独麦克风或集音麦克风。被输入至单独麦克风或集音麦克风的发言与例如发言的产生日期时间、识别发言用户的用户ID(identification)一起，被发送至发言提示装置1。发言记录部2将接收到的语音作为语音文件来记录。

由发言记录部2所记录的发言的语音文件，与识别发言的发言ID、发言的产生日期时间、发言用户的用户ID、发言的收录中所用的麦克风种类(收录麦克风种类)、识别进行了发言的会议的会议ID等一起，作为发言数据13而被保存在数据保存部10中。收录麦克风种类例如通过参照相应于会议开始前的用户的登记操作而保存在数据保存部10中的用户数据11来确定。而且，会议ID例如通过相应于会议开始前的用户的登记操作而保存在数据保存部10中的会议数据12来确定。

语音识别部3进行对发言记录部2所记录的发言的语音识别。语音识别的方法能够直接利用公知的技术，因此这里省略详细的说明。语音识别部3例如输出对所输入的发言的语音的识别结果的候补中似然度最大的候补作为语音识别结果，并且输出各候补包含的全部单词作为识别关键词。

语音识别部3输出的发言的语音识别结果以及识别关键词，与识别发言的发言ID、表示假定的语音识别的精度的假定识别精度等一起，作为发言识别数据14而保存在数据保存部10中。假定识别精度例如相应于发言的语音的输入方式(具体而言为收录麦克风种类)等而设定。

UI控制部4生成对用户的议事笔记制作予以支援的UI画面并提供给客户端终端。UI画面具有显示会议中的发言的语音识别结果的“发言一览”区域(第1显示区域)、和受理议事笔记的输入的“议事笔记”区域(第2显示区域)。在UI画面的“发言一览”区域，显示在会议中所收录的发言的语音识别结果。UI画面的“议事笔记”区域被利用于用户输入会议的议事笔记。用户输入的议事笔记在“议事笔记”区域作为文本显示。而且，“议事笔记”区域也可以是除了议事笔记以外，还显示在会议前所登记的议事日程等与会议关联的其他的文本的构成。用户在“议事笔记”区域所输入的议事笔记，例如以行单位管理，并与识别各行的笔记部分的笔记ID、所输入的行、识别与议事笔记对应的会议的会议ID等一起，作为输入文本数据15而保存在数据保存部10中。

而且，UI控制部4，在用户进行从在UI画面的“议事笔记”区域显示的文本中指定任意的字符串的操作时，将在对应的会议中收录并进行了基于语音识别部3的语音识别的发言中基于与所指定的字符串的关联度的高低而所选择的发言的语音识别结果显示在UI画面的“发言一览”区域。与在“议事笔记”区域所指定的字符串的关联度，通过后述的关联度计算部5来计算。并且UI控制部4，在用户进行从在UI画面的“发言一览”区域显示有语音识别结果的发言中指定任意的发言的操作时，进行使该发言的语音再现的控制。

UI控制部4例如作为以基于网页的方式生成UI画面并提供给客户端终端的网页服务器而安装。在此情况下，客户端终端通过网络使用网页浏览器利用由UI控制部4生成的UI画面。另外，关于UI画面的具体的构成例，在后面叙述详细情况。

关联度计算部5，在用户进行从在UI画面的“议事笔记”区域显示的文本指定任意的字符串的操作时，针对在对应的会议中收录并通过语音识别部3进行了语音识别的会议中的各发言，分别计算与所指定的字符串的关联度。根据通过该关联度计算部5计算出的关联度的高低，选择语音识别结果被显示在UI画面的“发言一览”区域的发言，作为与在UI画面的“议事笔记”区域所指定的字符串对应的发言。另外，关于关联度的计算方法的具体例，详细情况后述。

接着，简单地说明本实施方式的发言提示装置1的动作的流程。图2是表示本实施方式的发言提示装置1的动作概要的流程图，(a)表示每当进行会议而实施的发言提示装置1的动作，(b)表示在会议后在客户端终端打开了UI画面时的发言提示装置1的动作。

另外，设为在会议中通过单独麦克风进行发言的用户(会议参加者)的信息、召开的会议的信息在会议的开始前从客户端终端存取并登记在发言提示装置1中。所登记的会议参加者的信息，作为用户数据11保存在数据保存部10中，所登记的会议的信息，作为会议数据12保存在数据保存部10中。

会议开始后，会议中的基于语音的发言，被输入至单独麦克风或集音麦克风后从客户端终端向发言提示装置1发送。发言提示装置1的发言记录部2，将被输入至单独麦克风或集音麦克风的发言，作为语音文件而记录(步骤S101)。由发言记录部2所记录的发言的语音文件，作为发言数据13而保存在数据保存部10中。

发言记录部2进行的发言的记录以及发言数据13的保存，一直继续到会议结束为止。即，根据表示会议结束的用户的明示的操作的有无等判定会议是否结束(步骤S102)，如果会议未结束(步骤S102中为否)，则每当对单独麦克风或集音麦克风输入会议中的发言，反复进行由发言记录部2进行的步骤S101的处理。并且，在会议结束时(步骤S102中为是)，语音识别部3对于作为发言数据13而保存在数据保存部10中的会议中的各发言进行语音识别(步骤S103)。通过基于语音识别部3的语音识别而获得的各发言的语音识别结果以及识别关键词，作为发言识别数据14而保存在数据保存部10中。另外，由语音识别部3进行的针对会议中的发言的语音识别，也可以在会议中进行。

在会议结束后从客户端终端有议事笔记制作的请求时，发言提示装置1的UI控制部4使UI画面显示于客户端终端。并且，用户进行在该UI画面的“议事笔记”区域记入议事笔记的操作时(步骤S201)，该文本显示于“议事笔记”区域，并且所记入的议事笔记作为输入文本数据15而保存在数据保存部10中。

然后，在用户进行从在“议事笔记”区域显示的文本中指定任意的字符串的操作时(步骤S202)，关联度计算部5针对在会议中所收录的各发言，计算与所指定的字符串的关联度(步骤S203)。然后，UI控制部4选择由关联度计算部5计算出的关联度高的发言作为显示对象的发言，并将所选择的发言的语音识别结果显示在UI画面的“发言一览”区域(步骤S204)。制作议事笔记的用户通过参照在“发言一览”区域所显示的发言的语音识别结果，能够通过视觉确认与在“议事笔记”区域指定的字符串对应的会议中的发言。而且，制作议事笔记的用户也能够根据需要指定语音识别结果被显示在“发言一览”区域的任一发言，并再现该发言的语音，由此通过听觉确认与在“议事笔记”区域指定的字符串对应的会议中的发言。

然后，根据表示议事笔记制作的结束的用户的明示的操作的有无等判定议事笔记制作是否结束(步骤S205)，如果议事笔记制作未结束(步骤S205中为否)，则反复进行从步骤S201到步骤S204的处理。并且，在议事笔记制作结束时(步骤S205中为是)，发言提示装置1的一系列的动作结束。

接着，在例示出具体的会议的事例的同时，对本实施方式的发言提示装置1的动作更详细地进行说明。

图3是说明收录会议中的发言的场景的具体例的图。在图3中，例示出了在会议室内由“池田”、“山本”、“田中”3人正在进行会议的样子。在会议室的桌子上，设置有经由网络而与本实施方式的发言提示装置1连接的客户端PC(个人计算机)20。在会议参加者中，“池田”和“山本”分别佩戴头戴式耳机30，“池田”的发言和“山本”的发言分别被输入至头戴式耳机30的单独麦克风。而且，在会议的桌子上设置有集音麦克风40，未佩戴头戴式耳机30的“田中”的发言被输入至该集音麦克风40。另外，集音麦克风40不仅被输入未佩戴头戴式耳机30的“田中”的发言，还将包括佩戴着头戴式耳机30的“池田”、“山本”的发言在内的在会议中产生的全部语音输入。

“池田”和“山本”佩戴的头戴式耳机30、设置在桌子上的集音麦克风40与客户端PC20连接。被输入至这些头戴式耳机30、集音麦克风40的会议中的发言，从客户端PC20经由网络被发送至发言提示装置1。另外，这里例示出了客户端PC20作为客户端终端的一例，但不限于此，也可以使用例如平板终端、电视会议用的终端等其他的终端作为客户端终端。

而且，这里假定了全部会议参加者聚集到1个会议室进行会议的场景，但在地理上分离的据点间进行远程会议的情况下，本实施方式的发言提示装置1也有效地动作。在此情况下，只要在进行远程会议的各据点，分别配置经由网络与本实施方式的发言提示装置1连接的客户端PC20那样的终端，并将各据点的会议参加者佩戴的头戴式耳机30、集音麦克风40与各据点的终端连接即可。

在使用本实施方式的发言提示装置1记录会议中的发言的情况下，在会议的开始前进行会议参加者中的至少使用单独麦克风收录发言的用户的登记和召开的会议的登记。用户的登记，例如能够通过用户使用客户端PC20访问发言提示装置1并在从发言提示装置1向客户端PC20提供的用户登记画面输入名字这一简单的方法实现。对所登记的用户赋予固有的用户ID，并与所输入的名字一起，作为用户数据11保存在数据保存部10中。

图4是表示保存在数据保存部10中的用户数据11的具体例的图。用户数据11如例如图4所示那样，将所登记的用户的用户ID与名字以对应关联的形式保存在数据保存部10中。而且，用户数据11中，包含“集音麦克风”用户，作为为了区别使用集音麦克风40收录的发言而设置的特殊的用户。在图4所示的用户数据11的例子中，“集音麦克风”用户的用户ID是“－1＿u”。另外，图4的形式是一例，作为用户数据11，也可以包含各用户登入发言提示装置1时所用的用户名以及密码、邮箱地址等其他的信息。

会议的登记，例如能够通过会议参加者中的1人使用客户端PC20访问发言提示装置1并在从发言提示装置1向客户端PC20提供的会议设定画面输入会议参加者的名字和会议的议题这一简单的方法实现。未佩戴头戴式耳机30的会议参加者(在图3的例子中为“田中”)的名字，被输入“集音麦克风”。输入到会议设定画面的会议参加者的名字，使用上述的用户数据11而被变换为用户ID。对所登记的会议赋予固有的会议ID，并与会议参加者的用户ID以及所输入的会议的议题一起，作为会议数据12保存在数据保存部10中。

图5是表示数据保存部10中保存的会议数据12的具体例的图。在该图5的会议数据12的例子中，示出了登记了2个会议的情况，会议参加者用用户数据11内的用户ID来管理。其中，会议ID为“1＿c”的会议与图3的例子对应，会议参加者的用户ID为“1＿u”、“3＿u”、“－1＿u”，所以表示“池田”和“山本”参加会议，此外表示还进行使用了集音麦克风40的语音的收录。另外，图5的形式是一例，作为会议数据12，也可以包含会议的议事日程、关联关键词、开始日期时间等其他的信息。

会议的登记后，实际开始会议时，会议中的基于语音的发言被输入至单独麦克风、集音麦克风。图6是表示会议中的发言的具体例的图，表示在图3所例示的环境中收录的发言例。“池田”的发言和“山本”的发言分别被输入至各自佩戴的头戴式耳机30的单独麦克风。在客户端PC20中，预先登记了由哪个用户利用各个头戴式耳机30，被输入至头戴式耳机30的单独麦克风的发言，与利用该头戴式耳机30的用户的用户ID一起被发送至发言提示装置1。而且，包括“田中”在内的3人的发言被输入至集音麦克风40，并与“集音麦克风”用户的用户ID一起被发送至发言提示装置1。在发言提示装置1中，从客户端PC20接收到的发言通过发言记录部2被记录为语音文件，并作为发言数据13保存在数据保存部10中。

图7是表示数据保存部10中保存的发言数据13的具体例的图，表示与图6的发言例对应的发言数据13。发言数据13如例如图7所示，以将对各发言赋予的固有的发言ID、该发言的产生日期时间、发言用户的用户ID、记录了发言的语音文件的文件名、收录麦克风种类、进行了发言的会议的会议ID对应关联的形式保存在数据保存部10中。

发言的产生日期时间，既可以是对发言附加并从客户端PC20发送的信息，也可以是在发言提示装置1中接收到发言时赋予的信息。收录麦克风种类，能够基于对发言附加并从客户端PC20发送的用户ID，通过参照例如用户数据11而取得。而且，会议ID能够从所登记的会议数据12取得。

另外，收录麦克风种类为“单独麦克风”的发言，基于无声区间、来自用户的明示的发言开始、结束的输入操作等，按每一句的发言划分而记录。另一方面，收录麦克风种类为“集音麦克风”的发言，按例如1分钟这一预先确定的记录单位归纳而记录。例如图7所示的发言ID“6＿s”的发言，是在10：05：00至10：06：00期间使用集音麦克风40收录的发言。另外，图7的形式是一例，作为发言数据13也可以包含其他的信息。

在会议的结束后，例如相应于会议参加者的操作而从客户端PC20对发言提示装置1通知会议的结束时，通过发言提示装置1的语音识别部3进行发言的语音识别。并且语音识别部3输出的各发言的语音识别结果以及识别关键词，作为发言识别数据14而保存在数据保存部10中。另外，由语音识别部3进行的发言的语音识别，也可以与由发言记录部2进行的发言的记录一起在会议中进行。

图8是表示发言识别数据14的具体例的图，表示与图6的发言例对应的发言识别数据14。发言识别数据14如例如图8所示，以将各发言的发言ID、对该发言的语音识别结果的文本(识别结果)、识别关键词、表示假定的语音识别的精度的假定识别精度对应关联的形式保存在数据保存部10中。

识别结果是识别结果的候补中似然度最大的候补的文本。为了简化说明，图8所例示的识别结果示出了正确进行了全部语音识别的例子。但是实际上，受到收录发言的环境、用户的说话方式的影响等，识别结果中包含错误的情况也存在。另外，关于后述的假定识别精度低于50％的发言，识别结果未被保存，仅保存识别关键词。例如图8所示的发言ID“6＿s”的发言和发言ID“12＿s”的发言，假定识别精度是低于50％的30％，因此识别结果未被保存，而仅保存识别关键词。

识别关键词是提取识别结果的候补中包含的单词而获得的。作为识别关键词的提取方式，有根据识别结果的候补中包含的词素信息仅提取名词等的方法。而且，也可以使用识别关键词中不包含频出的一般的名词等的方法。另外，希望从识别结果的候补提取到的各识别关键词与发言中出现时间一起保存，该发言中出现时间表示在从对应的发言的开始时刻起经过了几秒后发出了该识别关键词。

假定识别精度是表示由语音识别部3进行的语音识别的精度的假定值。语音识别的精度依赖于语音的收录环境，因此能够使用例如收录麦克风种类，对于从用户的嘴边单独地输入语音的单独麦克风设定80％这一较高的值，对于在远离嘴边的位置可能同时输入多个用户的发言的集音麦克风设定30％这一较低的值。另外，设定假定识别精度的方法不限于此，也可以采用与语音识别的精度有关的其他的信息设定假定识别精度。而且，图8的形式是一例，作为发言识别数据14也可以包含其他的信息。而且，也可以是将发言识别数据14与发言数据13一起保存在数据保存部10中的构成。

会议的结束后，要制作会议的议事笔记的用户使用客户端PC20访问发言提示装置1、指定会议并请求议事笔记制作时，发言提示装置1的UI控制部4，从数据保存部10收集与所指定的会议关联的数据，生成UI画面并提供给客户端PC20。发言提示装置1的UI控制部4提供的UI画面，显示于客户端PC20。

图9是表示客户端PC20显示的UI画面的一例的图。该图9所示的UI画面100，为在画面左侧具有“发言一览”区域110、在画面右侧具有“议事笔记”区域120的画面构成。在“发言一览”区域110，发言识别数据14的识别结果111按发言的产生顺序、以时序在从上到下的方向上显示。在“发言一览”区域110的左端配置的条112，表示使用集音麦克风40收录的会议整体的语音，在其右侧配置的被区分的条113，表示使用头戴式耳机30的单独麦克风收录的各用户的发言。成为通过点击这些条112、113，从而从与所点击的场所对应的时间再现语音的构成。

而且，“议事笔记”区域120是要制作议事笔记的用户输入任意的文本的区域。在“议事笔记”区域120，配置有文本输入用的光标121。在相应于用户的请求而最初显示的UI画面100中，如图9所示，在“议事笔记”区域120什么都未显示。但是，在登记了会议的议事日程作为会议数据12的情况下，也可以是该议事日程的内容作为初始文本显示于“议事笔记”区域120。要制作议事笔记的用户，能够参照例如在会议中记载在笔记本等上的手写的笔记等，将任意的字符串记入到该“议事笔记”区域120作为议事笔记。记入到“议事笔记”区域120的议事笔记，在该“议事笔记”区域120被显示为文本。另外，对“议事笔记”区域120记入议事笔记，也可以在会议中进行。即，也能够在会议中使UI画面100显示于客户端PC20，并在进行会议的同时使用键盘等在“议事笔记”区域120直接输入议事笔记。

在UI画面100的“议事笔记”区域120记入的议事笔记，例如作为行单位的输入文本数据15，而保存在数据保存部10中。图10是表示在“议事笔记”区域120记入了议事笔记的UI画面100的图。而且，图11是表示数据保存部10中保存的输入文本数据15的具体例的图，示出了与图10的议事笔记对应的输入文本数据15。输入文本数据15如例如图11所示，以将固有的笔记ID、记入了该文本的行、文本的内容、作为议事笔记制作的对象的会议的会议ID对应关联的形式保存在数据保存部10中。另外，图11的形式是一例，作为输入文本数据15也可以包含其他的信息。

在UI画面100的“议事笔记”区域120记入了议事笔记后，用户进行使光标121移动等的操作并进行指定在“议事笔记”区域120显示的任意的字符串的操作时，发言提示装置1的关联度计算部5，针对在会议中所记录的发言中、识别结果被包含在发言识别数据14中的各发言，分别计算与所指定的字符串的关联度。并且，UI控制部4，进行例如如下控制，即，按由关联度计算部5计算出的关联度从高到低的顺序选择规定数的发言作为显示对象的发言，并将所选择的发言的语音识别结果显示在UI画面100的“发言一览”区域110的控制。

在图10的UI画面100的例子中，光标121与在“议事笔记”区域120记入的议事笔记中记入了“语音合成は？关联技术？”这一笔记部分的行吻合，通过对该行进行文本解析而获得的名词即“语音合成”以及“关联技术”成为所指定的字符串。在此情况下，关联度计算部5对于识别结果被包含在发言识别数据14中的各发言，分别计算与“语音合成”、“关联技术”的关联度。并且，UI控制部4如图10所示，将会议中的发言中与“语音合成”、“关联技术”的关联度较高的发言的语音识别结果显示于“发言一览”区域110。

另外，在“议事笔记”区域120上指定字符串的操作方法，不限于使光标121吻合的方法。例如也可以是受理基于利用鼠标的拖动操作进行的范围指定这一其他的操作方法的字符串的指定的构成。

而且，UI控制部4，对于由于假定识别精度低于50％而识别结果未包含在发言识别数据14中的发言，将作为识别关键词而保存的单词中包含所指定的字符串的至少一部分的单词，与作为显示对象而选择的发言的语音识别结果一起，显示在“发言一览”区域110。该单词的显示位置，基于会议中的语音的产生时刻来决定。即，UI控制部4，将假定识别精度低于50％的发言的发言识别数据14中包含的识别关键词中、包含所指定的字符串的至少一部分的识别关键词，使用上述的发言中出现时间，显示在与发出该识别关键词的时间相当的“发言一览”区域110上的位置。但是，在该位置显示关联度高的发言的语音识别结果的情况下，不进行识别关键词的显示。

图10的UI画面100的例子示出了，使用图3所示的集音麦克风40收录的“田中”的发言的语音识别结果未显示在“发言一览”区域110，但显示了“田中”的发言中包含的“语音合成”、“关联技术”等识别关键词114。这是如下的例子，即，在图8所示的发言识别数据14的例子中，在发言ID“12＿s”的识别关键词中，提取与用户在“议事笔记”区域120上指定的“语音合成”、“关联技术”一致的关键词，并基于该识别关键词的发言中出现时间显示在“发言一览”区域110。另外，关于这样的识别关键词不存在并且没有基于单独麦克风的发言的时间，希望如图10那样显示“···”等，从而表示发言被记录但未显示语音识别结果的情况。

而且，在图10的UI画面100的例子中，识别结果包含在发言识别数据14中的发言中、由关联度计算部5计算出的关联度较低的发言的语音识别结果未被显示，但关于关联度较低的发言，也可以仅将该发言的语音识别结果的开头部分显示在“发言一览”区域110。

这里，对由关联度计算部5进行的关联度的计算方法的具体例进行说明。关联度计算部5例如按以下的步骤计算各发言相对于所指定的字符串的关联度。首先，将发言识别数据14中包含的各发言的识别结果的文本、以及在“议事笔记”区域120上所指定的字符串，使用词素解析分割为单词。然后，针对分割出的各单词，将发言识别数据14中包含的各发言的识别结果的文本整体作为语言资料库，使用将各发言的识别结果的文本作为文件的tf(Term Frequency)－idf(Inverse Document Frequency)设定权重。然后，针对各发言的识别结果的文本和在“议事笔记”区域120上所指定的字符串，分别生成附加了tf－idf的权重的单词的出现向量，计算对于各发言而生成的单词的出现向量与对于在“议事笔记”区域120上所指定的字符串生成的单词的出现向量的余弦相似度。然后，计算对于各发言的余弦相似度加上该发言的前后的一定数的发言的余弦相似度后的余弦相似度，作为该发言相对于在“议事笔记”区域120上所指定的字符串的关联度。另外，也可以不加上前后的发言的余弦相似度，而计算各发言的余弦相似度作为关联度。而且，各发言的单词的出现向量也可以不仅包括该发言的识别结果中包含的单词，还包括识别结果的候补中包含的单词(识别关键词)而生成。

在用以上的方法计算关联度的情况下，UI控制部4将识别结果包含在发言识别数据14中的各发言，按由关联度计算部5计算出的关联度从高到低的顺序排序，并选择上位的规定数的发言作为显示对象。并且，UI控制部4，将作为显示对象而选择的发言的语音识别结果，以与该发言的产生顺序对应的时序，显示在UI画面100的“发言一览”区域110。

而且，关联度计算部5也可以不如以上那样对单词进行tf－idf的加权，而简单地根据在“议事笔记”区域120上所指定的字符串是否包含在识别结果的文本中，来计算各发言的关联度。在此情况下，由关联度计算部5计算的关联度为，表示在“议事笔记”区域120上所指定的字符串包含在识别结果的文本中的“1”、表示不包含的“0”这2个值的值。UI控制部4选择由关联度计算部5计算的关联度为“1”的发言作为显示对象，并将该发言的语音识别结果，以与该发言的产生顺序对应的时序，显示在UI画面100的“发言一览”区域110。

要制作议事笔记的用户，参照在UI画面100的“发言一览”区域110显示的发言的语音识别结果，根据需要而再现与该语音识别结果对应的发言的语音，由此能够确认与记入到“议事笔记”区域110的议事笔记关联的发言的内容，能够有效率地进行新追加不足的信息这样的议事笔记的扩充等。

以上，如举出具体的例子详细地进行了说明那样，在本实施方式的发言提示装置1中，发言记录部2记录在会议中所收录的发言，语音识别部3进行该发言的语音识别。然后，UI控制部4使包含“发言一览”区域110和“议事笔记”区域120的UI画面100显示于客户端终端，并在“议事笔记”区域120上指定字符串时，关联度计算部5针对语音识别出的各发言计算与在“议事笔记”区域120上所指定的字符串的关联度。并且，UI控制部4，选择由关联度计算部5计算出的关联度较高的发言作为显示对象，并将所选择的发言的语音识别结果显示在UI画面100的“发言一览”区域110。因此，根据该发言提示装置1，能够以易于理解的方式对用户提示与被输入到“议事笔记”区域120的任意的信息对应的发言而使用户确认，能够适当地对议事笔记制作等的用户的作业进行支援。

＜第2实施方式＞

接着，对第2实施方式进行说明。本实施方式中的由关联度计算部5进行的关联度的计算方法与上述的第1实施方式不同。发言提示装置1的基本的构成、动作与第1实施方式是同样的，因此以下对于与第1实施方式共通的部分将重复的说明省略，仅说明与第1实施方式的区别点。

本实施方式的关联度计算部5，不是仅使用识别结果的文本来计算各发言的关联度，而是使用与该会议关联的各种各样的文书计算文本的主题，并使用计算出的主题计算关联度。这里，主题不是该文本的大概的意思，使用例如LDA(Latent DirichletAllocation)等主题解析方法计算。

图12是表示本实施方式的发言提示装置1的构成例的框图。与图1所示的第1实施方式的发言提示装置1的构成的差异点在于，作为数据保存部10中保存的数据而追加会议关联文书数据16，关联度计算部5使用该会议关联文书数据16，计算各发言的关联度。会议关联文书数据16例如是关于某个会议，汇集了数据保存部10中保存的其他的关联的会议的发言识别数据14、输入文本数据15后的数据。另外，作为会议关联文书数据16，可以使用例如从因特网上获取的与会议关联的话题的文书。

本实施方式的关联度计算部5，通过例如以下的步骤计算各发言相对于所指定的字符串的关联度。首先，将发言识别数据14中包含的各发言的识别结果的文本、以及在“议事笔记”区域120上所指定的字符串，使用词素解析分割为单词。然后，针对各发言的识别结果的文本、和在“议事笔记”区域120上所指定的字符串，将作为发言识别数据14中包含的各发言的识别结果的文本整体和会议关联文书数据16作为语言资料库，使用LDA等分别生成由表示主题的单词和其权重的列构成的向量，计算对于各发言而生成的向量与对于在“议事笔记”区域120上所指定的字符串生成的向量的余弦相似度。然后，计算对于各发言的余弦相似度加上该发言的前后的一定数的发言的余弦相似度而得到的余弦相似度，作为该发言相对于在“议事笔记”区域120上所指定的字符串的关联度。另外，也可以不加上前后的发言的余弦相似度，而计算各发言的余弦相似度作为关联度。而且，主题的计算也可以使用LDA以外的方法，例如LSI(Latent Semantic Indexing)等。

如以上说明那样，在本实施方式中，关联度计算部5使用与各发言的主题及所指定的字符串的主题的相似度，计算各发言相对于所指定的字符串的关联度。因此，与上述的第1实施方式相比，能够更高精度地计算各发言相对于所指定的字符串的关联度。

＜第3实施方式＞

接着，对第3实施方式进行说明。本实施方式是不仅仅显示与在UI画面100的“议事笔记”区域120上所指定的字符串对应的发言的语音识别结果，与根据在“议事笔记”区域120显示的字符串的构造所选择的字符串对应的发言的语音识别结果也一并显示在UI画面100的“发言一览”区域110的例子。发言提示装置1的基本的构成、动作与第1实施方式是同样的，因此以下对于与第1实施方式共通的部分将重复的说明省略，仅说明与第1实施方式的区别点。

例如，在用使光标121与“议事笔记”区域120的任意的行吻合的方法指定字符串的情况下，在第1实施方式中，将与在“议事笔记”区域120中显示的字符串中、光标121吻合的行的字符串对应的发言的语音识别结果显示在“发言一览”画面110。与此相对，在本实施方式中，使用“议事笔记”区域120的缩进来把握文本构造，关于光标121吻合的行的话题的上位等级的标题字，也将对应的发言的语音识别结果显示在“发言一览”区域110。

图13是表示本实施方式中显示于客户端PC20的UI画面100的一例的图。在图13的UI画面100的例子中，光标121与在“议事笔记”区域120所记入的议事笔记中记入了“维修业务”这一笔记部分的行吻合，该“维修业务”成为所指定的字符串。而且，记入了“维修业务”的行，在开头设定了空间一个字符量的缩进，与此相对，在2行以上的记入了“展示会”这一笔记部分的行122在开头未设定缩进，推定为该行122的“展示会”这一字符串，为比所指定的字符串即“维修业务”更上位的标题字。

在此情况下，关联度计算部5，对于识别结果包含在发言识别数据14中的各发言，除了计算与所指定的字符串即“维修业务”的关联度以外，还计算与“展示会”的关联度。并且，UI控制部4如图13所示那样，与会议中的发言中与“维修业务”的关联度较高的发言的语音识别结果一并，对于与“展示会”的关联度较高的发言的语音识别结果，也在“发言一览”区域110按时序显示。而且，与第1实施方式同样地，由于假定识别精度较低而未被保存识别结果的发言的识别关键词中包含“维修业务”、“展示会”的情况下，在与发出该识别关键词的时间对应的位置显示。

另外，为了明确“议事笔记”区域120上的字符串与在“发言一览”区域110显示的发言的语音识别结果的对应关系，例如希望使用将“议事笔记”区域120上的所指定的字符串和与之对应的“发言一览”区域110上的发言的语音识别结果的背景涂色为相同颜色进行显示，并且将根据“议事笔记”区域120上的文本构造所选择的字符串和与之对应的“发言一览”区域110上的发言的语音识别结果的背景涂色为相同颜色进行显示的方法。在图13的UI画面100的例子中，“议事笔记”区域120上的记入了“维修业务”的行、和“发言一览”区域110的“维修业务”对应的发言的语音识别结果以及识别关键词，在相同颜色的背景上显示，“议事笔记”区域120上的记入了“展示会”的行、和“发言一览”区域110的“展示会”对应的发言的语音识别结果，在相同颜色的背景上显示。

如以上说明那样，在本实施方式中，不仅提示与由用户指定的字符串对应的发言的语音识别结果，还提示与该字符串的上位的标题字等对应的发言的语音识别结果，所以能够更适当地对例如议事笔记制作等的用户的作业进行支援。

＜第4实施方式＞

接着，对第4实施方式进行说明。本实施方式为，在假定识别精度的设定下，不仅仅收录麦克风种类，还准备几个录音环境数据，并按每个会议、每个用户进行个别的设定的例子。发言提示装置1的基本的构成、动作与第1实施方式是同样的，因此以下对于与第1实施方式共通的部分将重复的说明省略，仅说明与第1实施方式的区别点。

图14是表示本实施方式的发言提示装置1的构成例的框图。与图1所示的第1实施方式的发言提示装置1的构成的差异点在于，追加了录音环境数据17，语音识别部3参照该录音环境数据17设定各发言的估计识别精度。在录音环境数据17中，除了收录麦克风种类以外，还按是否是特定的用户的发言、是否是在特定的场所收录的发言、是否对收录的发言的语音进行了后处理等的条件，确定假定识别精度。

图15是表示录音环境数据17的具体例的图。录音环境数据17如例如图15所示那样，设为将对各个数据赋予的固有的数据ID、收录麦克风种类、发言用户的用户ID、收录了发言的场所、后处理的有无、假定识别精度进行了对应关联的形式。在图15的录音环境数据17的例子中，内容为“*”的项目表示不确定发言用户、收录了发言的场所的设定。“说话者比对”表示使用各说话者的语音的声响的特征将使用集音麦克风40收录的语音按各个说话者进行分离的后处理。另外，图15的形式是一例，作为录音环境数据17也可以包含其他的信息。

本实施方式的语音识别部3，在设定发言识别数据14的假定识别精度时，利用如以上那样的录音环境数据17。各发言符合哪个条件，使用与在会议登记时使用会议设定画面所登记的会议有关的会议数据12、在该会议中所收录的发言的发言数据13等来确定。

图16是表示会议设定画面的一例的图。在该图16所示的会议设定画面200中，设置有用于输入会议的议题的文本框201、用于输入进行会议的场所(发言被收录的场所)的文本框202、用于输入会议的出席者(会议参加者)的文本框203以及用于输入该出席者的发言的收录所使用的麦克风的种类(收录麦克风种类)的文本框204。

在图16的会议设定画面200的例子中，示出了进行会议的场所(发言被收录的场所)是“服务器室”。因此，符合图15中例示的录音环境数据17中数据ID为“4＿d”的条件，假定识别精度设定为“60％”。这表示出了，由于假定为在如服务器室那样杂音多的环境所收录的发言的语音识别精度比在杂音少的环境所收录的发言的语音识别精度低，因此使用单独麦克风所收录的发言的假定识别精度从80％降低为60％。

另外，在与录音环境数据17中包含的多个数据的条件吻合的情况下，设定以这多个数据所表示的假定识别精度中最低的假定识别精度。例如，在图16的会议设定画面200的例子中，示出了用户ID为“2＿u”的“大岛”出席会议，因此关于该会议中的“大岛”的发言，符合图15中例示的录音环境数据17中数据ID为“3＿d”的条件和数据ID为“4＿d”的条件这双方。在此情况下，将数据ID为“3＿d”的假定识别精度即90％与数据ID为“4＿d”的假定识别精度即60％比较，低者的60％被设定为“大岛”的发言的假定识别精度。

如以上说明那样，在本实施方式中，不仅考虑收录麦克风种类，还考虑与发言的收录有关的各种各样的条件设定假定识别精度，所以能够更高精度地设定假定识别精度。

另外，如以上那样设定的假定识别精度，也能够如在第1实施方式中说明那样、除了用于判定是否将识别结果作为发言识别数据14保存以外，也能够用于UI控制部4选择成为在UI画面100的“发言一览”区域110显示识别结果的对象的发言。即，UI控制部4也可以除了使用与由关联度计算部5计算出的所指定的字符串的关联度以外，还使用通过语音识别部3设定的假定识别精度，选择成为在“发言一览”区域110显示识别结果的对象的发言。

具体而言，UI控制部4例如也可以求出对于用在第1实施方式、第2实施方式中说明的计算方法由关联度计算部5计算出的关联度乘以由语音识别部3设定的假定识别精度而得到的值作为各发言的得分，按所得的得分从大到小的顺序将各发言排序，并选择上位的规定数的发言作为显示对象。并且，UI控制部4，将选择为显示对象的发言的语音识别结果，以与该发言的产生顺序相应的时序，显示在UI画面100的“发言一览”区域110。由此，能够将与所指定的字符串的关联度较高的发言中尤其是假定识别精度较高的发言优先地提示给用户。另外，对于语音识别精度非常低的发言，也可以不进行与所指定的字符串吻合的识别关键词的显示。

＜补充说明＞

以上，作为实施方式的发言提示装置，例示了记录会议中的发言并提示与由用户指定的任意的字符串对应的发言的构成的发言提示装置1，但实施方式的发言提示装置不限于会议中的发言，也能够构成为记录基于语音的各种各样的发言，并提示与由用户指定的任意的字符串对应的发言的装置。

以上说明的实施方式的发言提示装置1中的各功能的构成要素，通过例如使用通用的计算机系统作为基本硬件执行的程序(软件)来实现。

图17是概略地表示发言提示装置1的硬件构成的一例的框图。实施方式的发言提示装置1如图17所示，构成为包括CPU等处理器51、RAM等主存储装置52、使用了各种存储装置的辅助存储装置53、通信接口54、将上述各部连接的总线55的通用的计算机系统。另外，辅助存储装置53也可以通过基于有线或无线的LAN(Local AreaNetwork)等与各部连接。

实施方式的发言提示装置1的各功能性的构成要素(发言记录部2、语音识别部3、UI控制部4以及关联性计算部5)，例如通过处理器51利用主存储装置52并执行保存在辅助存储装置53中的程序来实现。数据保存部10例如使用辅助存储装置53来实现。

通过处理器51执行的程序，例如，以可安装的形式或可执行的形式的文件记录在CD－ROM(Compact Disc Read Only Memory)、软盘(FD)、CD－R(Compact DiscRecordable)、DVD(Digital Versatile Disc)等计算机可读取的记录介质中作为计算机程序产品来提供。

而且，也可以构成为将该程序保存在与因特网等网络连接的其他的计算机上并经由网络下载来提供。而且，也可以构成为经由因特网等网络提供或发布该程序。而且，也可以构成为将该程序预先装入到计算机内部的ROM(辅助存储装置53)等中来提供。

该程序为包括实施方式的发言提示装置1的功能性的构成要素的模块构成，作为实际的硬件，例如处理器51从上述记录介质读出并执行程序，由此上述的各构成要素装载到主存储装置52上，上述的各构成要素在主存储装置52上生成。另外，实施方式的发言提示装置1的功能性的构成要素，也能够使用ASIC(Application Specific IntegratedCircuit)、FPGA(Field-Programmable Gate Array)等的专用的硬件来实现其一部分或全部。

以上，说明了本发明的实施方式，但该实施方式作为例子而提示，无意限定发明的范围。该新的实施方式能够以其他的各种各样的方式实施，在不脱离发明的宗旨的范围内，能够进行各种省略、置换、变更。这些实施方式及其变形，包含在发明的范围及宗旨中，并且也包含在权利要求书所记载的发明及其等同的范围中。

Claims

1.一种发言提示装置，具备：

发言记录部，记录基于语音的发言；

语音识别部，对所记录的发言进行语音识别；

关联度计算部，针对语音识别出的各发言，分别计算与字符串的关联度，该字符串从在具有第1显示区域和第2显示区域的UI画面的上述第2显示区域所显示的字符串中指定；以及

UI控制部，使根据上述关联度的高低所选择的发言的语音识别结果，显示在上述UI画面的上述第1显示区域。

2.如权利要求1所述的发言提示装置，其中，

上述UI控制部使上述所选择的发言的语音识别结果，以与发言的产生顺序对应的时序显示在上述第1显示区域。

3.如权利要求1或2所述的发言提示装置，其中，

上述UI控制部，使根据语音的输入方式而假定的语音识别的精度满足规定的基准的发言、而且是根据上述关联度的高低所选择的发言的语音识别结果，显示在上述第1显示区域。

4.如权利要求3所述的发言提示装置，其中，

上述UI控制部，使上述精度不满足上述基准的发言的语音识别结果的候补所包含的单词中、包含上述所指定的字符串的至少一部分的单词，与上述所选择的发言的语音识别结果一起显示在上述第1显示区域。

5.如权利要求4所述的发言提示装置，其中，

上述UI控制部，根据与该单词对应的语音的产生时刻，决定上述第1显示区域中的上述单词的显示位置。

6.如权利要求3至5中任一项所述的发言提示装置，其中，

上述精度除了根据语音的输入方式假定以外，还根据语音的输入环境以及语音的后处理的有无中至少一方来假定。

7.如权利要求3至6中任一项所述的发言提示装置，其中，

上述UI控制部，使根据上述关联度的高低和上述精度所选择的发言的语音识别结果，显示在上述第1显示区域。

8.如权利要求1至7中任一项所述的发言提示装置，其中，

上述所指定的字符串是根据用户对上述第2显示区域的操作所指定的字符串。

9.如权利要求1至8中任一项所述的发言提示装置，其中，

上述关联度计算部，针对语音识别出的各发言，分别计算与上述所指定的字符串的关联度、以及与根据显示在上述第2显示区域的字符串的构造所选择的字符串的关联度，

上述UI控制部，使根据与上述所指定的字符串的关联度的高低所选择的发言的语音识别结果、以及根据与上述所选择的字符串的关联度的高低所选择的发言的语音识别结果，显示在上述第1显示区域。

10.如权利要求1至9中任一项所述的发言提示装置，其中，

上述UI控制部，相应于对显示在上述第1显示区域的语音识别结果予以指定的操作，再现与该语音识别结果对应的发言的语音。

11.如权利要求1至10中任一项所述的发言提示装置，其中，

上述关联度计算部，根据上述所指定的字符串的至少一部分是否包含在发言的语音识别结果或该语音识别结果的候补中，计算该发言相对于上述所指定的字符串的上述关联度。

12.如权利要求1至10中任一项所述的发言提示装置，其中，

上述关联度计算部，对于上述所指定的字符串，生成对该字符串所包含的各单词附加了使用了tf－idf的权重的单词的出现向量，并且对于语音识别出的各发言，生成对发言的语音识别结果所包含的各单词附加了使用了tf－idf的权重的单词的出现向量，根据对于各发言而生成的单词的出现向量与对于上述所指定的字符串而生成的单词的出现向量的余弦相似度，计算各发言相对于上述所指定的字符串的上述关联度。

13.如权利要求12所述的发言提示装置，其中，

在将成为计算上述关联度的对象的发言作为对象发言，并将相对于该对象发言而言产生时刻相近的规定数的发言分别作为邻近发言时，上述关联度计算部，将对于上述对象发言而生成的单词的出现向量与对于上述所指定的字符串而生成的单词的出现向量的余弦相似度、同对于上述邻近发言而生成的单词的出现向量与对于上述所指定的字符串而生成的单词的出现向量的余弦相似度相加，计算上述关联度。

14.如权利要求1至10中任一项所述的发言提示装置，其中，

上述关联度计算部，对于上述所指定的字符串，生成由表示该字符串的主题的单词和该单词的权重的列构成的向量，并且对于语音识别出的各发言，生成由表示该发言的主题的单词和该单词的权重的列构成的向量，根据对于各发言而生成的向量与对于上述所指定的字符串而生成的向量的余弦相似度，计算各发言相对于上述所指定的字符串的上述关联度。

15.如权利要求14所述的发言提示装置，其中，

在将成为计算上述关联度的对象的发言作为对象发言，并将相对于该对象发言而言产生时刻相近的规定数的发言作为邻近发言时，上述关联度计算部，将对于上述对象发言而生成的向量与对于上述所指定的字符串而生成的向量的余弦相似度、同对于上述邻近发言而生成的向量与对于上述所指定的字符串而生成的向量的余弦相似度相加，计算上述关联度。

16.一种发言提示方法，由发言提示装置来执行，包括：

记录基于语音的发言的步骤；

对所记录的发言进行语音识别的步骤；

针对语音识别出的各发言分别计算与字符串的关联度的步骤，该字符串从在具有第1显示区域和第2显示区域的UI画面的上述第2显示区域所显示的字符串中指定；以及

使根据上述关联度的高低所选择的发言的语音识别结果，显示在上述UI画面的上述第1显示区域的步骤。

17.一种程序，用于使计算机执行以下功能：

记录基于语音的发言的功能；

对所记录的发言进行语音识别的功能；

针对语音识别出的各发言分别计算与字符串的关联度的功能，该字符串从在具有第1显示区域和第2显示区域的UI画面的上述第2显示区域所显示的字符串中指定；以及

使根据上述关联度的高低所选择的发言的语音识别结果，显示在上述UI画面的上述第1显示区域的功能。