CN104731767B - 交流支援装置以及交流支援方法 - Google Patents

交流支援装置以及交流支援方法 Download PDF

Info

Publication number
CN104731767B
CN104731767B CN201410385427.8A CN201410385427A CN104731767B CN 104731767 B CN104731767 B CN 104731767B CN 201410385427 A CN201410385427 A CN 201410385427A CN 104731767 B CN104731767 B CN 104731767B
Authority
CN
China
Prior art keywords
word
sentence
mentioned
event
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410385427.8A
Other languages
English (en)
Other versions
CN104731767A (zh
Inventor
长健太
加纳敏行
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Publication of CN104731767A publication Critical patent/CN104731767A/zh
Application granted granted Critical
Publication of CN104731767B publication Critical patent/CN104731767B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Abstract

本发明的实施方式涉及交流支援装置以及交流支援方法。实施方式的交流支援装置具备事件检测部、单词提取部以及单词选择部。事件检测部对从会议参加者的发言的声音转换的句子进行解析,而检测表示基于会话的信息传递失败的事件。单词提取部从由事件检测部检测出事件的句子中提取单词。单词选择部根据传递失败指标来选择由单词提取部(15)提取的单词中成为信息传递的失败原因的单词,上述传递失败指标根据从包含单词的句子中检测出的事件来计算。

Description

交流支援装置以及交流支援方法
本申请享受2013年12月20在先提出的日本专利申请号2013-264127的优先权,并且将其全部内容引入本申请。
技术领域
本发明的实施方式涉及交流支援装置以及交流支援方法。
背景技术
已知如下技术:通过声音识别将用户间的会话转换成文本,并根据需要通过机器翻译转换成其他国家语言的文本,而显示于用户所使用的终端装置。该技术例如作为在远程会议系统等中对参加会议的用户彼此的交流进行支援的技术是有用的。另外,如果利用该技术,则能够将转换成文本的会话的内容例如作为会议的会议记录进行保存,以后也能够进行参考。
在上述技术中,存在以下情况:当用户的发言中含有未登记在声音识别、机器翻译所使用的辞典中的单词时,会产生错误识别、误译,而无法适当地支援用户彼此的交流。因此,要求适当地检测出产生错误识别、误译的单词,并将正确的单词登记在辞典中。并且,要求例如从被保存为会议的会议记录的文本中适当地检测出产生错误识别、误译的单词,并修正为正确的单词。
对于从文本中提取应登记在辞典中的单词、成为修正对象的单词的方法进行了各种研究,但现有的方法未将基于会话的信息传递的成功与否作为判断材料,因此难以从交流支援的观点出发来进行适当的单词的提取。
发明内容
实施方式的交流支援装置为,使用辞典将用户间的会话转换成文本而显示于终端装置,该交流支援装置具备检测部、提取部以及选择部。检测部对与用户的一次发言相对应的文本单位即句子进行解析,而检测表示基于会话的信息传递失败的事件。提取部从检测出上述事件的句子中提取单词。选择部根据传递失败指标来选择由上述提取部提取的单词中、成为信息传递的失败原因的单词,上述传递失败指标根据从包含上述单词的句子中检测出的上述事件来计算。
附图说明
图1是远程会议系统的概略构成图。
图2是表示交流支援装置的功能性构成例的框图。
图3是示意地表示转换部所使用的辞典的一例的图。
图4是表示句子表的一例的图。
图5是表示句子显示用UI画面的一例的图。
图6是表示事件种类表的一例的图。
图7是表示事件表的一例的图。
图8是表示单词表的一例的图。
图9是表示单词修正用UI画面的一例的图。
图10是表示交流支援装置的动作的一例的流程图。
图11是表示在会议结束后显示的句子显示用UI画面的一例的图。
图12是表示在变形例中追加的事件种类表的一例的图。
图13是表示变形例的交流支援装置的动作的一例的流程图。
图14是概略地表示交流支援装置的硬件构成的一例的框图。
具体实施方式
以下,参照附图对实施方式的交流支援装置、交流支援方法以及程序进行详细说明。以下所示的实施方式是向远程会议系统的应用例,但能够应用本发明的系统不限于此。
(远程会议系统)
图1是具备实施方式的交流支援装置的远程会议系统的概略构成图。如图1所示,远程会议系统构成为,本实施方式的交流支援装置10、会议参加者所使用的终端装置20、以及系统管理者所使用的终端装置30经由通信网络40连接。
交流支援装置10典型地是实现为具备作为通常的计算机系统的硬件构成(处理器、主存储部、辅助存储部、通信接口)的服务器装置。但是,交流支援装置10的实现方法不限于该例,也可以实现为在云系统上工作的虚拟机,还可以实现为在终端装置20、30上工作的应用程序。在本实施方式中,交流支援装置10实现为经由通信网络40在终端装置20、30之间进行基于Web的通信的、具有Web服务器的功能的服务器装置。
会议参加者所使用的终端装置20例如具备作为软件而搭载了Web浏览器的PC(个人计算机)主体21、通过内置或者外置而与PC主体21连接的显示部22、麦克风23以及扬声器24。除此之外,作为终端装置20,例如能够利用平板终端、便携电话等作为硬件而具备显示部22、麦克风23以及扬声器24、作为软件而搭载了Web浏览器的各种信息处理终端。系统管理者所使用的终端装置30与会议参加者所使用的终端装置20为同样的构成。
在本实施方式中,假定为:在将不同语言作为母语的会议参加者之间实施的远程会议中,利用远程会议系统。在远程会议系统中,使用终端装置20的麦克风23来取得会议参加者的发言。交流支援装置10通过声音识别将该发言转换成文本。并且,将从声音转换的文本通过机器翻译转换成其他会议参加者的母语的文本。此外,在会议中使用的语言可以是会议参加者各自的母语,也可以构成为,将预先确定的语言作为使用语言、仅使将与该使用语言不同的语言作为母语的会议参加者的发言翻译成使用语言。
在交流支援装置10中通过声音识别、机器翻译而转换的文本,通过会议参加者所使用的终端装置20的Web浏览器的功能而显示于显示部22。在本实施方式中,将与会议参加者的一次发言相对应的文本单位称为句子。在会议参加者各自使用的终端装置20的显示部22上,在会议进行的期间显示句子显示用UI画面。并且,在句子显示用UI画面上,每当存在会议参加者的发言时,与该发言相对应的句子被依次显示。并且,会议参加者的发言被从会议参加者各自使用的终端装置20的扬声器24输出声音。此外,声音的共有,可以作为交流支援装置10的一个功能来实现,也可以利用视频会议装置等其他装置、或者在终端装置20上工作的应用程序来实现。
交流支援装置10具有将与会议参加者的发言相对应的句子例如与发言的声音建立关联地保存的功能。在会议结束后,例如能够使终端装置20的显示部22在句子显示用UI画面上显示被保存的句子,能够将其利用于会议的回看等。
交流支援装置10对与会议参加者的发言相对应的句子进行解析,并检测发言的重说、重听等、推测为基于会话的信息传递失败的状况。在本实施方式中将这种状况称为事件。在信息传递失败时可能产生的几个发言模式被预先确定为事件,对各个事件赋予传递失败指标,该传递失败指标表示在信息传递失败的情况下该事件发生的程度。
之后,交流支援装置10对于检测出事件的句子进行语态素分析等而提取单词,并根据传递失败指标来选择所提取的单词中、成为信息传递的失败原因的单词。并且,交流支援装置10使单词修正用UI画面显示于会议参加者所使用的终端装置20、系统管理者所使用的终端装置30的显示部22,该单词修正用UI画面用于将所选择的单词修正为正确的单词。当从该单词修正用UI画面输入正确的单词时,交流支援装置10将该所输入的单词登记到声音识别、机器翻译所使用的辞典中,或者进行句子的修正。从检测出事件的句子提取单词、并选择成为信息传递的失败原因的单词而使终端装置20、30的显示部22显示单词修正用UI画面的定时,可以是会议中、也可以是会议结束后。
(交流支援装置)
接着,关于本实施方式的交流支援装置10的详细情况,举出具体例子来进行说明。图2是表示交流支援装置10的功能性构成例的框图。如图2所示,交流支援装置10具备转换部11、句子管理部12、UI控制部13、事件检测部14、单词提取部15以及单词选择部16。
转换部11为,对于使用终端装置20的麦克风23取得的会议参加者的发言,使用辞典D进行声音识别以及根据需要进行机器翻译而转换成文本。声音识别可以构成为,从由麦克风23输入的声音中自动地检测发声区间并将其作为单个句子进行声音识别,也可以构成为,会议参加者例如从句子显示用UI画面明示地输入发声开始和结束定时并将该区间作为单个句子进行声音识别。
图3是示意地表示转换部11所使用的辞典D的一例的图。在辞典D中,对于所登记的各个单词,将原语言文本、读法以及与原语言文本相对应的翻译语言文本建立对应地保存。转换部11为,如果会议者的发言所包含的单词登记在该辞典D中,则能够使用该辞典D将该单词转换成正确的原语言文本、翻译语言文本。
句子管理部12接受转换部11的处理结果即句子,并记录到句子表Tb1中。另外,句子管理部12将从转换部11接受的句子传递给UI控制部13。
图4是表示句子表Tb1的一例的图。在句子表Tb1中,将会议参加者的发言转换成文本之后的各句子,与句子ID以及发言者的信息建立对应地保存。句子ID是对各句子赋予的固有的识别信息。发言者的信息例如能够利用在举办会议时会议主办者所登记的信息等。句子表Tb1按照每个会议来独立地制作。
在本例中,假定如下情况:在会议参加者的发言中包含有固有的服务名“Toscribe(读法:tou-sukuraibu)”、组织简称(解决事业部的简称)“Solジ(读法:soruji)”。这些单词未登记在辞典D中,因此声音识别、机器翻译失败。在图4的句子ID1、2、7中所识别的各句子表示如下例子:“Toscribe(读法:tou-sukuraibu)”的发声通过声音识别被转换成“トゥーすくライブ”这种日语文本,“トゥーすくライブ”通过机器翻译被转换成“two live easier”这种英语文本。在图4的句子ID3、4、5中所识别的各句子表示如下例子:“Solジ(读法:soruji)”的发声通过声音识别被转换成“反る字”这种日语文本,“反る字”通过机器翻译被转换成“character to warp”这种英语文本。
UI控制部13进行如下控制:使会议参加者所使用的终端装置20、系统管理者所使用的终端装置30的显示部22显示句子显示用UI画面DS1、单词修正用UI画面DS2,或者受理从这些UI画面DS1、DS2输入的操作输入。在本实施方式中,通过Web服务器来实现该UI控制部13的功能。UI控制部13为,每当从句子管理部12接受到新句子时,就更新句子显示用UI画面DS1,并使搭载了Web浏览器的终端装置20的显示部22显示最新的句子显示用UI画面DS1。
图5是表示终端装置20的显示部22所显示的句子显示用UI画面DS1的一例的图。在句子显示用UI画面DS1中,在其上部的显示区域101中显示会议的信息,在中央的显示区域102中显示按照发声的时间序列顺序排列的句子。会议的信息例如能够利用在举办会议时会议主办者所登记的信息。在声音输入中,在下部的显示区域103中显示声音识别中的文本以及其机器翻译结果的文本。在图5所示的例子中,假定日语的发声被翻译成英语的情况。
事件检测部14对被记录到句子表Tb1中的句子进行解析,并检测表示基于会话的信息传递失败的事件。如上述那样,事件是在信息传递失败时可能产生的发言的模式,其与传递失败指标建立对应地预先登记在事件种类表Tb2中。事件检测部14基于该事件种类表Tb2来检测事件,并将被检测出事件的句子记录在事件表Tb3中。
图6是表示事件种类表Tb2的一例的图。在事件种类表Tb2中,预先确定的发言的模式即事件与事件种类ID以及传递失败指标的值建立对应地保存。在本实施方式中,“重说”、“重说对象”、“疑问表现”、“疑问对象”、“说明表现”、“说明对象”、“误动作表现”、“误动作对象”、“重听”、“重听对象”被分别预先确定为事件。事件种类ID是对各事件赋予的固有的识别信息。如上述那样,传递失败指标表示在信息传递失败的情况下相应事件发生的程度,其具有按照事件的每个种类而确定的值。传递失败指标的值可以按照事件的每个种类而预先设定为固定值,也可以是如下的值:使与包含实际地在单词修正用UI画面DS2中被修正的单词的句子相对应的事件的失败传递指标的值增大等、根据系统的利用状况而动态地变化的值。
在图6的事件种类表Tb2所例示的事件中,“重说”和“重说对象”是某个会议参加者不等待其他会议参加者的发言而重复同样的发言的模式。事件检测部14在同一会议参加者连续地发言与紧前的句子同样的句子的情况下,将该句子作为检测出“重说”事件的句子而记录到事件表Tb3中。另外,事件检测部14将检测出“重说”事件的句子紧前的句子作为检测出“重说对象”事件的句子而记录到事件表Tb3中。
“疑问表现”和“疑问对象”是询问特定单词的含义的情况下的发言的模式。事件检测部14按照特定的规则来检测例如“○○是什么”等、询问对于特定单词的含义的句子,并将该句子作为检测出“疑问表现”事件的句子而记录到事件表Tb3中。另外,事件检测部14将产生“疑问表现”事件紧前的其他会议参加者所发言的句子作为检测出“疑问对象”事件的句子而记录到事件表Tb3中。
“说明表现”和“说明对象”是说明特定单词的含义的情况下的发言的模式。事件检测部14按照特定的规则来检测说明特定单词的含义的句子,并将该句子作为检测出“说明表现”事件的句子而记录到事件表Tb3中。另外,事件检测部14将与发言了被检测出“说明表现”事件的句子的会议参加者相同的会议参加者在该句子之前发言的、包含成为“说明表现”事件的对象的单词的句子,作为检测出“说明对象”事件的句子而记录到事件表Tb3中。
“误动作表现”和“误动作对象”是表明交流支援装置10未正确地工作的情况下的发言的模式。事件检测部14按照特定的规则来检测例如“没有顺利出现”等、表明交流支援装置10未正确地工作的句子,并将该句子作为检测出“误动作表现”事件的句子而记录到事件表Tb3中。另外,事件检测部14将被检测出“误动作表现”事件的句子紧前的句子,作为检测出“误动作对象”事件的句子而记录到事件表Tb3中。
“重听”和“重听对象”是某个会议参加者对其他会议参加者请求重复同样的发言的情况下的发言的模式。事件检测部14按照特定的规则来检测例如“请再说一次”等、对其他会议参加者请求同样的发言的句子,并将该句子作为检测出“重听”事件的句子而记录到事件表Tb3中。另外,事件检测部14将产生“重听”事件紧前的其他会议参加者所发言的句子,作为检测出“重听对象”事件的句子而记录到事件表Tb3中。
作为上述的检测句子的规则,例如能够使用对于进行语态素分析而得到的结果、进行按照语态素、特定单词的列的匹配的方式等。在单词的匹配中,对表示单词间的不同的距离进行定义,一定范围内的距离的单词可以判定为相同。另外,上述的检测句子的规则,可以通过概率的语言模型来表示。另外,也可以对于各事件种类存在多个规则。
图7是表示事件表Tb3的一例的图。在事件表Tb3中,被检测出事件的句子的句子ID、通过该句子检测出的全部事件的事件种类ID、以及传递失败指标总计被建立对应地保存。传递失败指标总计是将通过该句子检测出的全部事件的传递失败指标的值相加而得到的总计值(第一总计值),成为表示信息传递失败的确切度的指标。
单词提取部15使用事件表Tb3以及句子表Tb1,从检测出事件的句子中提取单词,而制作单词表Tb4。
图8是表示单词表Tb4的一例的图。在单词表Tb4中,从检测出事件的句子中提取的单词与单词ID、句子ID以及传递失败指标总计建立对应地保存。单词ID是对所提取的各单词赋予的固有的识别信息。句子ID是被提取了该单词的句子的句子ID,在从多个句子中提取了相同单词的情况下,列举出全部句子的句子ID。传递失败指标总计是对被提取了该单词的句子赋予的传递失败指标总计,在从多个句子提取了相同单词的情况下,将对全部句子赋予的传递失败指标总计相加而得到的总计值(第二总计值),成为与该单词相对应的传递失败指标总计。
在单词提取部15制作单词表Tb4时,首先,对检测出事件的各句子进行语态素分析,而提取单词。然后,将从句子中提取的各单词记录到单词表Tb4中。此时,如果单词表Tb4中不存在所提取的单词,则在单词表Tb4中追加新单词,并将提取了该单词的句子的句子ID建立对应地进行记录,并且将该句子所具有的传递失败指标总计作为单词的传递失败指标总计而直接进行转移记录。另一方面,在单词表Tb4中已经存在所提取的单词的情况下,将提取了该单词的句子的句子ID追加记录于与该单词相对应的句子ID,并将该句子的传递失败指标总计与单词的传递失败指标总计相加。单词提取部15对所提取的单词的全部进行以上的处理,而制作单词表Tb4。在图8所示的例子中,为了使图示简化而仅记载有一部分的单词,但在单词表Tb4中能够列举从检测出事件的全部句子中提取的全部单词。此外,也可以代替将全部单词都记录到单词表Tb4中,而仅追加记录使用既存的未知词语提取方式而提取的未知词语。
单词选择部16基于单词表Tb4所记录的单词的传递失败指标总计,选择单词表Tb4所记录的单词中、成为信息传递的失败原因的单词。例如,单词选择部16将单词表Tb4所记录的单词中、单词的传递失败指标总计成为规定的阈值以上的单词,选择为成为信息传递的失败原因的单词。另外,单词选择部16也可以将单词表Tb4所记录的单词按照传递失败指标总计的值从大到小的顺序进行排序,并将高位的规定数量的单词选择为成为信息传递的失败原因的单词。上述的阈值、规定数量只要预先确定适当的值即可。
由单词选择部16选择的单词被传递给UI控制部13。UI控制部13为,当从单词选择部16接受到单词时,制作用于将该单词修正为正确的单词的单词修正用UI画面DS2,并使搭载了Web浏览器的终端装置20、30的显示部22显示所制作的单词修正用UI画面DS2。
图9是表示终端装置20、30的显示部22所显示的单词修正用UI画面DS2的一例的图。在单词修正用UI画面DS2中,由单词选择部16选择的单词按照传递失败指标总计的值从大到小的顺序显示为修正对象词语201。在修正对象词语201的右侧,设置有用于输入相对于该修正对象词语201为正确的单词的输入正确词语的文本框202,并且显示出现了该修正对象词语201的文例(句子)203、从该句子检测出的事件204。使用终端装置20的会议参加者、使用终端装置30的系统管理者,通过对显示部22所显示的单词修正用UI画面DS2的文本框202输入相对于修正对象词语201的正确的单词,由此能够进行修正对象词语201的修正。
在本实施方式中,假定为系统管理者使用单词修正用UI画面DS2来进行辞典D的更新。在该情况下,UI控制部13为,在会议结束后根据来自系统管理者的请求,使系统管理者所使用的终端装置30的显示部22显示单词修正用UI画面DS2。并且,当从该单词修正用UI画面DS2的文本框202输入单词时,UI控制部13受理该输入,而进行将所输入的单词追加到辞典D中的处理。此外,将单词追加到辞典D中的处理,也可以通过与UI控制部13不同的功能来进行。
另外,UI控制部13也可以进行如下处理:在会议中使会议参加者所使用的终端装置20的显示部22显示单词修正用UI画面DS2,并将从该单词修正用UI画面DS2的文本框202输入的单词追加在辞典D中。在该情况下,在会议中随时进行事件检测部14、单词提取部15以及单词选择部16的处理。并且,当某个单词的传递失败指标总计的值成为阈值以上时,UI控制部13例如作为句子显示用UI画面DS1上的弹出画面,使会议参加者所使用的终端装置20的显示部22显示单词修正用UI画面DS2。并且,当从该单词修正用UI画面DS2的文本框202输入单词时,UI控制部13受理该输入,而进行将所输入的单词追加到辞典D中的处理。
另外,UI控制部13为,在将从单词修正用UI画面DS2的文本框202输入的单词追加到辞典D中的基础上、或者代替追加到辞典D中,也可以通过将句子表Tb1所记录的句子中的修正前的单词置换为正确的单词,来进行句子的修正。此外,对包含修正前的单词的句子进行修正的处理,也可以通过与UI控制部13不同的功能来进行。
另外,在保存有与句子表Tb1所记录的句子相对应的发言的声音的情况下,也可以在从单词修正用UI画面DS2的文本框202输入的单词被追加到辞典D中之后,对与句子表Tb1所记录的句子相对应的发言的声音再次进行声音识别、机器翻译,并将其结果在句子显示用UI画面DS1上显示、或者追加记录到句子表Tb1中。
另外,在向辞典D追加单词时,也可以使所追加的单词具有较高的权重,并在声音识别时优先使用。并且,在向辞典D追加单词时,也可以将含有该单词的句子用于基于机器学习的未知词语提取方式的学习用途。
(动作)
接着,参照图10对本实施方式的交流支援装置10的动作进行说明。图10是表示本实施方式的交流支援装置10的动作的一例的流程图。图10所示的例子,表示在会议中使会议参加者所使用的终端装置20的显示部22显示句子显示用UI画面DS1、在会议结束后使系统管理者所使用的终端装置30的显示部22显示单词修正用UI画面DS2而进行辞典D的更新的情况下的交流支援装置10的动作。
在会议中,当通过会议参加者的终端装置20的麦克风23取得发言的声音时(步骤S101),交流支援装置10的转换部11通过声音识别、机器翻译将该发言转换成文本(步骤S102),并作为发言单位的句子传递给句子管理部12。
句子管理部12将从转换部11接受的句子追加记录到句子表Tb1中(步骤S103),并将该句子传递给UI控制部13。
UI控制部13为,当从句子管理部12接受到句子时,更新句子显示用UI画面DS1(步骤S104),并使更新后的句子显示用UI画面DS1显示于会议参加者所使用的终端装置20的显示部22。
接着,事件检测部14对句子表Tb1所记录的句子进行解析(步骤S105),并判定是否检测出事件(步骤S106)。然后,在检测出事件的情况下(步骤S106:是),事件检测部14将所检测出的事件的信息记录到事件表Tb3中(步骤S107)。在未检测出事件的情况下(步骤S106:否),跳过步骤S107的处理。
之后,交流支援装置10判定会议是否结束(步骤S108),如果会议未结束(步骤S108:否),则返回到步骤S101而重复进行之后的处理。此外,会议是否结束,例如根据会议参加者是否从句子显示用UI画面DS1明示地进行了会议结束的输入来判定。
当会议结束时(步骤S108:是),单词提取部15从事件表Tb3所记录的、被检测出事件的句子中提取单词,并制作单词表Tb4(步骤S109)。然后,单词选择部16将单词表Tb4所记录的单词中、传递失败指标总计的值为规定的阈值以上的单词,选择为成为信息传递的失败原因的单词(步骤S110),并将所选择的单词传递给UI控制部13。
UI控制部13为,当从单词选择部16接受到单词时,制作单词修正用UI画面DS2,并使其显示于系统管理者所使用的终端装置30的显示部22(步骤S111)。然后,UI控制部13使用该单词修正用UI画面DS2来受理系统管理者进行的修正输入(步骤S112),并将修正词语的单词登记到辞典D(步骤S113)。
(变形例)
另外,在以上说明的例子中,基于在会议中制作的事件表Tb3,在会议结束后制作单词表Tb4。但是,也可以为,事件的检测以及信息向事件表Tb3的记录不仅在会议中、在会议结束后也进行,并基于所得到的事件表Tb3来制作单词表Tb4。
以下,假定为了在会议结束后进行会议的回看而使终端装置20的显示部22显示句子显示用UI画面的情况,对将从该句子显示用UI画面的输入操作检测为事件之一而进行信息向事件表Tb3的记录的变形例进行说明。此外,在本变形例中,会议参加者在会议中的发言的声音,与将其发言文本化而得到的句子建立关联地保存。另外,在本变形例中,仅进行使用了声音识别的发言的文本化,不进行机器翻译、会议中的句子显示。
在本变形例中,UI控制部13为,在会议结束后根据来自会议参加者等的请求,将用于进行会议的回看的句子显示用UI画面DS1’显示于终端装置20的显示部22。图11是表示在会议结束后终端装置20的显示部22所显示的句子显示用UI画面DS1’的一例的图。在该句子显示用UI画面DS1’中,在其上部的显示区域101中显示会议的信息,在中央的显示区域102中,句子表Tb1所记录的句子按照发言的时间序列顺序排列而显示。另外,在该句子显示用UI画面DS1’中,设置有用于对显示中的句子进行修正的“修正”按钮105、用于再现与显示中的句子相对应的声音的“再现”按钮106、以及将对于显示中的句子的修正向维护服务(系统管理者等)委托的“修正委托”按钮107。
在本变形例中,事件检测部14将对于设置在该句子显示用UI画面DS1’中的“修正”按钮105、“再现”按钮106以及“修正请求”按钮107的操作分别检测为事件,而追加记录到事件表Tb3中。此时,在事件检测部14所参照的事件种类表Tb2中,如图12所示那样,“修正”、“再现”、“修正委托”分别被登记为事件,并与事件种类ID以及传递失败指标的值建立对应。
之后,当基于句子显示用UI画面DS1’的句子的阅览结束时,通过与上述例子同样的方法,单词提取部15制作单词表Tb4,单词选择部16选择成为信息传递的失败原因的单词。
(变形例的动作)
接着,参照图13对变形例的交流支援装置10的动作进行说明。图13是表示变形例的交流支援装置10的动作的一例的流程图。
在会议中,当通过会议参加者的终端装置20的麦克风23取得发言的声音时(步骤S201),交流支援装置10的转换部11通过声音识别将该发言转换为文本(步骤S202),并作为发言单位的句子传递给句子管理部12。
句子管理部12将从转换部11接受的句子追加记录到句子表Tb1中(步骤S203)。
接着,事件检测部14对句子表Tb1中所记录的句子进行解析(步骤S204),并判定是否检测出事件(步骤S205)。然后,在检测出事件的情况下(步骤S205:是),事件检测部14将检测出的事件的信息记录到事件表Tb3中(步骤S206)。在未检测出事件的情况下(步骤S205:否),跳过步骤S206的处理。
之后,交流支援装置10判定会议是否结束(步骤S207),如果会议未结束(步骤S207:否),则返回到步骤S201而重复进行之后的处理。此外,会议是否结束,例如根据基于麦克风23的声音的取得是否中断一定时间以上来判定。
在会议结束之后(步骤S207:是),例如,当存在来自进行会议的回看的会议参加者的指定了会议名的句子阅览请求时,UI控制部13基于与所指定的会议名相对应的句子表Tb1来制作句子显示用UI画面DS1’,并使进行了句子阅览请求的会议参加者所使用的终端装置20的显示部22显示句子显示用UI画面DS1’(步骤S208)。
在使终端装置20的显示部22显示句子显示用UI画面DS1’的期间,UI控制部13判定设置于句子显示用UI画面DS1’的“修正”按钮105、“再现”按钮106、“修正委托”按钮107的任一个是否被操作(步骤S209)。然后,当“修正”按钮105、“再现”按钮106、“修正委托”按钮107的任一个被操作时(步骤S209:是),事件检测部14将该操作检测为事件,并将所检测的事件的信息追加记录到事件表Tb3中(步骤S210)。在任一个按钮均未被操作的情况下(步骤S209:否),跳过步骤S210的处理。
之后,交流支援装置10判定用于会议的回看的句子的阅览是否结束(步骤S211),如果句子的阅览未结束(步骤S211:否),则返回到步骤S209而重复进行之后的处理。此外,句子的阅览是否结束,例如根据正在进行会议的回看的会议参加者是否从句子显示用UI画面DS1’明示地进行了阅览结束的输入来判定。
当句子的阅览结束时(步骤S211:是),单词提取部15从事件表Tb3所记录的、被检测出事件的句子中提取单词,并制作单词表Tb4(步骤S212)。然后,单词选择部16将单词表Tb4所记录的单词中、传递失败指标总计的值为规定的阈值以上的单词,选择为成为信息传递的失败原因的单词(步骤S213),并将所选择的单词传递给UI控制部13。
UI控制部13为,当从单词选择部16接受到单词时,制作单词修正用UI画面DS2,并例如使其显示于系统管理者所使用的终端装置30的显示部22(步骤S214)。然后,UI控制部13使用该单词修正用UI画面DS2来受理系统管理者进行的修正输入(步骤S215),并将修正词语的单词登记到辞典D中(步骤S216)。
(实施方式的效果)
以上,如在举出具体例子的同时详细说明了那样,本实施方式的交流支援装置10对将会议参加者的发言文本化而得到的句子进行解析,而检测表示基于会话的信息传递失败的事件。然后,从检测出事件的句子中提取单词,并基于具有按照每个事件种类而确定的值的传递失败指标,从所提取的单词中选择成为信息传递的失败原因的单词。因此,根据本实施方式的交流支援装置10,能够从将用户间的会话进行转换而得到的文本中,适当地选出成为基于会话的信息传递的失败原因的单词。
另外,根据本实施方式的交流支援装置10,受理对于所选择的单词的修正,并将被修正的单词登记到声音识别、机器翻译所使用的辞典D中,由此能够以低成本来实现辞典D的更新。另外,通过更新辞典D,能够减少误识别、误译,能够适当地进行交流的支援。
另外,根据本实施方式的交流支援装置10,受理对于所选择的单词的修正,并通过被修正的单词来修正句子,由此能够使应在用户间传递的信息明确化,能够适当地进行交流的支援。
(补充)
以上说明的本实施方式的交流支援装置10的各功能性构成要素,例如能够通过将通用的计算机系统用作为基本硬件而执行的程序(软件)来实现。
图14是概略地表示交流支援装置10的硬件构成的一例的框图。如图14所示那样,交流支援装置10构成为包含CPU等处理器51、RAM等主存储部52、使用了各种存储装置的辅助存储部53、通信接口54、以及将该各部分连接的总线55的通用的计算机系统。此外,辅助存储部53也可以通过基于有线或者无线的LAN(Local Area Network:局域网)等与各部分连接。
交流支援装置10的各功能性构成要素,例如通过处理器51利用主存储部52而执行辅助存储部53等所保存的程序来实现。该程序例如以能够安装的形式或者能够执行的形式的文件记录在CD-ROM(Compact Disk Read Only Memory:光盘只读存储器)、软盘(FD)、CD-R(Compact Disk Recordable:可刻录光盘)、DVD(Digital Versatile Disc:数字通用光盘)等能够由计算机读取的记录介质中,而作为计算机程序产品被提供。
另外,也可以构成为,将该程序保存在与因特网等网络连接的其他计算机上,通过经由网络下载而进行提供。另外,也可以构成为,将该程序经由因特网等网络进行提供或者发布。另外,也可以构成为,将该程序预先装入到计算机内部的ROM(辅助存储部53)等中而进行提供。
该程序为包含交流支援装置10的功能性构成要素(转换部11、句子管理部12、UI控制部13、事件检测部14、单词提取部15以及单词选择部16)的模块构成,作为实际的硬件,例如处理器51从上述记录介质读出程序而执行,由此上述各构成要素被加载到主存储部52上,上述各构成要素在主存储部52上生成。此外,交流支援装置10的功能性构成要素的一部分或者全部,也能够使用ASIC(Application Specific Integrated Circuit:专用集成电路)或FPGA(Field-Programmable Gate Array:现场可编程门阵列)等专用的硬件来实现。
以上,对本发明的实施方式进行了说明,该实施方式是作为例子而提示的,并不意图对发明的范围进行限定。该新的实施方式能够以其他各种方式加以实施,在不脱离发明的主旨的范围内能够进行各种省略、置换、变更。这些实施方式及其变形包含于发明的范围及主旨中,并且包含于专利请求范围所记载的发明和与其等同的范围中。

Claims (10)

1.一种交流支援装置,使用辞典将多个用户间的会话转换成文本而显示于终端装置,其具备:
检测部,对与上述多个用户各自的一次发言相对应的上述文本中的一个句子进行解析,而检测作为预先确定的发言的模式的事件,该发言的模式表示基于上述会话的信息传递的失败、且存在于上述一个句子中;
提取部,从检测出上述事件的句子中提取单词;以及
选择部,根据传递失败指标总计来选择由上述提取部提取的单词中、成为信息传递的失败原因的单词,上述传递失败指标总计根据从包含上述单词的句子中检测出的上述事件来计算。
2.根据权利要求1所述的交流支援装置,其中,
对检测出上述事件的句子赋予第一总计值,该第一总计值是将从该句子中检测出的全部事件的传递失败指标的值进行合计而得到的,
对由上述提取部提取的单词赋予第二总计值,该第二总计值是将对出现该单词的全部句子赋予的第一总计值进行合计而得到的,
上述选择部将由上述提取部提取的单词中、上述第二总计值为规定的阈值以上的单词选择为成为信息传递的失败原因的单词。
3.根据权利要求1所述的交流支援装置,其中,
还具备UI控制部,该UI控制部使上述终端装置显示UI画面,该UI画面提示由上述选择部选择的单词而受理正确的单词的输入。
4.根据权利要求3所述的交流支援装置,其中,
从上述UI画面输入的单词被追加到上述辞典中。
5.根据权利要求3所述的交流支援装置,其中,
通过从上述UI画面输入的单词,来修正包含由上述选择部选择的单词的句子。
6.根据权利要求1所述的交流支援装置,其中,
上述检测部将重复同样的发言的重说检测为上述事件之一。
7.根据权利要求1所述的交流支援装置,其中,
上述检测部将请求重复同样的发言的重听检测为上述事件之一。
8.根据权利要求1所述的交流支援装置,其中,
上述检测部将询问发言的含义的疑问表现检测为上述事件之一。
9.根据权利要求1所述的交流支援装置,其中,
上述检测部将说明发言的含义的说明表现检测为上述事件之一。
10.一种交流支援方法,在使用辞典将多个用户间的会话转换成文本而显示于终端装置的交流支援装置中执行,其包括:
对与上述多个用户各自的一次发言相对应的上述文本中的一个句子进行解析,而检测作为预先确定的发言的模式的事件的步骤,该发言的模式是表示基于上述会话的信息传递的失败、且存在于上述一个句子中;
从检测出上述事件的句子中提取单词的步骤;以及
根据传递失败指标总计来选择所提取的单词中、成为信息传递的失败原因的单词的步骤,上述传递失败指标总计根据从包含上述单词的句子中检测出的上述事件来计算。
CN201410385427.8A 2013-12-20 2014-08-07 交流支援装置以及交流支援方法 Active CN104731767B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2013264127A JP6327848B2 (ja) 2013-12-20 2013-12-20 コミュニケーション支援装置、コミュニケーション支援方法およびプログラム
JP2013-264127 2013-12-20

Publications (2)

Publication Number Publication Date
CN104731767A CN104731767A (zh) 2015-06-24
CN104731767B true CN104731767B (zh) 2018-04-17

Family

ID=51355453

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410385427.8A Active CN104731767B (zh) 2013-12-20 2014-08-07 交流支援装置以及交流支援方法

Country Status (4)

Country Link
US (1) US20150179173A1 (zh)
EP (1) EP2887229A3 (zh)
JP (1) JP6327848B2 (zh)
CN (1) CN104731767B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016091266A (ja) * 2014-11-04 2016-05-23 富士通株式会社 翻訳装置、翻訳方法、及び翻訳プログラム
US10409919B2 (en) * 2015-09-28 2019-09-10 Konica Minolta Laboratory U.S.A., Inc. Language translation for display device
CN105427857B (zh) * 2015-10-30 2019-11-08 华勤通讯技术有限公司 生成文字记录的方法及系统
US10614418B2 (en) 2016-02-02 2020-04-07 Ricoh Company, Ltd. Conference support system, conference support method, and recording medium
JP7098875B2 (ja) * 2016-02-02 2022-07-12 株式会社リコー 会議支援システム、会議支援装置、会議支援方法及びプログラム
JP6555553B2 (ja) * 2016-03-25 2019-08-07 パナソニックIpマネジメント株式会社 翻訳装置
JP6526608B2 (ja) * 2016-09-06 2019-06-05 株式会社東芝 辞書更新装置およびプログラム
KR101818980B1 (ko) * 2016-12-12 2018-01-16 주식회사 소리자바 다중 화자 음성 인식 수정 시스템
JP2018174439A (ja) * 2017-03-31 2018-11-08 本田技研工業株式会社 会議支援システム、会議支援方法、会議支援装置のプログラム、および端末のプログラム
JP6790003B2 (ja) * 2018-02-05 2020-11-25 株式会社東芝 編集支援装置、編集支援方法及びプログラム
JP2019153099A (ja) * 2018-03-05 2019-09-12 コニカミノルタ株式会社 会議支援システム及び会議支援プログラム
JP7087095B2 (ja) * 2018-09-13 2022-06-20 株式会社Nttドコモ 対話情報生成装置
CN111046680B (zh) 2018-10-15 2022-05-24 华为技术有限公司 一种翻译方法及电子设备
US10936827B1 (en) * 2018-10-24 2021-03-02 Amazon Technologies, Inc. Machine evaluation of translation accuracy
CN111753558B (zh) * 2020-06-23 2022-03-04 北京字节跳动网络技术有限公司 视频翻译方法和装置、存储介质和电子设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101154221A (zh) * 2006-09-28 2008-04-02 株式会社东芝 执行输入语音翻译处理的装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001236091A (ja) * 2000-02-23 2001-08-31 Nippon Telegr & Teleph Corp <Ntt> 音声認識結果の誤り訂正方法およびその装置
JP4050755B2 (ja) * 2005-03-30 2008-02-20 株式会社東芝 コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム
US8073699B2 (en) * 2005-08-16 2011-12-06 Nuance Communications, Inc. Numeric weighting of error recovery prompts for transfer to a human agent from an automated speech response system
US8700383B2 (en) * 2005-08-25 2014-04-15 Multiling Corporation Translation quality quantifying apparatus and method
US20070239455A1 (en) * 2006-04-07 2007-10-11 Motorola, Inc. Method and system for managing pronunciation dictionaries in a speech application
US8234289B2 (en) * 2007-12-17 2012-07-31 International Business Machines Corporation Restoration of conversation stub for recognized experts
JP5274163B2 (ja) * 2008-09-05 2013-08-28 インターナショナル・ビジネス・マシーンズ・コーポレーション コミュニケーション・エラーを検出するシステムおよび方法
JP5336805B2 (ja) * 2008-09-26 2013-11-06 株式会社東芝 音声翻訳装置、方法、およびプログラム
JP5195369B2 (ja) * 2008-12-05 2013-05-08 富士通株式会社 対話選別プログラム、対話選別装置、および対話選別方法
JP5398295B2 (ja) * 2009-02-16 2014-01-29 株式会社東芝 音声処理装置、音声処理方法及び音声処理プログラム
US8515749B2 (en) * 2009-05-20 2013-08-20 Raytheon Bbn Technologies Corp. Speech-to-speech translation
ES2408906B1 (es) * 2011-05-26 2014-02-28 Telefónica, S.A. Sistema y método para analizar el contenido de una conversación de voz

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101154221A (zh) * 2006-09-28 2008-04-02 株式会社东芝 执行输入语音翻译处理的装置

Also Published As

Publication number Publication date
EP2887229A3 (en) 2015-09-30
JP6327848B2 (ja) 2018-05-23
JP2015121864A (ja) 2015-07-02
US20150179173A1 (en) 2015-06-25
CN104731767A (zh) 2015-06-24
EP2887229A2 (en) 2015-06-24

Similar Documents

Publication Publication Date Title
CN104731767B (zh) 交流支援装置以及交流支援方法
KR102163549B1 (ko) 선행사의 결정방법 및 장치
US11024286B2 (en) Spoken dialog system, spoken dialog device, user terminal, and spoken dialog method, retrieving past dialog for new participant
CN109429522A (zh) 语音交互方法、装置及系统
JP6233798B2 (ja) データを変換する装置及び方法
CN110472008B (zh) 智能交互方法以及装置
CN109256133A (zh) 一种语音交互方法、装置、设备及存储介质
CN106713111B (zh) 一种添加好友的处理方法、终端及服务器
CN104714942B (zh) 用于针对自然语言处理任务的内容可用性的方法和系统
CN110516749A (zh) 模型训练方法、视频处理方法、装置、介质和计算设备
CN112232276B (zh) 一种基于语音识别和图像识别的情绪检测方法和装置
CN114328852A (zh) 一种文本处理的方法、相关装置及设备
CN114328817A (zh) 一种文本处理方法和装置
CN104484370B (zh) 基于问答的答案信息发送方法、接收方法、装置及系统
CN110825863A (zh) 一种文本对融合方法及装置
CN114064943A (zh) 会议管理方法、装置、存储介质及电子设备
CN114065720A (zh) 会议纪要生成方法、装置、存储介质及电子设备
US10269349B2 (en) Voice interactive device and voice interaction method
WO2021135322A1 (zh) 一种自动出题方法、装置及系统
CN113763925B (zh) 语音识别方法、装置、计算机设备及存储介质
CN116561271A (zh) 问答处理方法及装置
KR101411039B1 (ko) 음성인식을 이용한 발음 평가 방법 및 이를 적용한 전자기기
JP2008269072A (ja) 辞書作成システムおよび辞書作成方法
CN110263346B (zh) 基于小样本学习的语意分析方法、电子设备及存储介质
JP6867939B2 (ja) 計算機、言語解析方法、及びプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant