CN105741836B - 声音识别装置以及声音识别方法 - Google Patents

声音识别装置以及声音识别方法 Download PDF

Info

Publication number
CN105741836B
CN105741836B CN201510955225.7A CN201510955225A CN105741836B CN 105741836 B CN105741836 B CN 105741836B CN 201510955225 A CN201510955225 A CN 201510955225A CN 105741836 B CN105741836 B CN 105741836B
Authority
CN
China
Prior art keywords
unit
information
recognition result
speech recognition
likelihood
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510955225.7A
Other languages
English (en)
Other versions
CN105741836A (zh
Inventor
西川刚树
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Corp of America
Original Assignee
Panasonic Intellectual Property Corp of America
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Corp of America filed Critical Panasonic Intellectual Property Corp of America
Publication of CN105741836A publication Critical patent/CN105741836A/zh
Application granted granted Critical
Publication of CN105741836B publication Critical patent/CN105741836B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本公开的声音识别装置以及声音识别方法,在噪音环境下能提高声音识别的正确性,在静音环境下能实现声音识别的高速化。终端具备:声音取得部,取得第1声音信息;第1收音处理部,使用第1除去方式除去第1声音信息包含的噪声并作为第2声音信息而输出;第1声音识别部,对第2声音信息进行声音识别,将识别结果作为第1声音识别结果信息而输出;通信部,从服务器接收使用第2除去方式除去第1声音信息包含的噪声并进行声音识别而得的声音识别结果作为第2声音识别结果信息,该第2除去方式是从第1声音信息除去比通过第1除去方式除去的噪声量多的量的噪声的方式;以及调解部,选择将第1声音识别结果信息和第2声音识别结果信息中的哪一方输出。

Description

声音识别装置以及声音识别方法
技术领域
本公开涉及除去声音信息所包含的噪声,并对除去了噪声的声音信息进行声音识别的声音识别装置以及声音识别方法。
背景技术
以往,研究了通过声音来控制终端的功能或通过声音来检索关键词的功能。为了实现这些功能,以往在用于操作终端的遥控器上搭载麦克风并通过麦克风来收音。近年来,以进一步提高便利性为目的,研究了在终端内置麦克风、即使用户从离开终端的地方发声也能够使终端工作的技术。然而,由于用户从离开终端的地方发声,所以用户发出的声音与不需要的声音(噪音)之间的音量差消失,难以在终端正确地识别发声内容。以往,终端的声音识别处理功能被用于对与终端操作相关的发声快速地进行响应,服务器的声音识别处理功能被用于对与需要庞大词汇数的词典的信息检索相关的发声进行响应。
例如,在专利文献1中,服务器具备词典规模优选的声音识别单元,客户端具备速度优选的声音识别单元。
现有技术文献
专利文献
专利文献1:日本特开2013-64777号公报
发明内容
发明要解决的问题
然而,在专利文献1中存在如下的问题:在用户从离开麦克风的位置进行了发声的情况下,在声音中包含噪声,无法正确地执行声音识别。进而,在专利文献1中,没有使噪声除去处理分布到终端和服务器,没有对执行噪声除去处理和声音识别处理这两方的结构或条件进行研究。
本公开是为了解决上述的问题而完成的,其目的在于提供一种在高噪音环境下能够提高声音识别的正确性并且在低噪音环境下能够实现声音识别的高速化的声音识别装置以及声音识别方法。
用于解决问题的手段
本公开的一个方案的声音识别装置具备:声音取得部,其取得第1声音信息;噪声除去处理部,其使用第1除去方式除去由所述声音取得部取得的所述第1声音信息所包含的噪声,将除去了所述噪声的声音信息作为第2声音信息而输出;声音识别部,其对由所述噪声除去处理部输出的所述第2声音信息进行声音识别,将声音识别结果作为第1声音识别结果信息而输出;通信部,其将由所述声音取得部取得的所述第1声音信息发送给服务器,从所述服务器接收声音识别结果作为第2声音识别结果信息,上述声音识别结果是在所述服务器中使用第2除去方式除去所述第1声音信息所包含的噪声、并对除去了所述噪声而得到的第3声音信息进行声音识别的结果,所述第2除去方式是从所述第1声音信息中除去比通过所述第1除去方式从所述第1声音信息中除去的噪声的量多的量的噪声的方式;以及调解部,其选择将由所述声音识别部输出的所述第1声音识别结果信息和由所述通信部接收到的所述第2声音识别结果信息中的哪一方输出。
发明的效果
根据本公开,在高噪音环境下,通过在与声音识别装置相比能够从第1声音信息中除去更多的量的噪声的服务器中从第1声音信息中除去噪声,能够提高声音识别的正确性,在静音环境下,通过在声音识别装置中从第1声音信息中除去噪声,能够实现声音识别的高速化。
附图说明
图1是表示本公开的实施方式1的声音识别系统的整体构成的图。
图2是表示本公开的实施方式1的声音识别系统的功能构成的图。
图3是表示本公开的实施方式1的声音识别系统的动作的一例的流程图。
图4是表示显示无法识别声音信息的显示画面的一例的图。
图5是表示显示服务器发送信息的显示画面的一例的图。
图6是表示显示发送确认信息的显示画面的一例的图。
图7是表示本公开的实施方式1的变形例的声音识别系统的功能构成的图。
图8是表示本公开的实施方式2的声音识别系统的功能构成的图。
图9是表示本公开的实施方式2的声音识别系统的动作的一例的第1流程图。
图10是表示本公开的实施方式2的声音识别系统的动作的一例的第2流程图。
图11是表示本公开的实施方式2的声音识别系统的动作的一例的第3流程图。
图12是表示本公开的实施方式2的变形例的声音识别系统的动作的一例的第1流程图。
图13是表示本公开的实施方式2的变形例的声音识别系统的动作的一例的第2流程图。
图14是表示本公开的实施方式3的声音识别系统的功能构成的图。
图15是表示本公开的实施方式4的声音识别系统的功能构成的图。
图16是表示本公开的实施方式5的声音识别系统的功能构成的图。
图17是表示本公开的实施方式5的变形例的声音识别系统的功能构成的图。
附图标记说明
11声音取得部
12第1收音处理部
13第1声音识别部
14调解部
15发声区间检测部
16声音发送判断部
21第2收音处理部
22第2声音识别部
23调解部
100终端
101通信部
102麦克风
103扬声器
104控制部
105存储器
106显示部
200服务器
201通信部
202控制部
203存储器
300网络
具体实施方式
(成为本发明的基础的见解)
在专利文献1中存在如下的问题:在用户从离开麦克风的位置进行了发声的情况下,在声音中包含噪声,无法正确地执行声音识别。进而,在专利文献1中,没有使噪声除去处理分布到终端和服务器,没有对执行噪声除去处理和声音识别处理这两方的结构或条件进行研究。
本公开是为了解决上述的问题而完成的,提供一种在高噪音环境下能够提高声音识别的正确性并且在低噪音环境下能够实现声音识别的高速化的声音识别装置以及声音识别方法
本公开的一个方案的声音识别装置具备:声音取得部,其取得第1声音信息;噪声除去处理部,其使用第1除去方式除去由所述声音取得部取得的所述第1声音信息所包含的噪声,将除去了所述噪声的声音信息作为第2声音信息而输出;声音识别部,其对由所述噪声除去处理部输出的所述第2声音信息进行声音识别,将声音识别结果作为第1声音识别结果信息而输出;通信部,其将由所述声音取得部取得的所述第1声音信息发送给服务器,从所述服务器接收声音识别结果作为第2声音识别结果信息,上述声音识别结果是在所述服务器中使用第2除去方式除去所述第1声音信息所包含的噪声、并对除去了所述噪声而得到的第3声音信息进行声音识别的结果,所述第2除去方式是从所述第1声音信息中除去比通过所述第1除去方式从所述第1声音信息中除去的噪声的量多的量的噪声的方式;以及调解部,其选择将由所述声音识别部输出的所述第1声音识别结果信息和由所述通信部接收到的所述第2声音识别结果信息中的哪一方输出。
根据该构成,取得第1声音信息。使用第1除去方式除去所取得的第1声音信息所包含的噪声,将除去了噪声的声音信息作为第2声音信息而输出。对所输出的第2声音信息进行声音识别,将声音识别结果作为第1声音识别结果信息而输出。另外,将所取得的第1声音信息发送给服务器,从服务器接收声音识别结果作为第2声音识别结果信息,上述声音识别结果是在服务器中使用第2除去方式除去第1声音信息所包含的噪声、并对除去了噪声而得到的第3声音信息进行声音识别的结果,所述第2除去方式是从所述第1声音信息中除去比通过第1除去方式从所述第1声音信息中除去的噪声的量多的量的噪声的方式。选择将所输出的第1声音识别结果信息和所接收到的第2声音识别结果信息中的哪一方输出。
因此,在高噪音环境下,通过在与声音识别装置相比能够从第1声音信息中除去更多的量的噪声的服务器中除去噪声,能够提高声音识别的正确性,在低噪音环境下,通过在声音识别装置中从第1声音信息中除去噪声,能够实现声音识别的高速化。
另外,在上述的声音识别装置中,可以:所述声音识别部算出表示所述第1声音识别结果信息的合理性的第1似然度,将所算出的所述第1似然度输出给所述调解部,所述通信部接收由所述服务器算出的表示所述第2声音识别结果信息的合理性的第2似然度,将所接收到的所述第2似然度输出给所述调解部,所述调解部基于所述第1似然度和所述第2似然度的至少一方来选择将所述第1声音识别结果信息和所述第2声音识别结果信息中的哪一方输出。
根据该构成,算出表示第1声音识别结果信息的合理性的第1似然度,输出所算出的第1似然度。另外,接收由服务器算出的表示第2声音识别结果信息的合理性的第2似然度,输出所接收到的第2似然度。并且,基于第1似然度和第2似然度的至少一方来选择将第1声音识别结果信息和第2声音识别结果信息中的哪一方输出。
因此,因为基于似然度来选择要输出的声音识别结果,所以能够输出更正确的声音识别结果。
另外,在上述的声音识别装置中,所述调解部可以:在所述第1似然度比预定的第1阈值大的情况下输出所述第1声音识别结果信息,在所述第1似然度为所述第1阈值以下且所述第2似然度比预定的第2阈值大的情况下输出所述第2声音识别结果信息,在所述第1似然度为所述第1阈值以下且所述第2似然度为所述第2阈值以下的情况下既不输出所述第1声音识别结果信息也不输出所述第2声音识别结果信息。
根据该构成,在第1似然度比预定的第1阈值大的情况下输出第1声音识别结果信息,在第1似然度为第1阈值以下且第2似然度比预定的第2阈值大的情况下输出第2声音识别结果信息,在第1似然度为第1阈值以下且第2似然度为第2阈值以下的情况下既不输出第1声音识别结果信息也不输出第2声音识别结果信息。
因此,因为通过比较似然度与阈值来选择声音识别结果,所以能够通过更简单的构成来选择要输出的声音识别结果。
另外,在上述的声音识别装置中,可以:还具备发声区间检测部,该发声区间检测部检测由所述声音取得部取得的所述第1声音信息中的用户发声的发声区间,在没有由所述发声区间检测部检测到所述发声区间的情况下,所述噪声除去处理部不除去所述第1声音信息所包含的噪声,并且不输出所述第2声音信息,所述通信部不将所述第1声音信息发送给服务器。
根据该构成,检测所取得的第1声音信息中的用户发声的发声区间。并且,在未检测到发声区间的情况下,不除去第1声音信息所包含的噪声,并且不输出第2声音信息,不将第1声音信息发送给服务器。
因此,如果不是用户发声的发声区间,则不除去第1声音信息所包含的噪声,并且不输出第2声音信息,不将第1声音信息发送给服务器,因此能够防止进行不需要的运算处理,并且能够防止发送不需要的信息。
另外,在上述的声音识别装置中,可以:还具备发声持续时间测定部,该发声持续时间测定部在由所述发声区间检测部检测到所述发声区间的情况下测定在所述发声区间检测部中检测到的发声区间的持续时间即发声持续时间,在由所述发声区间检测部检测到所述发声区间的情况下,所述噪声除去处理部除去所述第1声音信息所包含的噪声,所述通信部将所述发声区间内的所述第1声音信息发送给所述服务器,所述调解部至少使用与所述发声持续时间的长度相关的信息来选择将由所述声音识别部输出的所述第1声音识别结果信息和由所述通信部接收到的所述第2声音识别结果信息中的哪一方输出。
根据该构成,在检测到发声区间的情况下,测定所检测到的发声区间的持续时间即发声持续时间。在检测到发声区间的情况下,除去第1声音信息所包含的噪声,并且将发声区间内的第1声音信息发送给服务器。并且,至少使用与发声持续时间的长度相关的信息来选择将所输出的第1声音识别结果信息和所接收到的第2声音识别结果信息中的哪一方输出。
因此,因为通过至少使用与发声持续时间的长度相关的信息来选择声音识别结果,所以能够通过更简单的构成来选择要输出的声音识别结果。
另外,在上述的声音识别装置中,在所述发声持续时间比预定的长度长的情况下,所述调解部可以使对表示所述第2声音识别结果信息的合理性的第2似然度乘上的加权比对表示所述第1声音识别结果信息的合理性的第1似然度乘上的加权大。
根据该构成,在发声持续时间比预定的长度长的情况下,使对表示第2声音识别结果信息的合理性的第2似然度乘上的加权比对表示第1声音识别结果信息的合理性的第1似然度乘上的加权大。在发声持续时间长的情况下,进行词语数多的高级声音指示的可能性高。因此,在发声持续时间长的情况下,通过采用从服务器输出的声音识别结果,能够防止误识别。
另外,在上述的声音识别装置中,可以:所述通信部从所述服务器接收所述第3声音信息,将所接收到的所述第3声音信息输出给所述声音识别部,所述声音识别部对由所述通信部接收到的所述第3声音信息进行声音识别,将声音识别结果作为第4声音识别结果信息而输出,所述通信部将由所述噪声除去处理部输出的所述第2声音信息发送给服务器,从所述服务器接收对所述第2声音信息进行了声音识别的声音识别结果作为第3声音识别结果信息,将所接收到的所述第3声音识别结果信息输出给所述调解部,所述调解部选择将由所述声音识别部输出的所述第1声音识别结果信息、由所述通信部接收到的所述第2声音识别结果信息、由所述通信部接收到的所述第3声音识别结果信息、和由所述声音识别部输出的所述第4声音识别结果信息中的哪一方输出。
根据该构成,从服务器接收第3声音信息,将所接收到的第3声音信息输出给声音识别部。对所接收到的第3声音信息进行声音识别,将声音识别结果作为第4声音识别结果信息而输出。另外,将所输出的第2声音信息发送给服务器,对第2声音信息进行声音识别,从服务器接收声音识别结果作为第3声音识别结果信息,将所接收到的第3声音识别结果信息输出给调解部。并且,选择将所输出的第1声音识别结果信息、所接收到的第2声音识别结果信息、所接收到的第3声音识别结果信息和所输出的第4声音识别结果信息中的哪一方输出。
因此,因为输出由声音识别装置进行了噪声除去处理以及声音识别处理的第1声音识别结果、由服务器进行了噪声除去处理以及声音识别处理的第2声音识别结果、由声音识别装置进行了噪声除去处理并由服务器进行了声音识别处理的第3声音识别结果、和由服务器进行了噪声除去处理并由声音识别装置进行了声音识别处理的第4声音识别结果中的任一方,所以能够根据环境音的状态和声音识别的性能来获得最佳的声音识别结果。
另外,在上述的声音识别装置中,可以:所述声音识别部算出表示所述第1声音识别结果信息的合理性的第1似然度,将所算出的所述第1似然度输出给所述调解部,所述通信部接收由所述服务器算出的表示所述第2声音识别结果信息的合理性的第2似然度,将所接收到的所述第2似然度输出给所述调解部,所述通信部接收由所述服务器算出的表示所述第3声音识别结果信息的合理性的第3似然度,将所接收到的所述第3似然度输出给所述调解部,所述声音识别部算出表示所述第4声音识别结果信息的合理性的第4似然度,将所算出的所述第4似然度输出给所述调解部,所述调解部基于所述第1似然度、所述第2似然度、所述第3似然度和所述第4似然度中的至少一方来选择将所述第1声音识别结果信息、所述第2声音识别结果信息、所述第3声音识别结果信息和所述第4声音识别结果信息中的哪一方输出。
根据该构成,算出表示第1声音识别结果信息的合理性的第1似然度,输出所算出的第1似然度。另外,接收由服务器算出的表示第2声音识别结果信息的合理性的第2似然度,输出所接收到的第2似然度。进而,接收由服务器算出的表示第3声音识别结果信息的合理性的第3似然度,输出所接收到的第3似然度。进而,另外,算出表示第4声音识别结果信息的合理性的第4似然度,输出所算出的第4似然度。并且,基于第1似然度、第2似然度、第3似然度和第4似然度中的至少一方来选择将第1声音识别结果信息、第2声音识别结果信息、第3声音识别结果信息和第4声音识别结果信息中的哪一方输出。
因此,因为基于似然度来选择要输出的声音识别结果,所以能够输出更正确的声音识别结果。
另外,在上述的声音识别装置中,可以:还具备发声区间检测部,该发声区间检测部检测由所述声音取得部取得的所述第1声音信息中的用户发声的发声区间,在没有由所述发声区间检测部检测到所述发声区间的情况下,所述噪声除去处理部不除去所述第1声音信息所包含的噪声,并且不输出所述第2声音信息,所述通信部不将所述第1声音信息发送给服务器。
根据该构成,检测所取得的声音信息中的用户发声的发声区间。并且,在未检测到发声区间的情况下,不除去第1声音信息所包含的噪声,并且不将第1声音信息发送给服务器。
因此,如果不是用户发声的发声区间,则不除去第1声音信息所包含的噪声,并且不输出第2声音信息,不将第1声音信息发送给服务器,因此能够防止进行不需要的运算处理,并且能够防止发送不需要的信息。
另外,在上述的声音识别装置中,可以:还具备发声持续时间测定部,该发声持续时间测定部在由所述发声区间检测部检测到所述发声区间的情况下测定在所述发声区间检测部中检测到的发声区间的持续时间即发声持续时间,在由所述发声区间检测部检测到所述发声区间的情况下,所述噪声除去处理部除去所述第1声音信息所包含的噪声,所述通信部将所述发声区间内的所述第1声音信息发送给所述服务器,所述调解部至少使用与所述发声持续时间的长度相关的信息来选择将所述第1声音识别结果信息、所述第2声音识别结果信息、所述第3声音识别结果信息和所述第4声音识别结果信息中的哪一方输出。
根据该构成,在检测到发声区间的情况下,测定所检测到的发声区间的持续时间即发声持续时间。在检测到发声区间的情况下,除去第1声音信息所包含的噪声,并且将发声区间内的第1声音信息发送给服务器。并且,至少使用与发声持续时间的长度相关的信息来选择将第1声音识别结果信息、第2声音识别结果信息、第3声音识别结果信息和第4声音识别结果信息中的哪一方输出。
因此,因为通过至少使用与发声持续时间的长度相关的信息来选择声音识别结果,所以能够通过更简单的构成来选择要输出的声音识别结果。
另外,在上述的声音识别装置中,在所述发声持续时间比预定的长度长的情况下,所述调解部可以使对表示所述第2声音识别结果信息的合理性的第2似然度以及表示所述第3声音识别结果信息的合理性的第3似然度乘上的加权比对表示所述第1声音识别结果信息的合理性的第1似然度以及表示所述第4声音识别结果信息的合理性的第4似然度乘上的加权大。
根据该构成,在发声持续时间比预定的长度长的情况下,使对表示第2声音识别结果信息的合理性的第2似然度以及表示第3声音识别结果信息的合理性的第3似然度乘上的加权比对表示第1声音识别结果信息的合理性的第1似然度以及表示第4声音识别结果信息的合理性的第4似然度乘上的加权大。在发声持续时间长的情况下,进行词语数多的高级声音指示的可能性高。因此,在发声持续时间长的情况下,通过采用由服务器算出的声音识别结果,能够防止误识别。
另外,在上述的声音识别装置中,在所述发声持续时间比预定的长度长的情况下,所述调解部可以使对所述第2似然度乘上的加权比对所述第3似然度乘上的加权大。
根据该构成,在发声持续时间比预定的长度长的情况下,使对第2似然度乘上的加权比对第3似然度乘上的加权大。
因此,因为由服务器进行了噪声除去处理以及声音识别处理的第2声音识别结果信息被赋予比由声音识别装置进行了噪声除去处理并由服务器进行了声音识别处理的第3声音识别结果信息高的优先级,所以能够进一步防止误识别。
本公开的另一方案的声音识别装置具备:声音取得部,其取得第1声音信息;噪声除去处理部,其使用第1除去方式除去由所述声音取得部取得的所述第1声音信息所包含的噪声,将除去了所述噪声的声音信息作为第2声音信息而输出;通信部,其将由所述声音取得部取得的所述第1声音信息发送给服务器,从所述服务器接收在所述服务器中使用第2除去方式除去了所述第1声音信息所包含的噪声而得到的第3声音信息,所述第2除去方式是从所述第1声音信息中除去比通过所述第1除去方式从所述第1声音信息中除去的噪声的量多的量的噪声的方式;声音识别部,其对由所述噪声除去处理部输出的所述第2声音信息进行声音识别,将声音识别结果作为第1声音识别结果信息而输出,并且对由所述通信部接收到的所述第3声音信息进行声音识别,将声音识别结果作为第2声音识别结果信息而输出;以及调解部,其选择将由所述声音识别部输出的所述第1声音识别结果信息和所述第2声音识别结果信息中的哪一方输出。
根据该构成,取得第1声音信息。使用第1除去方式除去所取得的第1声音信息所包含的噪声,将除去了噪声的声音信息作为第2声音信息而输出。将所取得的第1声音信息发送给服务器,从服务器接收在服务器中使用第2除去方式除去了第1声音信息所包含的噪声而得到的第3声音信息,所述第2除去方式是从所述第1声音信息中除去比通过第1除去方式从所述第1声音信息中除去的噪声的量多的量的噪声的方式。对所输出的第2声音信息进行声音识别,将声音识别结果作为第1声音识别结果信息而输出,并且对所接收到的第3声音信息进行声音识别,将声音识别结果作为第2声音识别结果信息而输出。选择将所输出的第1声音识别结果信息和第2声音识别结果信息中的哪一方输出。
因此,在高噪音环境下,通过在与声音识别装置相比能够除去更多的量的噪声的服务器中除去噪声,能够提高声音识别的正确性,在静音环境下,通过在声音识别装置中除去噪声,能够实现声音识别的高速化。
本公开的另一方案的声音识别方法是服务器的声音识别方法,所述服务器具备通信部、噪声除去处理部、声音识别部以及调解部,并对由终端取得的声音信息进行声音识别,所述通信部接收由所述终端取得的第1声音信息,所述噪声除去处理部使用第1除去方式除去所接收到的所述第1声音信息所包含的噪声,将除去了所述噪声的声音信息作为第2声音信息而输出,所述声音识别部对所述第2声音信息进行声音识别,将声音识别结果作为第1声音识别结果信息而输出,所述通信部从所述终端接收声音识别结果作为第2声音识别结果信息,上述声音识别结果是在所述终端中使用第2除去方式除去所述第1声音信息所包含的噪声、并对除去了所述噪声而得到的第3声音信息进行声音识别的结果,所述第2除去方式是除去比通过所述第1除去方式从所述第1声音信息中除去的噪声的量少的量的噪声的方式,所述调解部选择将所述第1声音识别结果信息和所述第2声音识别结果信息中的哪一方输出。
根据该构成,取得第1声音信息。使用第1除去方式除去所接收到的第1声音信息所包含的噪声,将除去了噪声的声音信息作为第2声音信息而输出。对所输出的第2声音信息进行声音识别,将声音识别结果作为第1声音识别结果信息而输出。另外,从终端接收声音识别结果作为第2声音识别结果信息,上述声音识别结果是在终端中使用第2除去方式除去第1声音信息所包含的噪声、并对除去了噪声而得到的第3声音信息进行声音识别的结果,所述第2除去方式是除去比通过第1除去方式从所述第1声音信息中除去的噪声的量更少的量的噪声的方式。选择将所输出的第1声音识别结果信息和所接收到的第2声音识别结果信息中的哪一方输出。
因此,在高噪音环境下,通过在与声音识别装置相比能够从第1声音信息中除去更多的量的噪声的服务器中除去噪声,能够提高声音识别的正确性,在静音环境下,通过在声音识别装置中从第1声音信息中除去噪声,能够实现声音识别的高速化。
以下参照附图对本公开的实施方式进行说明。此外,以下的实施方式是将本公开具体化的一例,并非限定本公开的技术范围。
(实施方式1)
图1是表示本公开的实施方式1的声音识别系统的整体构成的图。
图1所示的声音识别系统具备终端100以及服务器200。终端100经由网络(例如,因特网)300与服务器200以能够互相通信的方式连接。
终端100例如是对配置在家庭内的电视机或空调机等进行控制的设备。终端100对按预定的语言发出的声音进行识别。另外,终端100对声音进行识别,基于声音识别的结果来控制配置在家庭内的电视机或空调机。
终端100例如可以是与控制对象的设备(例如,配置在家庭内的电视机或空调机)分开的设备,也可以包含在控制对象的设备中。
终端100具备通信部101、麦克风102、扬声器103、控制部104、存储器105以及显示部106。此外,麦克风102、扬声器103以及显示部106也可以不内置于终端100。
通信部101经由网络300向服务器200发送信息,并且经由网络300从服务器200接收信息。并不管通信部101向网络300的连接方法如何。麦克风102收集周围的声音,取得声音信息。扬声器103输出声音。
控制部104例如具有CPU(中央运算处理装置),通过CPU执行后述的存储器105所存储的控制用程序而作为控制部104发挥功能。控制部104例如对由通信部101接收到的各种数据(信息)进行处理,控制终端100内的各构成的动作。
存储器105例如是ROM(Read Only Memory)、RAM(Random Access Memory)或HDD(Hard Disk Drive)等,存储由通信部101接收到的数据(信息)、由控制部104运算出的数据(信息)、或控制用的程序等。显示部106例如是液晶显示装置,显示各种信息。
另外,终端100可以具有将作为声音识别的结果的会话或文章翻译成其他语言的会话或文章的翻译部(未图示)。翻译部翻译后的结果例如可以显示于显示部106。另外,翻译部翻译后的结果例如也可以显示于终端100的控制对象即配置在家庭内的电视机等设备的显示画面。
服务器200具备通信部201、控制部202以及存储器203。
通信部201经由网络300向终端100发送信息,并且经由网络300从终端100接收信息。
控制部202例如具有CPU,通过CPU执行后述的存储器203所存储的控制用的程序而作为控制部202发挥功能。控制部202例如对由通信部201接收到的各种数据(信息)进行处理,控制服务器200内的各构成的动作。
存储器203例如是ROM、RAM或HDD等,存储由通信部201接收到的数据(信息)、由控制部202处理后的数据(信息)、或控制用的程序等。
图2是表示本公开的实施方式1的声音识别系统的功能构成的图。如图2所示,声音识别系统具备终端100以及服务器200。终端100具备声音取得部11、第1收音处理部12、第1声音识别部13以及调解部14。服务器200具备第2收音处理部21以及第2声音识别部22。
此外,声音取得部11通过麦克风102来实现,第1收音处理部12、第1声音识别部13以及调解部14通过控制部104来实现。另外,第2收音处理部21以及第2声音识别部22通过控制部202来实现。
声音取得部11取得第1声音信息。在此,声音信息既可以是例如声音的信号波形,也可以是对信号波形进行了频率分析的声音的特征量。未图示的通信部101将由声音取得部11取得的第1声音信息发送给服务器200。服务器200的通信部201接收由终端100发送来的第1声音信息。
第1收音处理部12使用第1除去方式除去由声音取得部11取得的第1声音信息所包含的噪声,将除去了噪声的声音信息作为第2声音信息而输出。
第1声音识别部13对由第1收音处理部12输出的第2声音信息进行声音识别,将声音识别结果作为第1声音识别结果信息而输出。第1声音识别部13算出进行了声音识别时的表示第1声音识别结果信息的合理性的第1似然度,将所算出的第1似然度与第1声音识别结果信息一起输出给调解部14。
第1声音识别部13进行对由第1收音处理部12除去了噪声而得到的第2声音信息的声音识别。第1声音识别部13参照预先存储的声音模型以及语言模型和终端用词典,进行对第2声音信息的声音识别。声音识别结果包括对第2声音信息进行了声音识别的结果的字符串即由多个词语构成的字符串数据。第1似然度表示第2声音信息的声音识别结果(即第1声音识别结果信息)的合理性。具体而言,第1似然度例如是字符串数据整体的合理性或构成字符串数据的各词语的合理性。
第1声音识别部13计算从第2声音信息得到的发声内容和终端用词典所包含的多个词汇的各词汇的一致程度(似然度)。第1声音识别部13从终端用词典所包含的词汇中选择与发声的内容一致的程度最高的词汇,将所选择出的词汇包含在声音识别结果中。
在发声内容包含多个词语的情况下,第1声音识别部13选择与各词语一致的程度最高的词汇,将所选择出的词汇包含在声音识别结果中。
第1声音识别部13将与所选择出的词汇对应的似然度设为第1似然度。
另外,在声音识别结果包含多个词汇的情况下,第1声音识别部13可以基于与各词汇对应的似然度,算出对于多个词汇整体的似然度,将所算出的似然度设为第1似然度。
第1声音识别部13选择的词汇与发声内容一致的程度越高,则第1似然度的值就越高。
并且,第1声音识别部13将声音识别结果作为第1声音识别结果信息输出给调解部14。另外,第1声音识别部13将第1似然度输出给调解部14。终端用词典录入有识别对象的词语而列表化,并存储在终端100中。终端用词典例如主要包含用于控制终端100的动作的词语。终端用词典例如可以包含用于供终端100控制配置在家庭内的设备的词语。
第2收音处理部21使用与第1除去方式相比除去更高水平(或更多的量)的噪声的第2除去方式除去由通信部201接收到的第1声音信息所包含的噪声。
反过来说,第1收音处理部12使用与第2除去方式相比除去更低水平(或更少的量)的噪声的第1除去方式除去第1声音信息所包含的噪声。
第2收音处理部21将使用第2除去方式从第1声音信息中除去了噪声的声音信息作为第3声音信息而输出。第2收音处理部21从第1声音信息中除去比第1收音处理部12的噪声除去量多的量的噪声。
第2声音识别部22对由第2收音处理部21输出的第3声音信息进行声音识别,将声音识别结果作为第2声音识别结果信息而输出。第2声音识别部22算出进行了声音识别时的表示第2声音识别结果信息的合理性的第2似然度,将所算出的第2似然度与第2声音识别结果信息一起输出给通信部201。通信部201将由第2声音识别部22输出的第2声音识别结果信息以及第2似然度发送给终端100。终端100的通信部101接收由服务器200发送来的第2声音识别结果信息。通信部101接收由服务器200进行了声音识别时所算出的表示第2声音识别结果信息的合理性的第2似然度,并将所接收到的第2似然度输出给调解部14。
第2声音识别部22进行对由第2收音处理部21除去了噪声而得到的第3声音信息的声音识别。第2声音识别部22参照预先存储的声音模型以及语言模型和服务器用词典,进行对第3声音信息的声音识别。声音识别结果包括对第3声音信息进行了声音识别的结果的字符串即由多个词语构成的字符串数据。第2似然度表示第3声音信息的声音识别结果(即第2声音识别结果信息)的合理性。具体而言,第2似然度例如表示字符串数据整体的合理性或构成字符串数据的各词语的合理性。
第2声音识别部22计算从第3声音信息得到的发声内容和服务器用词典所包含的多个词汇的各词汇的一致程度(似然度)。第2声音识别部22从服务器用词典所包含的词汇中选择与发声的内容一致的程度最高的词汇,将所选择出的词汇包含在声音识别结果中。
在发声内容包含多个词语的情况下,第2声音识别部22选择与各词语一致的程度最高的词汇,将所选择出的词汇包含在声音识别结果中。
第2声音识别部22将与所选择出的词汇对应的似然度设为第2似然度。
另外,在声音识别结果包含多个词汇的情况下,第2声音识别部22可以基于与各词汇对应的似然度,算出对于多个词汇整体的似然度,将所算出的似然度设为第2似然度。
第2声音识别部22选择的词汇与发声内容一致的程度越高,则第2似然度的值就越高。
并且,第2声音识别部22将声音识别结果作为第2声音识别结果信息经由通信部201发送给终端100。第2声音识别部22将第2似然度经由通信部201发送给终端100。
另外,通信部101将所接收到的第2声音识别结果信息以及第2似然度输出给调解部14。
服务器用词典录入有识别对象的词语而列表化,并存储在服务器200中。服务器用词典不仅包含用于控制终端100的动作的词语还包含各种检索关键词等。服务器用词典也可以包含用于供终端100控制设备的信息。服务器用词典的词汇数比终端用词典的词汇数多。服务器用词典的词汇数例如为十万~数十万个,而终端用词典的词汇数例如为数十~数百个。
在此,对第1收音处理部12与第2收音处理部21的差异进行说明。第1收音处理部12通过使用了多个声音信号的功率或相关性的信号处理来除去噪声。另一方面,第2收音处理部21除了进行上述的信号处理之外,还以统计方式对表示声音的信号或表示噪声的信号进行模型化,使用要分离的信号的概率上的合理性来除去噪声。
在模型化中,为了将第2收音处理部21接收到的第1声音信息(声音信号)分离成与发声者的声音对应的声音信号、与噪声对应的信号而需要事先决定参数。
例如,事先进行以下的处理。首先,预先决定模型化所需要的参数。然后,在噪音大的环境下,对通过发声者发声而得到的第1声音信息适用上述的模型,进行除去与噪声对应的信号的处理,进行通过该处理得到的声音信号的评价。
或者,在噪音大的环境下,也可以对通过发声者发声而得到的第1声音信息进行与第1收音处理部12相同的处理,对从第1声音信息中除去了噪声的声音信号适用上述的模型,进行除去与噪声对应的信号的处理,进行通过该处理得到的声音信号的评价。
如果对通过该处理得到的声音信号的评价值比预先设定的评价值低,则对上述的参数进行修正,再次,在噪音大的环境下,进行从通过发声者发声而得到的第1声音信息中除去与噪声对应的信号的处理、声音信号的评价。
如果对通过该处理得到的声音信号的评价值比预先设定的评价值高,则将为了获得上述的声音信号而使用的参数保持为用于第2收音处理部21的处理的参数(事先学习了的参数)。
然后,使用事先学习了的参数,以统计方式对表示声音的信号或表示噪声的信号进行模型化。第2收音处理部21保持事先学习了的参数。
事先学习了的参数成为适合于如下工作的参数:在噪音大的环境下,当发声者进行了发声时,以统计方式对由终端100取得的第1声音信息所包含的表示声音的信号或表示噪声的信号进行模型化,使用要分离的信号的概率上的合理性来除去噪声。
在实际需要声音识别的情况下,第2收音处理部21使用事先学习了的参数,以统计方式对表示声音的信号或表示噪声的信号进行模型化,使用要分离的信号的概率上的合理性从第1声音信息中除去噪声。
此时,第2收音处理部21也可以使用从终端100取得的第1声音信息,根据需要来更新事先学习了的参数。
如此,事先学习了的参数被更新为更适合于发声者发声的环境的参数。
作为常识,与通过使用了声音信号的功率或相关性的信号处理从第1声音信息中除去噪声的方式相比,以统计方式对表示声音的信号或表示噪声的信号进行模型化、并使用要分离的信号的概率上的合理性从第1声音信息中除去噪声的方式,能够除去的噪声的量多。
当然,在通过使用了声音信号的功率或相关性的信号处理从第1声音信息中除去了噪声之后、对表示通过该方式除去了噪声而得到的第1声音信息所包含的声音的信号或表示噪声的信号以统计方式进行模型化、并使用要分离的信号的概率上的合理性来除去噪声,由此与仅通过使用了声音信号的功率或相关性的信号处理从第1声音信息中除去噪声的方式相比,能够从第1声音信息中除去更多的噪声。
也即,第2收音处理部21除去的噪声量比第1收音处理部12除去的噪声量大。因此,第2收音处理部21即使在噪音大的环境下也能够充分除去噪声(噪音),仅提取用户的发声。第2收音处理部21例如保持比第1收音处理部12更多的事先学习了的参数,进行更多的运算处理。因此,第2收音处理部21除去噪声所需的时间,比第1收音处理部12除去噪声所需的时间长,例如长数十ms~数百ms左右。另外,在第2收音处理部21中能够实时地更新噪声除去处理的算法,而在第1收音处理部12中为了更新噪声除去处理的算法而需要程序的更新(update)。
如上所述,第1收音处理部12使用声音信号的功率或相关性来除去噪声,第2收音处理部21对表示声音的信号或表示噪声的信号以统计方式进行模型化、并使用要分离的信号的概率上的合理性来除去噪声。但是,这些收音处理部也可以通过其他的方法来除去噪声。
即,只要第2收音处理部21比第1收音处理部12从第1声音信息中除去更多的量的噪声,则第1收音处理部12以及第2收音处理部21的除去噪声的具体处理可以是任何的处理。
接着,对第1声音识别部13与第2声音识别部22的差异进行说明。如上所述,在第1声音识别部13和第2声音识别部22,声音识别所使用的词典的词汇数不同,服务器用词典的词汇数比终端用词典的词汇数多。因此,第2声音识别部22能够识别的词语数比第1声音识别部13能够识别的词语数多。此外,第1声音识别部13可以不使用词典而简单地使声音文字化。第2声音识别部22进行声音识别所需要的时间比第1声音识别部13进行声音识别所需要的时间长,例如长数十ms~数百ms左右。另外,在第2声音识别部22中能够实时地更新声音识别处理的算法,而在第1声音识别部13中为了更新声音识别处理的算法而需要程序的更新。
调解部14选择将由第1声音识别部13输出的第1声音识别结果信息和由通信部101接收到的第2声音识别结果信息中的哪一方输出。调解部14基于第1似然度和第2似然度的至少一方来进行该选择。即,调解部14在第1似然度比预定的第1阈值大的情况下输出第1声音识别结果信息。另外,调解部14在第1似然度为第1阈值以下且第2似然度比预定的第2阈值大的情况下输出第2声音识别结果信息。进而,调解部14在第1似然度为第1阈值以下且第2似然度为第2阈值以下的情况下既不输出第1声音识别结果信息也不输出第2声音识别结果信息。第1阈值和第2阈值例如存储在终端100的存储器105中。
此外,调解部14对第1声音识别结果信息和第2声音识别结果信息中的先被输入的信息的似然度和阈值进行比较。例如,在第1声音识别结果信息比第2声音识别结果信息先输入到了调解部14的情况下,调解部14对与第1声音识别结果信息对应的第1似然度和第1阈值进行比较,在第1似然度比第1阈值大的情况下输出第1声音识别结果信息。另一方面,在第1似然度为第1阈值以下的情况下,调解部14等待第2声音识别结果信息被输入,然后,在被输入了第2声音识别结果信息的情况下,对与第2声音识别结果信息对应的第2似然度和第2阈值进行比较,在第2似然度比第2阈值大的情况下输出第2声音识别结果信息。此时,在第2似然度为第2阈值以下的情况下,调解部14判断为没有得到满意的声音识别结果,因此第1声音识别结果信息和第2声音识别结果信息都不输出。以上的处理在第2声音识别结果信息比第1声音识别结果信息先被输入的情况下也同样进行。
图3是表示本公开的实施方式1的声音识别系统的动作的一例的流程图。
首先,在步骤S1中,终端100的声音取得部11取得第1声音信息。
接着,在步骤S2中,通信部101将由声音取得部11取得的第1声音信息发送给服务器200。
接着,在步骤S3中,第1收音处理部12除去由声音取得部11取得的第1声音信息所包含的噪声,将除去了噪声而得到的第2声音信息输出。
接着,在步骤S4中,第1声音识别部13对由第1收音处理部12输出的第2声音信息进行声音识别,将声音识别结果作为第1声音识别结果信息而输出给调解部14。另外,第1声音识别部13将表示第1声音识别结果信息的合理性的第1似然度输出给调解部14.
接着,在步骤S5中,调解部14判断表示第1声音识别结果信息的合理性的第1似然度是否比第1阈值大。此外,第1阈值是能够判断为第1声音识别结果信息是正确的识别结果的阈值。在此,在判断为第1似然度比第1阈值大的情况下(步骤S5中“是”),在步骤S6中,调解部14输出第1声音识别结果信息。
另一方面,在判断为第1似然度为第1阈值以下的情况下(步骤S5中“否”),转移到步骤S7的处理。
在此,与终端100的步骤S3~步骤S5的处理并行地,进行服务器200的步骤S31~步骤S34的处理。
在步骤S31中,服务器200的通信部201接收由终端100发送来的第1声音信息。
接着,在步骤S32中,第2收音处理部21除去由通信部201接收到的第1声音信息所包含的噪声,将除去了噪声而得到的第3声音信息输出。
接着,在步骤S33中,第2声音识别部22对由第2收音处理部21输出的第3声音信息进行声音识别,将声音识别结果作为第2声音识别结果信息而输出给通信部201。另外,第2声音识别部22将表示第2声音识别结果信息的合理性的第2似然度输出给通信部201。
接着,在步骤S34中,通信部201将从第2声音识别部22输出的第2声音识别结果信息以及第2似然度发送给终端100。
接着,在步骤S7中,终端100的通信部101接收由服务器200发送来的第2声音识别结果信息以及第2似然度。通信部101将第2声音识别结果信息以及第2似然度输出给调解部14。
接着,在步骤S8中,调解部14判断表示第2声音识别结果信息的合理性的第2似然度是否比第2阈值大。此外,第2阈值是能够判断为第2声音识别结果信息是正确的识别结果的阈值。在此,在判断为第2似然度比第2阈值大的情况下(步骤S8中“是”),在步骤S9中,调解部14输出第2声音识别结果信息。
另一方面,在判断为第2似然度为第2阈值以下的情况下(步骤S8中“否”),在步骤S10中,显示部106将表示无法进行声音识别这一情况的无法识别声音信息通知给用户。
图4是表示对无法识别声音信息进行显示的显示画面的一例的图。
如图4所示,在通过调解部14判断为第1似然度为第1阈值以下且第2似然度为第2阈值以下的情况下,显示部106在显示画面上显示无法识别声音信息1061。在图4中,无法识别声音信息1061由“无法识别声音”这一文字信息构成。
此外,在本实施方式中,终端100通过将无法识别声音信息显示于显示部106来通知给用户,但也可以通过其他方法来通知给用户。本公开并不特别限定于此,也可以通过从扬声器103输出声音来通知给用户。
另外,在本实施方式中,终端100也可以将表示第1声音信息被发送到了服务器200这一情况的服务器发送信息通知给用户。
图5是表示对服务器发送信息进行显示的显示画面的一例的图。
如图5所示,在第1声音信息被发送到了服务器200的情况下,显示部106在显示画面上显示服务器发送信息1062。在图5中,服务器发送信息1062由表示经由网络发送了声音信息这一情况的图标构成。服务器发送信息1062的显示可以在第1声音信息的发送开始定时(timing)开始而在发送结束定时结束。另外,服务器发送信息1062的显示也可以在第1声音信息的发送开始定时开始而在第2声音识别结果信息的接收定时结束。
此外,对用户而言,也存在不希望向服务器200发送声音信息的可能性。因此,优选事先将确认是否向服务器200发送声音信息的发送确认信息对用户进行提示。
图6是表示对发送确认信息进行显示的显示画面的一例的图。
如图6所示,在初始设定时,显示部106在显示画面上显示发送确认信息1063。在图6中,发送确认信息1063由“是否将声音上传到云?”这一文字信息构成。发送确认信息1063可以在终端100的初始设定时显示,也可以在最初发送第1声音信息时显示。
在本实施方式中,以第1声音识别部13将第1声音识别结果信息以及第1似然度分别输出给调解部14的情况为例进行了说明,但并不限定于此。
第1声音识别部13在进行对第2声音信息的声音识别时算出第1似然度。例如,第1声音识别部13可以将包含第2声音信息的声音识别结果以及第1似然度的第1声音识别结果信息输出给调解部14。
在该情况下,调解部14根据需要从第1声音识别结果信息中取出第2声音信息的声音识别结果以及第1似然度来进行处理即可。
在本实施方式中,以第2声音识别部22将第2声音识别结果信息以及第2似然度分别输出给通信部201的情况为例进行了说明,但并不限定于此。
第2声音识别部22在进行对第3声音信息的声音识别时算出第2似然度。例如,第2声音识别部22可以将包含第3声音信息的声音识别结果以及第2似然度的第2声音识别结果信息输出给通信部201。
在该情况下,通信部201、通信部101和调解部14中的任一方可以根据需要从第2声音识别结果信息中取出第2声音信息的声音识别结果或第2似然度来进行处理即可。
另外,在本实施方式中,以第1声音识别部13将第1声音识别结果信息以及第1似然度输出给调解部14,并且通信部101将由服务器200发送的第2声音识别结果信息以及第2似然度输出给调解部14的情况为例进行了说明,但并不限定于此。
调解部14如果被输入第1似然度,则可以根据与预先保持的第1阈值的比较结果来判断是否应该输出第1声音识别结果信息。
另外,调解部14如果被输入第2似然度,则可以根据与预先保持的第2阈值的比较结果来判断是否应该输出第2声音识别结果信息。
例如,第1声音识别部13可以不将第1声音识别结果信息输出给调解部14而存储于终端100的存储器105中。该情况下,第1声音识别部13将第1似然度输出给调解部14。
另外,例如,通信部10也可以不将第2声音识别结果信息输出给调解部14而存储于终端100的存储器105中。该情况下,通信部101将第2似然度输出给调解部14。
另外,调解部14可以将判断为应该输出的第1声音识别结果信息或第2声音识别结果信息从存储器105中取出而输出。另外,调解部14在判断为不输出第1声音识别结果信息以及第2声音识别结果信息的情况下,可以从存储器105中删除第1声音识别结果信息以及第2声音识别结果信息。
另外,在本实施方式中,终端100具备调解部14,但本公开并不特别限定于此,也可以是服务器200具备调解部。
图7是表示本公开的实施方式1的变形例的声音识别系统的功能构成的图。如图7所示,终端100具备声音取得部11、第1收音处理部12以及第1声音识别部13。服务器200具备第2收音处理部21、第2声音识别部22以及调解部23。
终端100的通信部101将从第1声音识别部13输出的第1声音识别结果信息以及第1似然度发送给服务器200。服务器200的通信部201接收由终端100发送来的第1声音识别结果信息以及第1似然度,输出给调解部23。
第2声音识别部22对由第2收音处理部21输出的第3声音信息进行声音识别,将声音识别结果作为第2声音识别结果信息输出给调解部23。另外,第2声音识别部22将第2似然度输出给调解部23。
调解部23选择将由通信部201接收到的第1声音识别结果信息和由第2声音识别部22输出的第2声音识别结果信息中的哪一方输出。此外,调解部23的处理与调解部14的处理相同,因此省略说明。
服务器200的通信部201将从调解部23输出的选择结果输出给终端100。此外,选择结果包括表示第1声音识别结果信息和第2声音识别结果信息的任一方、或表示无法进行声音识别这一情况的信息。终端100的通信部101接收由服务器200发送来的选择结果。
如此,调解部可以包含于终端100和服务器200的任一方。在调解部位于服务器200的情况下,能够削减终端100的运算量。另外,在调解部位于终端100的情况下,因为不需要经由网络接收选择结果,所以能够缩短处理时间。
此外,将在第1收音处理部12中除去第1声音信息所包含的噪声的方式作为第1除去方式、将在第2收音处理部21中除去第1声音信息所包含的噪声的方式作为第2除去方式进行了说明。然而,第1除去方式、第2除去方式是在第1收音处理部12、第2收音处理部21中进行的除去第1声音信息所包含的噪声的方式的名称。
因此,也可以将在第1收音处理部12中除去第1声音信息所包含的噪声的方式称为第2除去方式,将在第2收音处理部21中除去第1声音信息所包含的噪声的方式称为第1除去方式。
(实施方式2)
接着,对实施方式2的声音识别系统进行说明。实施方式2的声音识别系统的整体构成与图1相同,因此省略说明。
图8是表示本公开的实施方式2的声音识别系统的功能构成的图。如图8所示,声音识别系统具备终端100以及服务器200。终端100具备声音取得部11、第1收音处理部12、第1声音识别部13以及调解部14。服务器200具备第2收音处理部21以及第2声音识别部22。
服务器200的通信部201将从第2收音处理部21输出的第3声音信息发送给终端100。终端100的通信部101从服务器200接收第3声音信息,将所接收到的第3声音信息输出给第1声音识别部13。第1声音识别部13对由通信部101接收到的第3声音信息进行声音识别,将声音识别结果作为第4声音识别结果信息而输出给调解部14。
该情况下,声音识别结果包含第3声音信息的声音识别结果。另外,第1声音识别部13算出表示该识别结果的合理性的第4似然度,将所算出的第4似然度输出给调解部14。
在实施方式1中,在进行了说明的第1声音识别部13中的声音识别、似然度的算出中,取代第2声音信息而使用第3声音信息来进行处理即可,因此省略关于第1声音识别部13中的对第3声音信息的声音识别、第4似然度的算出的说明。
另外,通信部101将由第1收音处理部12输出的第2声音信息发送给服务器200。服务器200的通信部201接收由终端100发送来的第2声音信息,并输出给第2声音识别部22。第2声音识别部22对由通信部201接收到的第2声音信息进行声音识别,将声音识别结果作为第3声音识别结果信息而输出给通信部201。
该情况下,声音识别结果包含第2声音信息的声音识别结果。另外,第2声音识别部22算出表示该声音识别结果的合理性的第3似然度,将所算出的第3似然度输出给通信部201。
在实施方式1中,在进行了说明的第2声音识别部22中的声音识别、似然度的算出中,取代第3声音信息而使用第2声音信息来进行处理即可,因此省略关于第2声音识别部22中的对第2声音信息的声音识别、第3似然度的算出的说明。
通信部201将从第2声音识别部22输出的第3声音识别结果信息以及第3似然度发送给终端100。通信部101从服务器200接收作为第2声音信息的声音识别结果的第3声音识别结果信息,将所接收到的第3声音识别结果信息输出给调解部14。
调解部14选择将由第1声音识别部13输出的第1声音识别结果信息、由通信部101接收到的第2声音识别结果信息、由通信部101接收到的第3声音识别结果信息和由第1声音识别部13输出的第4声音识别结果信息中的哪一方输出。
第1声音识别部13算出表示第1声音识别结果信息的合理性的第1似然度,将所算出的第1似然度输出给调解部14。
通信部101接收从服务器200发送来的表示第2声音识别结果信息的合理性的第2似然度,将所接收到的第2似然度输出给调解部14。另外,通信部101接收从服务器200发送来的表示第3声音识别结果信息的合理性的第3似然度,将所接收到的第3似然度输出给调解部14。
进而,第1声音识别部13算出表示第4声音识别结果信息的合理性的第4似然度,将所算出的第4似然度输出给调解部14。
调解部14基于第1似然度、第2似然度、第3似然度和第4似然度中的至少一方来选择将第1声音识别结果信息、第2声音识别结果信息、第3声音识别结果信息和第4声音识别结果信息中的哪一方输出。
图9是表示本公开的实施方式2的声音识别系统的动作的一例的第1流程图,图10是表示本公开的实施方式2的声音识别系统的动作的一例的第2流程图,图11是表示本公开的实施方式2的声音识别系统的动作的一例的第3流程图。
首先,在步骤S41中,终端100的声音取得部11取得第1声音信息。
接着,在步骤S42中,通信部101将由声音取得部11取得的第1声音信息发送给服务器200。
接着,在步骤S43中,第1收音处理部12除去由声音取得部11取得的第1声音信息所包含的噪声,将除去了噪声而得到的第2声音信息输出。
接着,在步骤S44中,通信部101将由第1收音处理部12除去了噪声而得到的第2声音信息发送给服务器200。
接着,在步骤S45中,第1声音识别部13对由第1收音处理部12输出的第2声音信息进行声音识别,将声音识别结果作为第1声音识别结果信息而输出给调解部14。另外,第1声音识别部13算出表示第1声音识别结果信息的合理性的第1似然度,将所算出的第1似然度输出给调解部14。
接着,在步骤S46中,调解部14判断表示第1声音识别结果信息的合理性的第1似然度是否比第1阈值大。此外,第1阈值是能够判断为第1声音识别结果信息是正确的识别结果的阈值。在此,在判断为第1似然度比第1阈值大的情况下(步骤S46中“是”),在步骤S47中,调解部14输出第1声音识别结果信息。
另一方面,在判断为第1似然度为第1阈值以下的情况下(步骤S46中“否”),转移到步骤S48的处理。
在此,与终端100的步骤S44~步骤S46的处理并行地,进行服务器200的步骤S61~步骤S63的处理。
在步骤S61中,服务器200的通信部201接收由终端100发送来的第2声音信息。
接着,在步骤S62中,第2声音识别部22对由通信部201接收到的第2声音信息进行声音识别,将声音识别结果作为第3声音识别结果信息而输出给通信部201。另外,第2声音识别部22算出表示第3声音识别结果信息的合理性的第3似然度,将所算出的第3似然度输出给通信部201。
接着,在步骤S63中,通信部201将从第2声音识别部22输出的第3声音识别结果信息以及第3似然度发送给终端100。
接着,在步骤S48中,终端100的通信部101接收由服务器200发送来的第3声音识别结果信息以及第3似然度。另外,通信部101将第3声音识别结果信息以及第3似然度输出给调解部14。
接着,在步骤S49中,调解部14判断表示第3声音识别结果信息的合理性的第3似然度是否比第3阈值大。此外,第3阈值是能够判断为第3声音识别结果信息是正确的识别结果的阈值。在此,在判断为第3似然度比第3阈值大的情况下(步骤S49中“是”),在步骤S50中,调解部14输出第3声音识别结果信息。
另一方面,在判断为第3似然度为第3阈值以下的情况下(步骤S49中“否”),转移到步骤S51的处理。
在此,与终端100的步骤S42~步骤S49的处理并行地,进行服务器200的步骤S71~步骤S73的处理。
在步骤S71中,服务器200的通信部201接收由终端100发送来的第1声音信息。
接着,在步骤S72中,第2收音处理部21除去由通信部201接收到的第1声音信息所包含的噪声,将除去了噪声而得到的第3声音信息输出。
接着,在步骤S73中,通信部201将从第2收音处理部21输出的第3声音信息发送给终端100。
接着,在步骤S51中,终端100的通信部101接收由服务器200发送来的第3声音信息。
接着,在步骤S52中,第1声音识别部13对由通信部101接收到的第3声音信息进行声音识别,将声音识别结果作为第4声音识别结果信息而输出给调解部14。另外,第1声音识别部13算出表示第4声音识别结果信息的合理性的第4似然度,将所算出的第4似然度输出给调解部14。
接着,在步骤S53中,调解部14判断表示第4声音识别结果信息的合理性的第4似然度是否比第4阈值大。此外,第4阈值是能够判断为第4声音识别结果信息是正确的识别结果的阈值。在此,在判断为第4似然度比第4阈值大的情况下(步骤S53中“是”),在步骤S54中,调解部14输出第4声音识别结果信息。
另一方面,在判断为第4似然度为第4阈值以下的情况下(步骤S53中“否”),转移到步骤S55的处理。
在此,与终端100的步骤S52~步骤S53的处理并行地,进行服务器200的步骤S74~步骤S75的处理。
在步骤S74中,第2声音识别部22对从第2收音处理部21输出的第3声音信息进行声音识别,将声音识别结果作为第2声音识别结果信息而输出给通信部201。另外,第2声音识别部22算出表示第2声音识别结果信息的合理性的第2似然度,将所算出的第2似然度输出给通信部201。
接着,在步骤S75中,通信部201将从第2声音识别部22输出的第2声音识别结果信息以及第2似然度发送给终端100。
接着,在步骤S55中,终端100的通信部101接收由服务器200发送来的第2声音识别结果信息以及第2似然度。另外,通信部101将第2声音识别结果信息以及第2似然度输出给调解部14。
接着,在步骤S56中,调解部14判断表示第2声音识别结果信息的合理性的第2似然度是否比第2阈值大。此外,第2阈值是能够判断为第2声音识别结果信息是正确的识别结果的阈值。在此,在判断为第2似然度比第2阈值大的情况下(步骤S56中“是”),在步骤S57中,调解部14输出第2声音识别结果信息。
另一方面,在判断为第2似然度为第2阈值以下的情况下(步骤S56中“否”),在步骤S58中,显示部106将表示无法进行声音识别这一情况的无法识别声音信息通知给用户。
此外,第1阈值、第2阈值、第3阈值以及第4阈值例如预先存储在终端100的存储器105中。
在本实施方式中,以第1声音识别部13将第1声音识别结果信息、第1似然度、第4声音识别结果信息以及第4似然度分别输出给调解部14的情况为例进行了说明,但并不限定于此。
第1声音识别部13在进行对第2声音信息的识别时算出第1似然度。例如,第1声音识别部13可以将包含第2声音信息的声音识别结果以及第1似然度的第1声音识别结果信息输出给调解部14。
在该情况下,调解部14根据需要从第1声音识别结果信息中取出第2声音信息的声音识别结果以及第1似然度来进行处理即可。
第1声音识别部13在进行对第3声音信息的识别时算出第4似然度。例如,第1声音识别部13可以将包含第3声音信息的声音识别结果以及第4似然度的第4声音识别结果信息输出给调解部14。
在该情况下,调解部14根据需要从第4声音识别结果信息中取出第3声音信息的声音识别结果以及第4似然度来进行处理即可。
在本实施方式中,以第2声音识别部22将第2声音识别结果信息、第2似然度、第3声音识别结果信息以及第3似然度分别输出给通信部201的情况为例进行了说明,但并不限定于此。
第2声音识别部22在进行对第3声音信息的识别时算出第2似然度。例如,第2声音识别部22可以将包含第3声音信息的声音识别结果以及第2似然度的第2声音识别结果信息输出给通信部201。
在该情况下,通信部201、通信部101和调解部14中的任一方可以根据需要从第2声音识别结果信息中取出第3声音信息的声音识别结果或第2似然度来进行处理。
第2声音识别部22在进行对第2声音信息的识别时算出第3似然度。例如,第2声音识别部22可以将包含第2声音信息的声音识别结果以及第3似然度的第3声音识别结果信息输出给通信部201。
在该情况下,通信部201、通信部101和调解部14中的任一方可以根据需要从第3声音识别结果信息中取出第2声音信息的声音识别结果或第3似然度来进行处理。
另外,在本实施方式中,以第1声音识别部13将第1声音识别结果信息、第1似然度、第4声音识别结果信息以及第1似然度输出给调解部14,并且通信部101将由服务器200发送来的第2声音识别结果信息、第2似然度、第3声音识别结果信息以及第3似然度输出给调解部14的情况为例进行了说明。但是并不限定于此。
调解部14如果接收到第1似然度,可以根据与预先保持的第1阈值的比较结果来判断是否应该输出第1声音识别结果信息。
调解部14如果接收到第2似然度,可以根据与预先保持的第2阈值的比较结果来判断是否应该输出第2声音识别结果信息。
调解部14如果接收到第3似然度,可以根据与预先保持的第3阈值的比较结果来判断是否应该输出第3声音识别结果信息。
调解部14如果接收到第4似然度,可以根据与预先保持的第4阈值的比较结果来判断是否应该输出第4声音识别结果信息。
例如,第1声音识别部13可以不将第1声音识别结果信息以及第4声音识别结果信息输出给调解部14而存储于终端100的存储器105中。该情况下,通信部101将第1似然度以及第4似然度输出给调解部14。
另外,例如,通信部101可以不将第2声音识别结果信息以及第3声音识别结果信息输出给调解部14而存储于终端100的存储器105中。该情况下,通信部101将第2似然度以及第3似然度输出给调解部14。
另外,例如,调解部14可以将判断为应该输出的第1声音识别结果信息~第4声音识别结果信息的任一方从存储器105中取出而输出。
另外,调解部14在判断为第1声音识别结果信息~第4声音识别结果信息都不应该输出的情况下,可以从存储器105中删除第1声音识别结果信息~第4声音识别结果信息。
此外,在本实施方式2中,步骤S63的发送第3声音识别结果信息的处理,先于步骤S73的发送第3声音信息的处理而进行。然而,也存在发送第3声音信息的处理先于发送第3声音识别结果信息的处理而进行的情况。
因此,对发送第3声音信息的处理先于发送第3声音识别结果信息的处理而进行的实施方式2的变形例进行说明。
图12是表示本公开的实施方式2的变形例的声音识别系统的动作的一例的第1流程图,图13是表示本公开的实施方式2的变形例的声音识别系统的动作的一例的第2流程图。此外,图12的步骤S46以前的处理与图9的步骤S41~S45的处理相同,图12的步骤S101以前的处理与图9的步骤S71~S72的处理相同,图13的步骤S111以前的处理与图9的步骤S61~S62的处理相同。
在步骤S101中,通信部201将从第2收音处理部21输出的第3声音信息发送给终端100。
接着,在步骤S81中,终端100的通信部101接收由服务器200发送来的第3声音信息。
接着,在步骤S82中,第1声音识别部13对由通信部101接收到的第3声音信息进行声音识别,将声音识别结果作为第4声音识别结果信息而输出给调解部14。另外,第1声音识别部13算出表示第4声音识别结果信息的合理性的第4似然度,将所算出的第4似然度输出给调解部14。
接着,在步骤S83中,调解部14判断表示第4声音识别结果信息的合理性的第4似然度是否比第4阈值大。此外,第4阈值是能够判断为第4声音识别结果信息是正确的识别结果的阈值。在此,在判断为第4似然度比第4阈值大的情况下(步骤S83中“是”),在步骤S84中,调解部14输出第4声音识别结果信息。
另一方面,在判断为第4似然度为第4阈值以下的情况下(步骤S83中“否”),转移到步骤S85的处理。
在此,与终端100的步骤S44~步骤S83的处理并行地,进行服务器200的步骤S61~步骤S111的处理。
接着,在步骤S111中,通信部201将从第2声音识别部22输出的第3声音识别结果信息以及第3似然度发送给终端100。
接着,在步骤S85中,终端100的通信部101接收由服务器200发送来的第3声音识别结果信息以及第3似然度。另外,通信部101将第3声音识别结果信息以及第3似然度输出给调解部14。
接着,在步骤S86中,调解部14判断表示第3声音识别结果信息的合理性的第3似然度是否比第3阈值大。此外,第3阈值是能够判断为第3声音识别结果信息是正确的识别结果的阈值。在此,在判断为第3似然度比第3阈值大的情况下(步骤S86中“是”),在步骤S87中,调解部14输出第3声音识别结果信息。
另一方面,在判断为第3似然度为第3阈值以下的情况下(步骤S86中“否”),转移到步骤S88的处理。
在此,与终端100的步骤S82~步骤S86的处理并行地,进行服务器200的步骤S102~步骤S103的处理。
在步骤S102中,第2声音识别部22对从第2收音处理部21输出的第3声音信息进行声音识别,将声音识别结果作为第2声音识别结果信息而输出给通信部201。另外,第2声音识别部22算出表示第2声音识别结果信息的合理性的第2似然度,将所算出的第2似然度输出给通信部。
接着,在步骤S103中,通信部201将从第2声音识别部22输出的第2声音识别结果信息发送给终端100以及第2似然度。
接着,在步骤S88中,终端100的通信部101接收由服务器200发送来的第2声音识别结果信息以及第2似然度。另外,通信部101将第2声音识别结果信息以及第2似然度输出调解部14。
接着,在步骤S89中,调解部14判断表示第2声音识别结果信息的合理性的第2似然度是否比第2阈值大。此外,第2阈值是能够判断为第2声音识别结果信息是正确的识别结果的阈值。在此,在判断为第2似然度比第2阈值大的情况下(步骤S89中“是”),在步骤S90中,调解部14输出第2声音识别结果信息。
另一方面,在判断为第2似然度为第2阈值以下的情况下(步骤S89中“否”),在步骤S91中,显示部106将表示无法进行声音识别这一情况的无法识别声音信息通知给用户。
(实施方式3)
接着,对实施方式3的声音识别系统进行说明。实施方式3的声音识别系统的整体构成与图1相同,因此省略说明。
图14是表示本公开的实施方式3的声音识别系统的功能构成的图。如图14所示,声音识别系统具备终端100以及服务器200。终端100具备声音取得部11、第1收音处理部12、第1声音识别部13以及调解部14。服务器200具备第2收音处理部21。
实施方式1的声音识别系统与实施方式3的声音识别系统的差异在于服务器200是否具备第2声音识别部22。
第2收音处理部21除去由通信部201接收到的第1声音信息所包含的噪声,将除去了噪声而得到的第3声音信息输出。
服务器200的通信部201将从第2收音处理部21输出的第3声音信息发送给终端100。
第1声音识别部13对由第1收音处理部12输出的第2声音信息进行声音识别,将声音识别结果作为第1声音识别结果信息而输出给调解部14。另外,第1声音识别部13算出表示第1声音识别结果信息的合理性的第1似然度,将所算出的第1似然度输出给调解部14。
另外,第1声音识别部13对由通信部101接收到的第3声音信息进行声音识别,将声音识别结果作为第4声音识别结果信息而输出给调解部14。另外,第1声音识别部13算出表示第4声音识别结果信息的合理性的第4似然度,将所算出的第4似然度输出给调解部14。
调解部14选择将由第1声音识别部13输出的第1声音识别结果信息和由第1声音识别部13输出的第4声音识别结果信息中的哪一方输出。此外,关于调解部14的处理,与其他的实施方式相同,因此省略说明。
(实施方式4)
接着,对实施方式4的声音识别系统进行说明。实施方式4的声音识别系统的整体构成与图1相同,因此省略说明。
图15是表示本公开的实施方式4的声音识别系统的功能构成的图。如图15所示,声音识别系统具备终端100以及服务器200。终端100具备声音取得部11以及第1收音处理部12。服务器200具备第2收音处理部21、第2声音识别部22以及调解部23。
实施方式1的变形例的声音识别系统(图7)与实施方式4的声音识别系统的差异在于终端100是否具备第1声音识别部13。
通信部101将由第1收音处理部12输出的第2声音信息发送给服务器200。服务器200的通信部201接收由终端100发送来的第2声音信息,并输出给第2声音识别部22。第2声音识别部22对由通信部201接收到的第2声音信息进行声音识别,将声音识别结果作为第3声音识别结果信息输出给调解部23。
第2声音识别部22对由第2收音处理部21输出的第3声音信息进行声音识别,将声音识别结果作为第2声音识别结果信息输出给调解部23。
调解部23选择将从第2声音识别部22输出的第3声音识别结果信息和从第2声音识别部22输出的第2声音识别结果信息中的哪一方输出。此外,关于调解部23的处理,与其他的实施方式相同,因此省略说明。
(实施方式5)
接着,对实施方式5的声音识别系统进行说明。实施方式5的声音识别系统的整体构成与图1相同,因此省略说明。
图16是表示本公开的实施方式5的声音识别系统的功能构成的图。如图16所示,声音识别系统具备终端100以及服务器200。终端100具备声音取得部11、第1收音处理部12、第1声音识别部13、调解部14、发声区间检测部15以及发声持续时间测定部17。服务器200具备第2收音处理部21以及第2声音识别部22。
实施方式1的声音识别系统与实施方式5的声音识别系统的差异在于终端100是否具备发声区间检测部15以及发声持续时间测定部17。
发声区间检测部15检测由声音取得部11取得的第1声音信息中的用户发声的发声区间。发声区间检测部15使用通常的发声区间检测(VAD:Voice Activity Detection)技术来检测发声区间。例如,发声区间检测部15在由所输入的声音信号的时间序列构成的帧基于振幅和零交叉数来检测该帧是否为声音区间。另外,例如,发声区间检测部15也可以基于所输入的声音信息的特征量,通过声音模型来算出处于用户发声中的概率并且通过杂音模型来算出处于没有用户发声的状态的概率,将从声音模型得到的概率比从杂音模型得到的概率高的区间判定为发声区间。
发声持续时间测定部17在由发声区间检测部15检测到发声区间的情况下,测定从被判定为是声音的区间(帧)的开始到结束的时间。
在没有由发声区间检测部15检测到发声区间的情况下,第1收音处理部12不除去第1声音信息所包含的噪声,不输出第2声音信息。另外,在没有由发声区间检测部15检测到发声区间的情况下,通信部101不将第1声音信息发送给服务器200。
在通过发声区间检测部15检测到发声区间的情况下,第1收音处理部12除去第1声音信息所包含的噪声。另外,在通过发声区间检测部15检测到发声区间的情况下,通信部101将发声区间内的第1声音信息发送给服务器200。
调解部14至少使用与发声持续时间的长度相关的信息来选择将由声音识别部输出的第1声音识别结果信息和由通信部101接收到的第2声音识别结果信息中的哪一方输出。即,在由发声持续时间测定部17检测到的发声持续时间比预定的长度长的情况下,调解部14使对表示第2声音识别结果信息的合理性的第2似然度乘上的加权比对表示所述第1声音识别结果信息的合理性的第1似然度乘上的加权大。在发声持续时间比预定时间的长度长的情况下,进行词语数多的高级声音指示的可能性高。因此,在该情况下,通过提高对从服务器200输出的声音识别结果乘以的加权,能够防止误识别。
此外,在图8所示的实施方式2的声音识别系统中,也可以是终端100具备发声区间检测部15。另外,在图8所示的实施方式2的声音识别系统中,也可以是终端100具备发声区间检测部15以及发声持续时间测定部17。
该情况下,调解部14至少使用与发声持续时间的长度相关的信息来选择将第1声音识别结果信息、第2声音识别结果信息、第3声音识别结果信息和第4声音识别结果信息中的哪一方输出。
另外,在发声持续时间比预定的长度长的情况下,调解部14使对表示第2声音识别结果信息的合理性的第2似然度以及表示第3声音识别结果信息的合理性的第3似然度乘上的加权比对表示第1声音识别结果信息的合理性的第1似然度以及表示第4声音识别结果信息的合理性的第4似然度乘上的加权大。
进而,在发声持续时间比预定的长度长的情况下,调解部14使对第2似然度乘上的加权比对第3似然度乘上的加权大。
另外,在本实施方式5中,对所取得的声音信息进行了发声区间检测,但也可以对除去了噪声的声音信息进行发声区间检测。因此,说明对除去了噪声的声音信息进行发声区间检测的实施方式5的变形例。
图17是表示本公开的实施方式5的变形例的声音识别系统的功能构成的图。如图17所示,终端100具备声音取得部11、第1收音处理部12、第1声音识别部13、调解部14、发声区间检测部15以及声音发送判断部16。
发声区间检测部15检测由第1收音处理部12除去了噪声而得到的第2声音信息中的用户发声的发声区间。发声区间检测部15使用通常的发声区间检测技术来检测发声区间。
声音发送判断部16基于由发声区间检测部15得到的发声区间的检测结果,判断是否发送由声音取得部11取得的第1声音信息。声音发送判断部16在由发声区间检测部15检测到发声区间的情况下,判断为发送由声音取得部11取得的第1声音信息,在没有由发声区间检测部15检测到发声区间的情况下,判断为不发送由声音取得部11取得的第1声音信息。通信部101基于声音发送判断部16的判断结果来发送由声音取得部11取得的第1声音信息。
如此,通过对作为除去了噪声的声音信息的第2声音信息进行发声区间的检测,能够更高精度地检测发声区间。
产业上的可利用性
本公开的声音识别装置以及声音识别方法,在高噪音环境下能够提高声音识别的正确性,在静音环境下能够实现声音识别的高速化,作为除去声音信息所包含的噪声并对除去了噪声的声音信息进行声音识别的声音识别装置以及声音识别方法而有用。

Claims (13)

1.一种声音识别装置,具备:
声音取得部,其取得第1声音信息;
噪声除去处理部,其使用第1除去方式除去由所述声音取得部取得的所述第1声音信息所包含的噪声,将除去了所述噪声的声音信息作为第2声音信息而输出;
声音识别部,其对由所述噪声除去处理部输出的所述第2声音信息进行声音识别,将声音识别结果作为第1声音识别结果信息而输出;
通信部,其将由所述声音取得部取得的所述第1声音信息发送给服务器,从所述服务器接收声音识别结果作为第2声音识别结果信息,上述声音识别结果是在所述服务器中使用第2除去方式除去所述第1声音信息所包含的噪声、并对除去了所述噪声而得到的第3声音信息进行声音识别的结果,所述第2除去方式是从所述第1声音信息中除去比通过所述第1除去方式从所述第1声音信息中除去的噪声的量多的量的噪声的方式;以及
调解部,其选择将由所述声音识别部输出的所述第1声音识别结果信息和由所述通信部接收到的所述第2声音识别结果信息中的哪一方输出,
所述声音识别部进而算出表示所述第1声音识别结果信息的合理性的第1似然度,将所算出的所述第1似然度输出给所述调解部,
所述通信部进而接收由所述服务器算出的表示所述第2声音识别结果信息的合理性的第2似然度,将所接收到的所述第2似然度输出给所述调解部,
所述调解部,判断所述第1似然度是否比预定的第1阈值大,在判断为所述第1似然度比所述预定的第1阈值大的情况下,输出所述第1声音识别结果信息,
所述调解部,在判断为所述第1似然度为所述第1阈值以下的情况下,进而判断从所述通信部接收的所述第2似然度是否比预定的第2阈值大,在判断为所述第2似然度比所述预定的第2阈值大的情况下,输出所述第2声音识别结果信息。
2.根据权利要求1所述的声音识别装置,
所述调解部,
在所述第1似然度为所述第1阈值以下且所述第2似然度为所述第2阈值以下的情况下既不输出所述第1声音识别结果信息也不输出所述第2声音识别结果信息。
3.根据权利要求1所述的声音识别装置,
还具备发声区间检测部,该发声区间检测部检测由所述声音取得部取得的所述第1声音信息中的用户发声的发声区间,
在没有由所述发声区间检测部检测到所述发声区间的情况下,所述噪声除去处理部不除去所述第1声音信息所包含的噪声,并且不输出所述第2声音信息,
所述通信部不将所述第1声音信息发送给服务器。
4.根据权利要求3所述的声音识别装置,
还具备发声持续时间测定部,该发声持续时间测定部在由所述发声区间检测部检测到所述发声区间的情况下测定在所述发声区间检测部中检测到的发声区间的持续时间即发声持续时间,
在由所述发声区间检测部检测到所述发声区间的情况下,所述噪声除去处理部除去所述第1声音信息所包含的噪声,
所述通信部将所述发声区间内的所述第1声音信息发送给所述服务器,
所述调解部至少使用与所述发声持续时间的长度相关的信息来选择将由所述声音识别部输出的所述第1声音识别结果信息和由所述通信部接收到的所述第2声音识别结果信息中的哪一方输出。
5.根据权利要求4所述的声音识别装置,
在所述发声持续时间比预定的长度长的情况下,所述调解部使对表示所述第2声音识别结果信息的合理性的第2似然度乘上的加权比对表示所述第1声音识别结果信息的合理性的第1似然度乘上的加权大。
6.根据权利要求1所述的声音识别装置,
所述通信部从所述服务器接收所述第3声音信息,将所接收到的所述第3声音信息输出给所述声音识别部,
所述声音识别部对由所述通信部接收到的所述第3声音信息进行声音识别,将声音识别结果作为第4声音识别结果信息而输出,
所述通信部将由所述噪声除去处理部输出的所述第2声音信息发送给服务器,从所述服务器接收对所述第2声音信息进行了声音识别的声音识别结果作为第3声音识别结果信息,将所接收到的所述第3声音识别结果信息输出给所述调解部,
所述调解部选择将由所述声音识别部输出的所述第1声音识别结果信息、由所述通信部接收到的所述第2声音识别结果信息、由所述通信部接收到的所述第3声音识别结果信息、和由所述声音识别部输出的所述第4声音识别结果信息中的哪一方输出。
7.根据权利要求6所述的声音识别装置,
所述声音识别部算出表示所述第1声音识别结果信息的合理性的第1似然度,将所算出的所述第1似然度输出给所述调解部,
所述通信部接收由所述服务器算出的表示所述第2声音识别结果信息的合理性的第2似然度,将所接收到的所述第2似然度输出给所述调解部,
所述通信部接收由所述服务器算出的表示所述第3声音识别结果信息的合理性的第3似然度,将所接收到的所述第3似然度输出给所述调解部,
所述声音识别部算出表示所述第4声音识别结果信息的合理性的第4似然度,将所算出的所述第4似然度输出给所述调解部,
所述调解部基于所述第1似然度、所述第2似然度、所述第3似然度和所述第4似然度中的至少一方来选择将所述第1声音识别结果信息、所述第2声音识别结果信息、所述第3声音识别结果信息和所述第4声音识别结果信息中的哪一方输出。
8.根据权利要求6所述的声音识别装置,
还具备发声区间检测部,该发声区间检测部检测由所述声音取得部取得的所述第1声音信息中的用户发声的发声区间,
在没有由所述发声区间检测部检测到所述发声区间的情况下,所述噪声除去处理部不除去所述第1声音信息所包含的噪声,并且不输出所述第2声音信息,
所述通信部不将所述第1声音信息发送给服务器。
9.根据权利要求8所述的声音识别装置,
还具备发声持续时间测定部,该发声持续时间测定部在由所述发声区间检测部检测到所述发声区间的情况下测定在所述发声区间检测部中检测到的发声区间的持续时间即发声持续时间,
在由所述发声区间检测部检测到所述发声区间的情况下,所述噪声除去处理部除去所述第1声音信息所包含的噪声,
所述通信部将所述发声区间内的所述第1声音信息发送给所述服务器,
所述调解部至少使用与所述发声持续时间的长度相关的信息来选择将所述第1声音识别结果信息、所述第2声音识别结果信息、所述第3声音识别结果信息和所述第4声音识别结果信息中的哪一方输出。
10.根据权利要求9所述的声音识别装置,
在所述发声持续时间比预定的长度长的情况下,所述调解部使对表示所述第2声音识别结果信息的合理性的第2似然度以及表示所述第3声音识别结果信息的合理性的第3似然度乘上的加权比对表示所述第1声音识别结果信息的合理性的第1似然度以及表示所述第4声音识别结果信息的合理性的第4似然度乘上的加权大。
11.根据权利要求10所述的声音识别装置,
在所述发声持续时间比预定的长度长的情况下,所述调解部使对所述第2似然度乘上的加权比对所述第3似然度乘上的加权大。
12.一种声音识别装置,具备:
声音取得部,其取得第1声音信息;
噪声除去处理部,其使用第1除去方式除去由所述声音取得部取得的所述第1声音信息所包含的噪声,将除去了所述噪声的声音信息作为第2声音信息而输出;
通信部,其将由所述声音取得部取得的所述第1声音信息发送给服务器,从所述服务器接收在所述服务器中使用第2除去方式除去了所述第1声音信息所包含的噪声而得到的第3声音信息,所述第2除去方式是从所述第1声音信息中除去比通过所述第1除去方式从所述第1声音信息中除去的噪声的量多的量的噪声的方式;
声音识别部,其对由所述噪声除去处理部输出的所述第2声音信息进行声音识别,将声音识别结果作为第1声音识别结果信息而输出,并且对由所述通信部接收到的所述第3声音信息进行声音识别,将声音识别结果作为第2声音识别结果信息而输出;以及
调解部,其选择将由所述声音识别部输出的所述第1声音识别结果信息和所述第2声音识别结果信息中的哪一方输出,
所述声音识别部进而算出表示所述第1声音识别结果信息的合理性的第1似然度,将所算出的所述第1似然度输出给所述调解部,
所述声音识别部进而算出表示所述第2声音识别结果信息的合理性的第2似然度,将所算出的所述第2似然度输出给所述调解部,
所述调解部,判断所述第1似然度是否比预定的第1阈值大,在判断为所述第1似然度比所述预定的第1阈值大的情况下,输出所述第1声音识别结果信息,
所述调解部,在判断为所述第1似然度为所述第1阈值以下的情况下,进而判断所述第2似然度是否比预定的第2阈值大,在判断为所述第2似然度比所述预定的第2阈值大的情况下,输出所述第2声音识别结果信息。
13.一种服务器中的声音识别方法,所述服务器具备通信部、噪声除去处理部、声音识别部以及调解部,并对由终端取得的声音信息进行声音识别,
所述通信部接收由所述终端取得的第1声音信息,
所述噪声除去处理部使用第1除去方式除去所接收到的所述第1声音信息所包含的噪声,将除去了所述噪声的声音信息作为第2声音信息而输出,
所述声音识别部对所述第2声音信息进行声音识别,将声音识别结果作为第1声音识别结果信息而输出,
所述通信部从所述终端接收声音识别结果作为第2声音识别结果信息,上述声音识别结果是在所述终端中使用第2除去方式除去所述第1声音信息所包含的噪声、并对除去了所述噪声而得到的第3声音信息进行声音识别的结果,所述第2除去方式是除去比通过所述第1除去方式从所述第1声音信息中除去的噪声的量少的量的噪声的方式,
所述调解部选择将所述第1声音识别结果信息和所述第2声音识别结果信息中的哪一方输出,
所述声音识别部进而算出表示所述第1声音识别结果信息的合理性的第1似然度,将所算出的所述第1似然度输出给所述调解部,
所述通信部进而接收由所述终端算出的表示所述第2声音识别结果信息的合理性的第2似然度,将所接收到的所述第2似然度输出给所述调解部,
所述调解部,判断所述第2似然度是否比预定的第2阈值大,在判断为所述第2似然度比所述预定的第2阈值大的情况下,输出所述第2声音识别结果信息,
所述调解部,在判断为所述第2似然度为所述第2阈值以下的情况下,进而判断所述第1似然度是否比预定的第1阈值大,在判断为所述第1似然度比所述预定的第1阈值大的情况下,输出所述第1声音识别结果信息。
CN201510955225.7A 2014-12-26 2015-12-17 声音识别装置以及声音识别方法 Active CN105741836B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2014266033 2014-12-26
JP2014-266033 2014-12-26

Publications (2)

Publication Number Publication Date
CN105741836A CN105741836A (zh) 2016-07-06
CN105741836B true CN105741836B (zh) 2020-09-01

Family

ID=56164968

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510955225.7A Active CN105741836B (zh) 2014-12-26 2015-12-17 声音识别装置以及声音识别方法

Country Status (3)

Country Link
US (1) US9966077B2 (zh)
JP (1) JP6754184B2 (zh)
CN (1) CN105741836B (zh)

Families Citing this family (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
KR20150104615A (ko) 2013-02-07 2015-09-15 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9257120B1 (en) 2014-07-18 2016-02-09 Google Inc. Speaker verification using co-location information
US9318107B1 (en) 2014-10-09 2016-04-19 Google Inc. Hotword detection on multiple devices
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US20170032783A1 (en) * 2015-04-01 2017-02-02 Elwha Llc Hierarchical Networked Command Recognition
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
KR20180022021A (ko) * 2016-08-23 2018-03-06 삼성전자주식회사 음성 인식 방법 및 이를 수행하는 전자 장치
US9972320B2 (en) 2016-08-24 2018-05-15 Google Llc Hotword detection on multiple devices
KR102241970B1 (ko) 2016-11-07 2021-04-20 구글 엘엘씨 기록된 미디어 핫워드 트리거 억제
JP6751658B2 (ja) * 2016-11-15 2020-09-09 クラリオン株式会社 音声認識装置、音声認識システム
EP3343951A1 (en) * 2016-12-27 2018-07-04 GN Hearing A/S Sound signal modelling based on recorded object sound
CN117577099A (zh) 2017-04-20 2024-02-20 谷歌有限责任公司 设备上的多用户认证的方法、系统和介质
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
KR102609430B1 (ko) * 2018-01-23 2023-12-04 구글 엘엘씨 호출 구문 검출에서 노이즈 감소 기술의 선택적 적응 및 활용
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
JP2021156907A (ja) * 2018-06-15 2021-10-07 ソニーグループ株式会社 情報処理装置および情報処理方法
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
WO2020096218A1 (en) * 2018-11-05 2020-05-14 Samsung Electronics Co., Ltd. Electronic device and operation method thereof
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
JP7278830B2 (ja) * 2019-03-27 2023-05-22 本田技研工業株式会社 端末装置、端末装置の制御方法、およびプログラム
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
JP6735392B1 (ja) * 2019-05-23 2020-08-05 西日本電信電話株式会社 音声テキスト化装置、音声テキスト化方法及び音声テキスト化プログラム
JP7404657B2 (ja) * 2019-05-28 2023-12-26 沖電気工業株式会社 音声認識装置、音声認識プログラム、及び音声認識方法
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11043220B1 (en) 2020-05-11 2021-06-22 Apple Inc. Digital assistant hardware abstraction
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
EP4075214A1 (de) * 2021-04-15 2022-10-19 Dematic GmbH Verfahren zur wartung von anlagen, insbesondere maschinen in warenlagern
CN116112600A (zh) * 2021-11-10 2023-05-12 荣耀终端有限公司 通话音量的调节方法、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110071823A1 (en) * 2008-06-10 2011-03-24 Toru Iwasawa Speech recognition system, speech recognition method, and storage medium storing program for speech recognition
US20130166286A1 (en) * 2011-12-27 2013-06-27 Fujitsu Limited Voice processing apparatus and voice processing method
US20130179154A1 (en) * 2012-01-05 2013-07-11 Denso Corporation Speech recognition apparatus
CN103928026A (zh) * 2014-05-12 2014-07-16 安徽江淮汽车股份有限公司 一种汽车语音指令采集处理系统及方法
US20160118042A1 (en) * 2014-10-22 2016-04-28 GM Global Technology Operations LLC Selective noise suppression during automatic speech recognition

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW347503B (en) * 1995-11-15 1998-12-11 Hitachi Ltd Character recognition translation system and voice recognition translation system
JP5916054B2 (ja) * 2011-06-22 2016-05-11 クラリオン株式会社 音声データ中継装置、端末装置、音声データ中継方法、および音声認識システム
JP5658641B2 (ja) * 2011-09-15 2015-01-28 株式会社Nttドコモ 端末装置、音声認識プログラム、音声認識方法および音声認識システム
JP5887162B2 (ja) * 2012-02-23 2016-03-16 株式会社Nttドコモ 通信端末、制御方法及びプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110071823A1 (en) * 2008-06-10 2011-03-24 Toru Iwasawa Speech recognition system, speech recognition method, and storage medium storing program for speech recognition
US20130166286A1 (en) * 2011-12-27 2013-06-27 Fujitsu Limited Voice processing apparatus and voice processing method
US20130179154A1 (en) * 2012-01-05 2013-07-11 Denso Corporation Speech recognition apparatus
CN103928026A (zh) * 2014-05-12 2014-07-16 安徽江淮汽车股份有限公司 一种汽车语音指令采集处理系统及方法
US20160118042A1 (en) * 2014-10-22 2016-04-28 GM Global Technology Operations LLC Selective noise suppression during automatic speech recognition

Also Published As

Publication number Publication date
CN105741836A (zh) 2016-07-06
US20160189715A1 (en) 2016-06-30
JP2016126330A (ja) 2016-07-11
US9966077B2 (en) 2018-05-08
JP6754184B2 (ja) 2020-09-09

Similar Documents

Publication Publication Date Title
CN105741836B (zh) 声音识别装置以及声音识别方法
US11250843B2 (en) Speech recognition method and speech recognition device
US9767795B2 (en) Speech recognition processing device, speech recognition processing method and display device
US9779730B2 (en) Method and apparatus for speech recognition and generation of speech recognition engine
KR101622111B1 (ko) 대화 시스템 및 그의 대화 방법
US20170084274A1 (en) Dialog management apparatus and method
CN108630231B (zh) 信息处理装置、感情识别方法以及存储介质
US11393459B2 (en) Method and apparatus for recognizing a voice
US10553206B2 (en) Voice keyword detection apparatus and voice keyword detection method
EP3210205A1 (en) Sound sample verification for generating sound detection model
US9595261B2 (en) Pattern recognition device, pattern recognition method, and computer program product
KR20210155401A (ko) 인공 지능을 이용하여, 합성 음성의 품질을 평가하는 음성 합성 장치 및 그의 동작 방법
CN112002349B (zh) 一种语音端点检测方法及装置
KR20150145024A (ko) 화자적응 음성인식 시스템의 단말 및 서버와 그 운용 방법
CN110998719A (zh) 信息处理设备和信息处理方法
US11823669B2 (en) Information processing apparatus and information processing method
KR20200082137A (ko) 전자 장치 및 그의 제어 방법
US11587571B2 (en) Electronic apparatus and control method thereof
KR101840363B1 (ko) 오류 발음 검출을 위한 단말 및 음성 인식 장치, 그리고 그의 음향 모델 학습 방법
US11961510B2 (en) Information processing apparatus, keyword detecting apparatus, and information processing method
JP2018169745A (ja) 物体認証装置および物体認証方法
US20230117535A1 (en) Method and system for device feature analysis to improve user experience
EP1096462A2 (en) Language learning
CN111105813B (zh) 朗读评分方法、装置、设备及可读存储介质
US20230386508A1 (en) Information processing apparatus, information processing method, and non-transitory recording medium

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant