WO2019207912A1 - Information processing device and information processing method - Google Patents

Information processing device and information processing method Download PDF

Info

Publication number
WO2019207912A1
WO2019207912A1 PCT/JP2019/005286 JP2019005286W WO2019207912A1 WO 2019207912 A1 WO2019207912 A1 WO 2019207912A1 JP 2019005286 W JP2019005286 W JP 2019005286W WO 2019207912 A1 WO2019207912 A1 WO 2019207912A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound source
information processing
sound
unit
processing apparatus
Prior art date
Application number
PCT/JP2019/005286
Other languages
French (fr)
Japanese (ja)
Inventor
康治 浅野
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Publication of WO2019207912A1 publication Critical patent/WO2019207912A1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones

Abstract

The present invention provides an information processing device and an information processing method capable of distinguishing a speech spoken by a user from sounds other than the speech (disruptive sounds). The information processing device comprises a processing unit that processes the history information for a sound source position that is estimated from a sound signal collected by a plurality of microphones for each time frame, and a determination unit for determining a sound source that should be suppressed on the basis of the history information for each sound source position. The determination unit determines a sound source with a sound that lasts for a long period of time and a smaller fluctuation in the estimated position as the sound source that should be suppressed on the basis of the distribution of time frames in which the sound source is present and the spatial distribution of the sound source which are estimated on the basis of the history information.

Description

情報処理装置及び情報処理方法Information processing apparatus and information processing method
 本明細書で開示する技術は、ユーザからの音声入力を扱う情報処理装置及び情報処理方法に関する。 The technology disclosed in this specification relates to an information processing apparatus and an information processing method that handle voice input from a user.
 ユーザからの音声入力を扱う機器としては、音声通話機器をはじめ多数存在する。最近では、ユーザが話しかけると適切な応答を返す音声エージェントなどのさまざまな機器が開発され、発表、発売されてきている。 There are many devices that handle voice input from users, including voice call devices. Recently, various devices such as a voice agent that returns an appropriate response when a user speaks have been developed, announced and released.
 この種の機器においては、ユーザの音声による機器操作命令と、それ以外の音(妨害音)を区別して、前者だけに適切に反応する必要がある。ユーザの特定の音声を識別する性能が低いと、妨害音のせいで本来のユーザ発話を聞き取れない、妨害音によって機器が意図しない誤動作する、といった問題が発生する。 In this kind of equipment, it is necessary to distinguish the device operation command by the user's voice from other sounds (interfering sound) and react appropriately only to the former. If the performance of identifying a user's specific voice is low, problems such as the inability to hear the original user utterance due to the disturbing sound and the malfunction of the device due to the disturbing sound occur.
 例えば、機器のマイクで収音する音の中から、人間の声に近い特徴を持つ時間区間のみを切り出して機器が受け付ける発話区間検出技術について提案がなされている(例えば、特許文献1を参照のこと)。また、ユーザが機器操作命令を話し掛ける前に、事前に決められている「起動ワード」などの特定のフレーズを発話し、機器をユーザ発話待ち受けモードにしてから発話を受け付ける起動ワード技術についても提案がなされている(例えば、特許文献2を参照のこと)。起動ワードには、日常生活ではほぼ出現しないフレーズを用いることが望ましい。これら発話区間検出技術並びに起動ワード技術は、いずれも、マイクで収音される音の中で、ユーザの機器操作命令として適切であると思われる時間区間のみを機器操作の対象とし、それ以外の時間区間を対象外とすることによって、主として機器の誤動作を防ぐための技術ということができる。 For example, an utterance interval detection technique that a device captures only a time interval having characteristics similar to a human voice from sounds collected by a microphone of the device and is accepted by the device has been proposed (for example, see Patent Document 1). thing). There is also a proposal for activation word technology that speaks a specific phrase such as a predetermined “activation word” before the user speaks the device operation command, and accepts the utterance after placing the device in the user utterance standby mode. (For example, see Patent Document 2). It is desirable to use a phrase that hardly appears in daily life as the activation word. Both of these utterance interval detection technologies and activation word technologies are for device operation only during the time interval that seems to be appropriate as the user's device operation command among the sounds collected by the microphone. By excluding the time interval, it can be said that the technique is mainly for preventing malfunction of the device.
 一方、時間区間による制約ではなく、音源の空間分布によって処理対象となる音を限定するという技術もある。例えば、複数のマイクに到達する音波の位相差を利用して音源分離して、適切な方向から到来する音声を強調・抑圧するについて提案がなされている(例えば、特許文献3を参照のこと)。 On the other hand, there is also a technique of limiting the sound to be processed by the spatial distribution of the sound source instead of the restriction by the time interval. For example, a proposal has been made to emphasize and suppress sound coming from an appropriate direction by separating sound sources using phase differences of sound waves that reach a plurality of microphones (see, for example, Patent Document 3). .
特開2018-40982号公報JP2018-40982A 特開2016-218852号公報Japanese Unexamined Patent Publication No. 2016-218852 特表2008-542798号公報Special table 2008-542798 gazette 特表2012-512413号公報Special table 2012-512413 gazette
 本明細書で開示する技術の目的は、ユーザからの音声入力を扱う情報処理装置及び情報処理方法を提供することにある。 An object of the technology disclosed in this specification is to provide an information processing apparatus and an information processing method that handle voice input from a user.
 本明細書で開示する技術の第1の側面は、
 時間フレーム毎に複数のマイクから集音される音声信号から推定される音源位置の履歴情報を処理する処理部と、
 各音源位置の履歴情報に基づいて、抑圧すべき音源を決定する決定部と、
を具備する情報処理装置である。
The first aspect of the technology disclosed in this specification is:
A processing unit for processing history information of sound source positions estimated from audio signals collected from a plurality of microphones for each time frame;
A determination unit that determines a sound source to be suppressed based on history information of each sound source position;
Is an information processing apparatus.
 前記決定部は、前記履歴情報に基づいて推定される、音源が存在する時間区間の分布と空間分布に基づいて、音の継続時間が長い音源を抑圧すべき音源、若しくは、音の継続時間が長く且つ推定される位置の変動が小さい音源を抑圧すべき音源として決定する。 The determination unit is configured to suppress a sound source that has a long sound duration or a sound duration time based on a distribution and a spatial distribution of a time interval in which the sound source exists, which is estimated based on the history information. A sound source that is long and has a small estimated position variation is determined as a sound source to be suppressed.
 また、前記情報処理装置は、前記抑圧するべき音源からの音信号を抑圧するように、前記複数のマイクにおけるビームフォームのパラメータを調整するビームフォーム部と、前記ビームフォーム部で作成された音データの中から人間の音声らしい区間を切り出す音声区間検出部と、前記音声区間検出部で切り出された区間の発話をテキスト化する音声認識部と、前記音声認識部がテキスト化したユーザの発話を解析して、ユーザが要求している動作及びその動作要求を実現するためのパラメータを抽出する意味解析部と、前記動作要求及びパラメータに基づいて、ユーザの動作要求を満たす応答を生成する応答生成部をさらに備える。 The information processing apparatus includes: a beamform unit that adjusts beamform parameters in the plurality of microphones so as to suppress a sound signal from the sound source to be suppressed; and sound data generated by the beamform unit A speech section detection unit that cuts out a section that seems to be human speech from the above, a speech recognition unit that converts the speech of the section extracted by the speech section detection unit into text, and analyzes the user's speech that the speech recognition unit converts into text A semantic analysis unit that extracts an operation requested by the user and a parameter for realizing the operation request, and a response generation unit that generates a response that satisfies the operation request of the user based on the operation request and the parameter. Is further provided.
 また、本明細書で開示する技術の第2の側面は、
 時間フレーム毎に複数のマイクから集音される音声信号から推定される音源位置の履歴情報を処理する処理ステップと、
 各音源位置の履歴情報に基づいて、抑圧すべき音源を決定する決定ステップと、
を有する情報処理方法である。
In addition, the second aspect of the technology disclosed in this specification is:
Processing steps for processing history information of sound source positions estimated from audio signals collected from a plurality of microphones for each time frame;
A determination step for determining a sound source to be suppressed based on history information of each sound source position;
Is an information processing method.
 本明細書で開示する技術によれば、ユーザが発話する音声をそれ以外の音(妨害音)から区別することができる情報処理装置及び情報処理方法を提供することができる。 According to the technology disclosed in the present specification, it is possible to provide an information processing apparatus and an information processing method that can distinguish a voice uttered by a user from other sounds (interfering sounds).
 なお、本明細書に記載された効果は、あくまでも例示であり、本発明の効果はこれに限定されるものではない。また、本発明が、上記の効果以外に、さらに付加的な効果を奏する場合もある。 In addition, the effect described in this specification is an illustration to the last, and the effect of this invention is not limited to this. In addition to the above effects, the present invention may have additional effects.
 本明細書で開示する技術のさらに他の目的、特徴や利点は、後述する実施形態や添付する図面に基づくより詳細な説明によって明らかになるであろう。 Other objects, features, and advantages of the technology disclosed in the present specification will become apparent from a more detailed description based on embodiments to be described later and the accompanying drawings.
図1は、情報処理装置100の構成例を示した図である。FIG. 1 is a diagram illustrating a configuration example of the information processing apparatus 100. 図2は、情報処理装置100上で実行される処理手順を示したフローチャートである。FIG. 2 is a flowchart showing a processing procedure executed on the information processing apparatus 100. 図3は、音源位置履歴保存部107で保存する各音源位置の時間変化の一例をグラフの形式で示した図である。FIG. 3 is a diagram showing an example of a temporal change of each sound source position stored in the sound source position history storage unit 107 in the form of a graph. 図4は、図3に示す音源位置の記録が得られた際の各音源並びに情報処理装置100を真上から見た配置図である。FIG. 4 is a layout view of the sound sources and the information processing apparatus 100 viewed from directly above when the recording of the sound source positions shown in FIG. 3 is obtained. 図5は、音源位置履歴保存部107で保存する各音源位置の履歴情報の一例を表形式で示した図である。FIG. 5 is a diagram showing an example of history information of each sound source position stored in the sound source position history storage unit 107 in a table format. 図6は、音源位置履歴保存部107で保存する各音源位置の時間変化の他の例をグラフの形式で示した図である。FIG. 6 is a diagram showing another example of the temporal change of each sound source position stored in the sound source position history storage unit 107 in the form of a graph. 図7は、現在時刻における音源の位置情報と過去の音源位置に基づいてビームフォームのパラメータを作成するための処理手順を示したフローチャートである。FIG. 7 is a flowchart showing a processing procedure for creating beamform parameters based on the position information of the sound source at the current time and the past sound source position. 図8は、妨害音を抑圧するとともにユーザの発話に応答するための機能モジュールの一部をクラウド上で実行する情報装置800の構成例を示した図である。FIG. 8 is a diagram illustrating a configuration example of an information device 800 that executes a part of functional modules for suppressing interference sound and responding to a user's utterance on the cloud. 図9は、妨害音を抑圧するとともにユーザの発話に応答するための機能モジュールの一部をクラウド上で実行する他の情報処理装置900の構成例を示した図である。FIG. 9 is a diagram illustrating a configuration example of another information processing apparatus 900 that executes a part of a functional module for suppressing interference sound and responding to a user's utterance on the cloud. 図10は、情報処理装置900とクラウド901間のデータのやり取りを模式的に示した図である。FIG. 10 is a diagram schematically illustrating data exchange between the information processing apparatus 900 and the cloud 901.
 以下、図面を参照しながら本明細書で開示する技術の実施形態について詳細に説明する。 Hereinafter, embodiments of the technology disclosed in this specification will be described in detail with reference to the drawings.
 上述したように、ユーザの音声による機器操作命令を、それ以外の音(妨害音)と区別する技術として、時間空間を限定する技術と、空間分布を利用する技術の2種類を挙げることができる。 As described above, as a technique for distinguishing a device operation command by a user's voice from other sounds (interfering sounds), there are two types of techniques: a technique for limiting time space and a technique using a spatial distribution. .
 時間空間を限定する技術のうち、起動ワードを利用する技術の場合、ユーザは操作命令を発話する度に、その直前に起動ワードを起動しなければならず、操作が煩わしい。また、機器を一旦ユーザ発話待ち受けモードにすると、その間の妨害音の侵入に対しては無力である。また、人間の声に近い特徴を持つ時間区間を検出する技術の場合、テレビやスピーカーなどから出力されるユーザ以外の人間の声を除外することは困難である。 Among technologies that limit the time space, in the case of a technology that uses an activation word, every time the user utters an operation command, the user must activate the activation word immediately before, and the operation is troublesome. Further, once the device is set to the user utterance standby mode, it is ineffective against the intrusion of interfering sound during that time. Further, in the case of a technique for detecting a time interval having characteristics close to human voice, it is difficult to exclude human voices other than users output from a television or a speaker.
 一方、空間分布を利用する技術の場合、発話者の方向が事前に分かっている必要があり、発話者の方向に関する情報をどのようにして取得するかが問題である。例えば、画像を利用して発話者の方向を特定する方法を利用する場合には、カメラなどの画像処理を行う必要がある。また、マイクから集音する音声だけから発話者の方向を特定しようとすると、発話するユーザが自由に移動できる状況では、ユーザの発話開始前にはユーザの位置は分からないので、ユーザが発話を開始した後にパラメータを調整して収音すべき方向(発話者の方向)を調整することになり、応答を返すタイミングが遅れたり、ユーザの発話開始時と終了時とで音声特徴が変化してしまい、音声認識精度に悪影響を及ぼしたりする、といった問題がある。 On the other hand, in the case of a technique using spatial distribution, it is necessary to know the direction of the speaker in advance, and how to obtain information on the direction of the speaker is a problem. For example, when using a method of specifying the direction of a speaker using an image, it is necessary to perform image processing such as a camera. In addition, when trying to determine the direction of the speaker from only the sound collected from the microphone, in the situation where the speaking user can move freely, the user's position is unknown before the user starts speaking, so the user speaks. After starting, the parameters will be adjusted to adjust the direction (speaker direction) to collect sound, the response return timing will be delayed, and the voice characteristics will change between the start and end of the user's utterance Therefore, there is a problem that the voice recognition accuracy is adversely affected.
 そこで、本明細書では、操作命令となるユーザの発話を受け付ける部屋などで利用される据置型の機器を対象として、音源が存在する時間区間の分布と空間分布の両方を利用して、ユーザが発話する音声をそれ以外の音(妨害音)から区別する技術について提案する。妨害音にはテレビやスピーカーなどから出力されるユーザ以外の人間の声も含まれ、発話区間検出技術で取り除くことは困難であるが、本明細書で開示する技術によれば、テレビやスピーカーなどの音声を抑圧して、ユーザが発話する音声を区別することができる。 Therefore, in this specification, for a stationary device used in a room or the like that receives a user's utterance as an operation command, the user uses both the time interval distribution and the spatial distribution in which the sound source exists. We propose a technique for distinguishing speech from other sounds (interfering sounds). Interfering sounds include human voices other than users that are output from televisions and speakers, etc., and it is difficult to remove them using the speech segment detection technology, but according to the technology disclosed in this specification, televisions and speakers, etc. Can be distinguished from each other by the user.
 具体的には、本明細書で開示する技術は、テレビやスピーカーから出力される音声には、以下の(1)及び(2)に記述するような、時間的並びに空間的な偏りがあることを利用して、ユーザが発話する音声を区別するものである。 Specifically, in the technology disclosed in this specification, sound output from a television or a speaker has a temporal and spatial bias as described in (1) and (2) below. Is used to distinguish the voice uttered by the user.
(1)ユーザのコマンド発話は、時間軸上で間欠的に発生して、長時間連続することは少ない。これに対してテレビやスピーカーからの出力は、コンテンツを再生する間は比較的長い時間、音が連続して存在する傾向がある。 (1) User command utterances occur intermittently on the time axis and rarely continue for a long time. On the other hand, the output from a television or a speaker tends to have a continuous sound for a relatively long time during the reproduction of the content.
(2)ユーザは移動し、言い換えれば、発話位置が移動する。これに対して、テレビやスピーカーは据置で利用されるので、音源位置が移動しない。したがって、後者から入力される音声は、複数マイクを利用して音源位置を推定した場合の音源の推定位置の変動が少ない。 (2) The user moves, in other words, the utterance position moves. On the other hand, since the television and the speaker are used stationary, the sound source position does not move. Therefore, the voice input from the latter has little variation in the estimated position of the sound source when the sound source position is estimated using a plurality of microphones.
 本明細書で開示する技術によれば、据置のテレビやスピーカーから出力される人間の音声を、機器操作を行うためのユーザ発話と誤認識して誤動作することを抑制することが可能となる。また、本明細書で開示する技術を、発話区間検出技術や起動ワード技術といった時間区間を限定してユーザの発話を区別する技術と組み合わせることができ、より効果を高めることが可能である。 According to the technology disclosed in the present specification, it is possible to suppress erroneous operation by erroneously recognizing human voice output from a stationary television or speaker as a user utterance for device operation. Moreover, the technique disclosed in this specification can be combined with a technique for distinguishing a user's utterance by limiting a time interval such as an utterance interval detection technique or an activation word technique, and the effect can be further enhanced.
 図1には、本明細書で開示する技術を適用した、ユーザからの音声入力を扱う情報処理装置100の構成例を示している。図示の情報処理装置100は、複数マイク101と、AD変換部102と、音源位置推定部103と、記録音源選択部104と、話者識別部105と、音源統計情報処理部106と、音源位置履歴保存部107と、移動検出部108と、ビームフォーム部109と、抑圧効果調整部110と、音声区間検出部111と、音声認識部112と、意味解析部113と、応答生成部114と、サービス提供部115と、スピーカー116を備えている。 FIG. 1 shows a configuration example of an information processing apparatus 100 that handles voice input from a user to which the technology disclosed in this specification is applied. The illustrated information processing apparatus 100 includes a plurality of microphones 101, an AD conversion unit 102, a sound source position estimation unit 103, a recorded sound source selection unit 104, a speaker identification unit 105, a sound source statistical information processing unit 106, and a sound source position. A history storage unit 107, a movement detection unit 108, a beamform unit 109, a suppression effect adjustment unit 110, a speech section detection unit 111, a speech recognition unit 112, a semantic analysis unit 113, a response generation unit 114, A service providing unit 115 and a speaker 116 are provided.
 複数マイク101には、ユーザの発話を始め、部屋内に据え置かれたテレビやスピーカーなどから発される妨害音も入力される。複数マイク101を構成する個々のマイクの位置を調整した上で設置される。 In the plurality of microphones 101, a user's utterance and disturbing sounds emitted from a television set or a speaker installed in the room are also input. It is installed after adjusting the positions of the individual microphones constituting the plurality of microphones 101.
 AD変換部102は、複数マイク101を構成する各マイクで集音された音声信号を、同期をとりながら標本化及び量子化を行って、デジタル信号に変換する。 The AD converter 102 samples and quantizes the audio signals collected by the microphones constituting the plurality of microphones 101 while synchronizing them, and converts them into digital signals.
 音源位置推定部103は、複数マイク101による集音から得られた音データを分析して、複数のマイクペア毎に音源方向推定を行い、それを組み合わせて音源の位置を推定する。同時に、音源位置推定部103は、それぞれの音源からの音声波形を分離して、音源統計情報処理部106と記録音源選択部104に提供する。 The sound source position estimation unit 103 analyzes sound data obtained from sound collection by the plurality of microphones 101, performs sound source direction estimation for each of a plurality of microphone pairs, and estimates the position of the sound source by combining the sound source directions. At the same time, the sound source position estimating unit 103 separates the sound waveform from each sound source and provides it to the sound source statistical information processing unit 106 and the recorded sound source selecting unit 104.
 記録音源選択部104は、音源位置推定部103から得られる音声波形から各音源のパワーを計算し、閾値以上の音源の位置情報を時刻情報とともに話者識別部105に送る。 The recorded sound source selection unit 104 calculates the power of each sound source from the speech waveform obtained from the sound source position estimation unit 103, and sends the position information of the sound source equal to or greater than the threshold to the speaker identification unit 105 together with time information.
 話者識別部105は、個々の音源が人の声を含む場合に、あらかじめ登録してあるユーザの声と照合して、そのユーザの声であるか、若しくは登録されていないかを識別して、音源位置履歴保存部107に記録する。例えば、話者識別部105は、声を識別したユーザ毎に話者IDを割り振り、あらかじめ登録してあるユーザの声と照合できたときには、話者IDを付けて音源の位置情報を出力する。また、話者識別部105は、話者を識別できなかったときには、話者IDに代えて、識別できなかったことを示す「Unkonwn」を付けて音源の位置情報を出力する。 When each sound source includes a human voice, the speaker identification unit 105 compares the voice of the user registered in advance to identify whether the voice is the user or not registered. The sound source position history storage unit 107 records the result. For example, the speaker identification unit 105 assigns a speaker ID to each user who has identified a voice, and outputs the position information of the sound source with the speaker ID when the user ID can be collated with a user's voice registered in advance. When the speaker identification unit 105 cannot identify the speaker, the speaker identification unit 105 outputs the position information of the sound source with “Unkonwn” indicating that the speaker could not be identified instead of the speaker ID.
 音源統計情報処理部106は、音源位置推定部103から供給される現在時刻における音源の位置情報と、音源位置履歴保存部107に保存されている過去の音源位置に関する情報から、抑圧するべき音源を決定して、その音源位置の情報をビームフォーム部109に送る。 The sound source statistical information processing unit 106 determines a sound source to be suppressed from the position information of the sound source at the current time supplied from the sound source position estimation unit 103 and the information on the past sound source position stored in the sound source position history storage unit 107. The information of the sound source position is sent to the beamform unit 109.
 音源位置履歴保存部107は、音源位置推定部103において推定された各時刻の音源位置を保持する。音源位置履歴保存部107で保持する情報の詳細に関しては後述する。 The sound source position history storage unit 107 holds the sound source position at each time estimated by the sound source position estimation unit 103. Details of the information stored in the sound source position history storage unit 107 will be described later.
 移動検出部108は、例えば情報処理装置100本体に内蔵された加速度センサーや慣性計測装置(Inertial Measurement Unit:IMU)、底面に設置された接触センサーなどで構成され、情報処理装置100本体の移動を検出する。そして、情報処理装置100本体が移動したことを検知すると、音源位置履歴保存部107に通知する。 The movement detection unit 108 includes, for example, an acceleration sensor or an inertial measurement unit (Internal Measurement Unit: IMU) built in the main body of the information processing apparatus 100, a contact sensor installed on the bottom surface, and the like. To detect. When it is detected that the main body of the information processing apparatus 100 has moved, the sound source position history storage unit 107 is notified.
 ビームフォーム部109は、複数マイク101におけるビームフォームのパラメータの調整を行う。具体的には、ビームフォーム部109は、音源統計情報処理部106で計算された抑圧するべき音源の位置に関する情報から、該当する位置にある音源からの音信号を抑圧するように、複数マイク101を構成するマイクロフォンアレーのパラメータを調整する。そして、ビームフォーム部109は、調整されたパラメータを用いて、マイクロフォンアレーから合成させる音データを音声区間検出部111に送る。 The beamform unit 109 adjusts beamform parameters in the plurality of microphones 101. Specifically, the beam form unit 109 uses the information on the position of the sound source to be suppressed calculated by the sound source statistical information processing unit 106 so as to suppress the sound signal from the sound source at the corresponding position. Adjust the parameters of the microphone array that composes. Then, the beam form unit 109 sends the sound data to be synthesized from the microphone array to the speech section detection unit 111 using the adjusted parameters.
 抑圧効果調整部110は、抑圧効果が強過ぎることの副作用として、ユーザの機器操作発話を受け入れらない場合にユーザが抑圧効果を手動で調整するために配設されたものであり、例えばスイッチやつまみなどの機械的な操作子で構成される。 The suppression effect adjustment unit 110 is arranged for the user to manually adjust the suppression effect when the user does not accept the device operation utterance as a side effect of the suppression effect being too strong. Consists of mechanical controls such as knobs.
 音声区間検出部111は、ビームフォーム部109で作成された音データの中から、人間の音声らしい区間を検出して、音声認識の対象とする音データを切り出す。 The speech section detection unit 111 detects a section that seems to be human speech from the sound data created by the beamform unit 109, and cuts out sound data to be subjected to speech recognition.
 音声認識部112は、音声区間検出部111で切り出された音声データを入力として、その発話をテキスト化する。 The voice recognition unit 112 inputs the voice data cut out by the voice section detection unit 111 and converts the speech into text.
 意味解析部113は、音声認識部112でテキスト化されたユーザの発話を解析して、どのような動作を要求しているかを決定するとともに、その実現に必要となるパラメータを抽出する。例えば、「横浜の天気を教えて」という発話に対しては、動作要求は「天気予報の確認」、必要なパラメータは「横浜」である。 The semantic analysis unit 113 analyzes the user's utterance converted into text by the voice recognition unit 112, determines what kind of operation is requested, and extracts parameters necessary for the realization. For example, for the utterance “Tell me about the weather in Yokohama”, the operation request is “Confirm weather forecast” and the necessary parameter is “Yokohama”.
 応答生成部114は、意味解析部113で得られた動作要求とパラメータから、必要に応じてサービス提供部115と連動して、ユーザの動作要求を満たす応答を生成し、音声合成を利用して音声を合成し、スピーカー116から出力する。但し、応答生成部114は、音声ではなく(若しくは、音声とともに)、ユーザの動作要求を満たす応答を画面に出力するようにしてもよい。 The response generation unit 114 generates a response that satisfies the user's operation request from the operation request and parameters obtained by the semantic analysis unit 113 in cooperation with the service providing unit 115 as necessary, and uses speech synthesis. Audio is synthesized and output from the speaker 116. However, the response generation unit 114 may output a response satisfying the user's operation request on the screen instead of the voice (or along with the voice).
 サービス提供部115は、応答生成を行うために必要な情報提供を行う。例えば「天気予報の確認」というサービスを行うのであれば、サービス提供部115は、日時情報と場所情報を付随する形でAPI(Application Programming Interface)を呼ぶことによって、該当地域の該当日時の天気予報を取得してサービスを提供する。 The service providing unit 115 provides information necessary for generating a response. For example, if a service called “check weather forecast” is to be performed, the service providing unit 115 calls an API (Application Programming Interface) with date information and location information attached to the weather forecast for the relevant date and time in the relevant area. Get the service.
 図1に示す情報処理装置100は、例えばパーソナルコンピュータやスマートフォンなどのユーザとの対話機能を持つ(若しくは、対話アプリケーションを実行する)情報端末、音声エージェント、対話機能を装備するペット型ロボットなどである。 An information processing apparatus 100 illustrated in FIG. 1 is, for example, an information terminal having a dialog function with a user such as a personal computer or a smartphone (or executing a dialog application), a voice agent, a pet robot equipped with a dialog function, and the like. .
 なお、図1中で、点線で囲まれた機能モジュールの一部又は全部を、情報処理装置100内ではなく、情報処理装置100の外部で実現することも可能である。例えば、複数マイク101から入力信号をクラウドに送信し、点線で囲まれた機能モジュールの処理をクラウド上で実行し、その処理結果をクラウドから受信して、スピーカー116から音声出力するようにしてもよい。 In FIG. 1, some or all of the functional modules surrounded by a dotted line can be realized outside the information processing apparatus 100 instead of inside the information processing apparatus 100. For example, an input signal may be transmitted from the plurality of microphones 101 to the cloud, the processing of the functional module surrounded by a dotted line may be executed on the cloud, and the processing result may be received from the cloud and output from the speaker 116 as sound. Good.
 図2には、図1に示した情報処理装置100上で実行される処理手順をフローチャートの形式で示している。 FIG. 2 shows a processing procedure executed on the information processing apparatus 100 shown in FIG. 1 in the form of a flowchart.
 装置の電源が投入されると(ステップS201のNo)、電源がオフになるまで(ステップS201のYes)、この処理は一定のインターバル(これを時刻フレームと呼ぶ)を以って(ステップS210)、繰り返し実行される。 When the apparatus is turned on (No in step S201), this process takes a certain interval (this is called a time frame) until the power is turned off (Yes in step S201) (step S210). Is executed repeatedly.
 まず、移動検出部108が検出した情報に基づいて、当該情報処理装置100が移動したかどうかを判定する(ステップS202)。そして、当該情報処理装置100が移動した場合には(ステップS202のYes)、音源位置履歴保存部107が保持している音源位置の記録をクリアする(ステップS203)。これは、当該情報処理装置100が移動すると、妨害音の音源である据え置きのテレビやスピーカーとの位置関係が変わってしまうので、これまでに蓄積している音源位置記録が利用できなくなるからである。 First, it is determined whether or not the information processing apparatus 100 has moved based on the information detected by the movement detection unit 108 (step S202). If the information processing apparatus 100 has moved (Yes in step S202), the recording of the sound source position held by the sound source position history storage unit 107 is cleared (step S203). This is because if the information processing apparatus 100 moves, the positional relationship with the stationary television or speaker that is the sound source of the interfering sound changes, so that the sound source position record accumulated so far cannot be used. .
 次いで、複数マイク101に入力される音データ(若しくは、AD変換部102でAD変換したデジタル信号)を利用して、音声位置推定部103が音源分離を行い、音源の位置を推定する(ステップS204)。複数マイク101を用いた音源分離の手法として、ビームフォーミング技術など、既に定式化されているものが存在する。 Next, the sound position estimation unit 103 performs sound source separation using the sound data input to the plurality of microphones 101 (or the digital signal AD-converted by the AD conversion unit 102), and estimates the position of the sound source (step S204). ). As a method of sound source separation using a plurality of microphones 101, there are already formulated methods such as a beam forming technique.
 次いで、記録音源選択部104は、音源位置推定部103によって分離された各音源の音データに対して、静的にあるいは動的に定められた閾値以上のパワーのある音源があるかを計算する(ステップS205)。 Next, the recording sound source selection unit 104 calculates whether there is a sound source having a power equal to or higher than a threshold value determined statically or dynamically for the sound data of each sound source separated by the sound source position estimation unit 103. (Step S205).
 ここで言う閾値は、静的に定められたものであっても、動的に定められたものであってもよい。静的な閾値とは、あらかじめ機器の設計情報として決められている一定値である。これに対し、動的な閾値とは、例えば周囲の背景音のレベルなどを考慮して動的に変更される閾値であり、周囲の背景雑音レベルが高いと閾値も高くなる。 The threshold value referred to here may be determined statically or dynamically. The static threshold value is a constant value determined in advance as device design information. On the other hand, the dynamic threshold is a threshold that is dynamically changed in consideration of, for example, the level of the surrounding background sound, and the threshold increases when the surrounding background noise level is high.
 ここで、閾値以上のパワーのある音源が存在する場合には(ステップS205のYes)、さらに話者識別部105では、個々の音源が人の声を含む場合に、あらかじめ登録してあるユーザの声と照合して、そのユーザの声であるか、若しくは登録されていないかを識別する(ステップS206)。そして、その時刻情報、位置情報、さらに人間の声を含む場合は話者識別情報を、音源位置履歴保存部107に記録する(ステップS207)。 Here, when there is a sound source having a power equal to or higher than the threshold (Yes in step S205), the speaker identification unit 105 further selects a user's registered user name when each sound source includes a human voice. By comparing with the voice, it is identified whether it is the voice of the user or not registered (step S206). Then, the time information, position information, and speaker identification information when a human voice is included are recorded in the sound source position history storage unit 107 (step S207).
 次いで、音源統計情報処理部106では、音源位置履歴保存部107に記録されているこれまでの時刻における音源位置と、音源位置推定部103から与えられる現在の音源の位置情報から、音源の対応関係を推定して、抑圧すべき音源を特定する(ステップS208)。抑圧すべき音源を特定する方法の詳細については、後述する。 Next, the sound source statistical information processing unit 106 uses the sound source position at the previous time recorded in the sound source position history storage unit 107 and the current sound source position information given from the sound source position estimation unit 103 to correspond to the sound source. And a sound source to be suppressed is specified (step S208). Details of the method for identifying the sound source to be suppressed will be described later.
 そして、ビームフォーム部109では、抑圧するべき音源の位置情報から、この方向を抑圧するようにビームフォームのパラメータを計算し、更新する(ステップS209)。 Then, the beamform unit 109 calculates and updates the beamform parameters so as to suppress this direction from the position information of the sound source to be suppressed (step S209).
 図2に示した処理手順では、一定時間毎にビームフォーム部109でビームフォームのパラメータを更新するようになっている。ここで、ユーザの発話中にビームフォームのパラメータを更新すると、音声認識に利用する波形に不要な歪が発生する可能性がある。そこで、ユーザが発話中、すなわち音声区間検出部111が音声区間を検出している間は、ビームフォームのパラメータの更新を行わないようにすることもできる。 In the processing procedure shown in FIG. 2, the beamform parameters are updated by the beamform unit 109 at regular intervals. Here, if the beamform parameters are updated during the user's utterance, unnecessary distortion may occur in the waveform used for speech recognition. Therefore, it is possible to prevent the beamform parameters from being updated while the user is speaking, that is, while the speech segment detection unit 111 detects a speech segment.
 図3には、音源位置履歴保存部107で保存する各音源位置の時間変化の一例をグラフの形式で示している。同図に示すグラフにおいて、音源位置を情報処理装置100(若しくは、複数マイク101)からの音源の方向θで表し、情報処理装置100(若しくは、複数マイク101)の正面を0度とし、左右に±90度ずつを縦軸にとっている。また、横軸に時間をとっている。 FIG. 3 shows an example of the temporal change of each sound source position stored in the sound source position history storage unit 107 in the form of a graph. In the graph shown in the figure, the sound source position is represented by the direction θ of the sound source from the information processing apparatus 100 (or the plurality of microphones 101), the front of the information processing apparatus 100 (or the plurality of microphones 101) is 0 degrees, and left and right ± 90 degrees is set on the vertical axis. In addition, time is taken on the horizontal axis.
 参照番号301~304で示す音源は、話者識別部105により同一の話者(以下、「ユーザ1」とする)の音声であると識別された音源である。人間の発話は、時間軸上で間欠的に発生して、長時間連続することは少ない、という性質から(前述)、音源301~304は、その音源位置履歴情報に基づいて、テレビやスピーカーなどの音響機器ではなく、自然人(ユーザ1)の音声情報であると推定することができる。 The sound sources indicated by reference numbers 301 to 304 are sound sources identified by the speaker identifying unit 105 as being the voice of the same speaker (hereinafter referred to as “user 1”). Due to the nature that human utterances occur intermittently on the time axis and rarely continue for a long time (as described above), the sound sources 301 to 304 are based on the sound source position history information, such as televisions and speakers. It can be estimated that the sound information is not a sound device but a natural person (user 1).
 また、参照番号311及び312で示す音源は、話者識別部105により同一の話者(以下、「ユーザ2」とする)の音声であると識別された音源である。各音源311及び312の音声は、時間軸上で間欠的に発生して、長時間連続することは少ないという音源位置履歴情報に基づいて、テレビやスピーカーなどの音響機器ではなく、自然人(ユーザ2)の発話であると推定することができる。また、音源311及び312の位置が移動していることから、テレビやスピーカーなどの据え置きの音響機器ではなく、発話位置が移動する自然人(ユーザ2)の音声情報であると推定することができる。 Further, the sound sources indicated by reference numbers 311 and 312 are sound sources identified by the speaker identifying unit 105 as the voice of the same speaker (hereinafter referred to as “user 2”). The sound of each of the sound sources 311 and 312 is intermittently generated on the time axis and is not a sound device such as a television or a speaker but a natural person (user 2) based on sound source position history information that is rarely continuous for a long time. ) Utterance. In addition, since the positions of the sound sources 311 and 312 are moving, it can be estimated that the sound information is not a stationary acoustic device such as a television or a speaker but the sound information of a natural person (user 2) whose utterance position moves.
 他方、参照番号321及び322で示す音源は、音声波形が相違し、あらかじめ登録されているユーザの声とも照合しないことから、話者識別部105は、同一の話者でも既に登録された話者の声でもないと判定する。また、テレビやスピーカーなどの音響機器から出力されるコンテンツの再生音は比較的長い時間、音が連続して存在する傾向があることや、音響機器が据え置き型であり音源位置が移動しないという性質から、音源321及び322は、その音源位置履歴情報に基づいて、同一の音響機器であると推定することができる。 On the other hand, the sound sources indicated by reference numbers 321 and 322 have different speech waveforms and do not collate with a user's voice registered in advance, so that the speaker identification unit 105 can be a speaker who has already been registered even with the same speaker. It is determined that the voice is not. In addition, the playback sound of content output from audio equipment such as TVs and speakers tends to exist continuously for a relatively long time, or the sound equipment is stationary and the sound source position does not move Therefore, it can be estimated that the sound sources 321 and 322 are the same acoustic device based on the sound source position history information.
 2本以上のマイクからなる複数マイク101で推定できる音源方向角度を利用して、上記のような各音源の推定を行うことができる、という点を十分理解されたい。 It should be fully understood that each sound source can be estimated using the sound source direction angle that can be estimated by a plurality of microphones 101 including two or more microphones.
 図4には、図3に示した音源位置の記録が得られた際の、当該情報処理装置100と、参照番号301~304で示した発話の音源となったユーザ1と、参照番号311及び312で示した発話の音源となったユーザ2と、参照番号321及び322で示した音響の音源となった音響機器を真上から見た配置図を示している。 FIG. 4 shows the information processing apparatus 100 when the recording of the sound source position shown in FIG. 3 is obtained, the user 1 serving as the sound source of the utterance indicated by reference numbers 301 to 304, the reference number 311 and The user 2 who became the sound source of the utterance indicated by 312 and the layout view of the audio equipment which became the sound source of the sound indicated by reference numerals 321 and 322 are viewed from directly above.
 情報処理装置100の正面から+20度の方向に、据え置きのテレビ401が置いてある。また、情報処理装置100の正面から-45度の方向に、ユーザ1がいて、ソファー402に座ってテレビ401を鑑賞している。また、もう一人のユーザ2が、情報処理装置100の正面から+80度の方向に立って移動しており、しばらくたって部屋からいなくなったという状況である。 The stationary television 401 is placed in the direction of +20 degrees from the front of the information processing apparatus 100. Further, the user 1 is in the direction of −45 degrees from the front of the information processing apparatus 100 and is sitting on the sofa 402 and watching the television 401. In addition, another user 2 is standing in the direction of +80 degrees from the front of the information processing apparatus 100, and is no longer in the room after a while.
 改めて図3に示したユーザ1、ユーザ2、及びテレビ401の各音源の音源位置記録について考察する。 Consider the sound source position recording of the sound sources of the user 1, the user 2, and the television 401 shown in FIG.
 テレビ401の方向からの音は、情報処理装置100の正面から+20度の方向から、コンテンツを再生している間中、継続的に音が鳴り続けている。 The sound from the direction of the television 401 continues to sound from the direction of +20 degrees from the front of the information processing apparatus 100 while the content is being reproduced.
 一方、ユーザ1とユーザ2の発話は、コンテンツを再生する音に比べると、1つ1つの継続時間が短く、また、ユーザ2が移動するため発話位置の分散(若しくは、変動)が据置型のテレビ401に比べて大きくなる。 On the other hand, the utterances of the user 1 and the user 2 are shorter in duration than each of the sounds for reproducing the content, and since the user 2 moves, the variance (or fluctuation) of the utterance positions is stationary. It is larger than the TV 401.
 図5には、図3には、音源位置履歴保存部107で保存する各音源位置の履歴情報の一例を表形式で示している。音源位置履歴保存部107は、記録音源選択部104及び話者識別部105を介して、音源位置推定部103が推定した各音源及びその位置情報を入力する度に、音源位置情報(情報処理装置100からの音源の方向θ)及びその音源の音出力開始時刻と音継続時間長を、話者IDと対応付けて保存する。 FIG. 5 shows an example of history information of each sound source position stored in the sound source position history storage unit 107 in FIG. Each time the sound source position history storage unit 107 inputs each sound source and its position information estimated by the sound source position estimation unit 103 via the recording sound source selection unit 104 and the speaker identification unit 105, the sound source position information (information processing device) The sound source direction θ from 100), the sound output start time of the sound source, and the sound duration time are stored in association with the speaker ID.
 音源位置履歴保存部103は、記録音源選択部104及び話者識別部105を介して音源位置の情報が入力されると、図5に示すような表に新しいエントリを作成して、その音源位置を音出力開始時刻とともに記録する。その後、その音源位置の情報入力が終了すると、その音の継続時間長(音源持続時間)をエントリに記録するとともに、話者識別部105から話者IDが出力されたときにはこれも記録する。 When the sound source position information is input via the recording sound source selection unit 104 and the speaker identification unit 105, the sound source position history storage unit 103 creates a new entry in the table as shown in FIG. Is recorded together with the sound output start time. Thereafter, when the information input of the sound source position is completed, the duration of the sound (sound source duration) is recorded in the entry, and when the speaker ID is output from the speaker identification unit 105, it is also recorded.
 また、図6には、音源位置履歴保存部107で保存する各音源位置の時間変化の他の例をグラフの形式で示している。図3に示したグラフと同様に、音源位置を情報処理装置100(若しくは、複数マイク101)からの音源の方向θで表し、情報処理装置100(若しくは、複数マイク101)の正面を0度とし、左右に±90度ずつを縦軸にとり、横軸に時間をとっている。 FIG. 6 shows another example of the temporal change of each sound source position stored in the sound source position history storage unit 107 in the form of a graph. Similar to the graph shown in FIG. 3, the sound source position is represented by the direction θ of the sound source from the information processing apparatus 100 (or the plurality of microphones 101), and the front of the information processing apparatus 100 (or the plurality of microphones 101) is set to 0 degrees. The vertical axis represents ± 90 degrees to the left and right, and the horizontal axis represents time.
 参照番号301~304、311及び312,321及び322で示す音源は、図3に示したグラフと同様なので、ここでは説明を省略する。 The sound sources indicated by reference numerals 301 to 304, 311 and 312, 312, 321 and 322 are the same as the graph shown in FIG.
 参照番号601で示す音源は、長時間継続し、且つ話者識別部105により話者を識別できないことから、自然人の発話ではなく音響機器であると推定することができる。また、音源601の位置は、時間の経過とともに、情報処理装置100の正面から-10度付近の方向から-80度付近の方向に向かって移動していることから、据え置き型ではないと推定することができる。したがって、音源601は、その音源位置履歴情報に基づいて、例えばユーザが携帯する音楽再生機器のような移動型若しくは携行型の音響機器であると推定することができる。 Since the sound source indicated by reference number 601 continues for a long time and the speaker identification unit 105 cannot identify the speaker, it can be estimated that the sound source is not an utterance of a natural person but an acoustic device. Further, since the position of the sound source 601 moves from the front of the information processing apparatus 100 toward the direction near −80 degrees from the front of the information processing apparatus 100 with the passage of time, it is estimated that the position is not a stationary type. be able to. Therefore, based on the sound source position history information, the sound source 601 can be estimated to be a mobile or portable acoustic device such as a music playback device carried by the user.
 なお、図6には示していないが、音源601とともに移動する同一話者の音源が存在する場合には、音源601は、その話者が携帯する音楽再生機器であると推定することができる。 Although not shown in FIG. 6, when there is a sound source of the same speaker moving with the sound source 601, it can be estimated that the sound source 601 is a music playback device carried by the speaker.
 2本以上のマイクからなる複数マイク101で推定できる音源方向角度を利用して、上記のような各音源の推定を行うことができる、という点を十分理解されたい。 It should be fully understood that each sound source can be estimated using the sound source direction angle that can be estimated by a plurality of microphones 101 including two or more microphones.
 本実施形態に係る情報処理装置100では、音源統計情報処理部106は、操作命令を発話するユーザの音声と、テレビやスピーカーなどから出力される妨害音との間で、時間的並びに空間的な偏りがあることを利用して、ユーザが発話する音声を区別する。時間的並びに空間的な偏りに基づいて音源を区別した例を、以下の表1に示しておく。表1に示す例では、継続時間が長い音源は、推定位置の分散(若しくは、変動)の大小に拘わらず、妨害音として抑圧の対象となる。 In the information processing apparatus 100 according to the present embodiment, the sound source statistical information processing unit 106 is temporally and spatially between a user's voice uttering an operation command and a disturbing sound output from a television or a speaker. Using the bias, the voice spoken by the user is distinguished. An example in which sound sources are distinguished based on temporal and spatial bias is shown in Table 1 below. In the example shown in Table 1, a sound source with a long duration is subject to suppression as a disturbing sound regardless of the variance (or fluctuation) of the estimated position.
Figure JPOXMLDOC01-appb-T000001
Figure JPOXMLDOC01-appb-T000001
 本実施形態に係る情報処理装置100によれば、「掃除機」、「ユーザが携帯する音楽再生機器」、「据え置き型の音響機器」などから出力される妨害音を抑圧の対象とすることができ、この結果、音声エージェントなどに対する操作命令を発話するユーザの音声を聴き取り易くなり、妨害音による機器の意図しない誤動作を防止することができる。 According to the information processing apparatus 100 according to the present embodiment, the interference sound output from the “vacuum cleaner”, the “music playback device carried by the user”, the “stationary acoustic device”, or the like is targeted for suppression. As a result, it becomes easy to listen to the voice of the user who speaks the operation command to the voice agent or the like, and it is possible to prevent an unintended malfunction of the device due to the disturbing sound.
 図7には、音源統計情報処理部106が、現在時刻における音源の位置情報と過去の音源位置に基づいてビームフォームのパラメータを作成するための処理手順をフローチャートの形式で示している。図示の処理手順は、図2に示したフローチャート中のステップS208で実行される処理の詳細に相当する。なお、図7中のSi(t)は時刻フレームtにおけるi番目の音源の情報、P(Si(t))はSi(t)の音源位置、|P(Si(t))-P(Sj(t-1))|は2つの音源位置(i番目とj番目の音源位置)間の距離、T(Si(t))はi番目の音源情報Si(t)の時刻フレームtにおけるこれまでの音が鳴り続けている継続時間である。 FIG. 7 is a flowchart showing the processing procedure for the sound source statistical information processing unit 106 to create beamform parameters based on the position information of the sound source at the current time and the past sound source position. The illustrated processing procedure corresponds to the details of the processing executed in step S208 in the flowchart shown in FIG. In FIG. 7, S i (t) is information on the i th sound source in time frame t, P (S i (t)) is the sound source position of S i (t), and | P (S i (t)). −P (S j (t−1)) | is the distance between two sound source positions (i th and j th sound source positions), and T (S i (t)) is the i th sound source information S i (t). This is the duration of the sound that has been played so far in the time frame t.
 まず、音源統計情報処理部106は、現在の時刻フレームtにおける複数の音源のうち、1つの音源情報Si(t)を取得する(ステップS701)。 First, the sound source statistical information processing unit 106 acquires one sound source information S i (t) among a plurality of sound sources in the current time frame t (step S701).
 次いで、音源統計情報処理部106は、音源位置履歴情報保存部107から1つ前の時刻フレームの音源情報を取得し、音源Si(t)との推定位置のずれが所定の閾値ε1以下となる音源Sj(t-1)があるかどうかをチェックする(ステップS703)。 Next, the sound source statistical information processing unit 106 acquires the sound source information of the previous time frame from the sound source position history information storage unit 107, and the deviation of the estimated position from the sound source S i (t) is equal to or less than a predetermined threshold ε 1. It is checked whether or not there is a sound source S j (t−1) (step S703).
 音源Si(t)との推定位置のずれが所定の閾値ε1以下となる音源Sj(t-1)が存在する場合には(ステップS703のYes)、音源統計情報処理部106は、さらにこれら2つの音源Si(t)と音源Sj(t-1)の音響特徴量が類似しているかどうかをチェックする(ステップS704)。 When there is a sound source S j (t−1) whose estimated position shift from the sound source S i (t) is equal to or less than a predetermined threshold ε 1 (Yes in step S703), the sound source statistical information processing unit 106 Further, it is checked whether or not the acoustic features of the two sound sources S i (t) and the sound source S j (t−1) are similar (step S704).
 そして、所定距離ε1以内にある2つの音源Si(t)と音源Sj(t-1)の音響特徴量が類似している場合には(ステップS704のYes)、音源統計情報処理部106は、2つの音源Si(t)と音源Sj(t-1)を同一音源と判定して(ステップS705)、音源Si(t)の継続時間を1時刻フレームだけインクリメント(すなわち、T(Si(t))=T(Sj(t-1))+1)して、音源位置履歴情報保存部107に記録する(S706)。 If the acoustic feature quantities of the two sound sources S i (t) and the sound source S j (t−1) within the predetermined distance ε 1 are similar (Yes in step S704), the sound source statistical information processing unit 106 determines that the two sound sources S i (t) and the sound source S j (t−1) are the same sound source (step S705), and increments the duration of the sound source S i (t) by one time frame (ie, T (S i (t)) = T (S j (t−1)) + 1) is recorded in the sound source position history information storage unit 107 (S706).
 また、音源Si(t)との推定位置のずれが所定の閾値ε1以下となる音源が存在しない場合(ステップS703のNo)、あるいは、所定距離ε1以内にある2つの音源Si(t)と音源Sj(t-1)の音響特徴量が類似していない場合には(ステップS704のNo)、音源統計情報処理部106は、ステップS701で取得した音源Si(t)の継続時間T(Si(t))=1として、音源位置履歴保存部107に記録する(ステップS707)。 Further, when there is no sound source whose estimated position shift from the sound source S i (t) is equal to or smaller than the predetermined threshold value ε 1 (No in step S703), or two sound sources S i (within the predetermined distance ε 1 ( When the acoustic feature quantities of t) and the sound source S j (t−1) are not similar (No in step S704), the sound source statistical information processing unit 106 determines the sound source S i (t) acquired in step S701. The duration T (S i (t)) = 1 is recorded in the sound source position history storage unit 107 (step S707).
 そして、現在の時刻フレームtにおいて未処理の音源情報が残っている場合には(ステップS708のNo)、ステップS701に戻って、音源統計情報処理部106は、未処理の音源情報を1つ取得し、上記と同様の処理を繰り返し実行する。 If unprocessed sound source information remains in the current time frame t (No in step S708), the process returns to step S701, and the sound source statistical information processing unit 106 acquires one unprocessed sound source information. Then, the same processing as described above is repeatedly executed.
 また、現在の時刻フレームtにおいてすべての音源情報の処理を終了した場合には(ステップS708のYes)、音源統計情報処理部106は、音源位置履歴保存部107に保存されている音源位置情報のうち、所定時間以上継続している音源で、推定された音源位置の分散(若しくは、変動)が閾値ε2以下のものがあるかどうかをチェックする(ステップS709)。 When the processing of all sound source information is completed in the current time frame t (Yes in step S708), the sound source statistical information processing unit 106 stores the sound source location information stored in the sound source location history storage unit 107. Among them, it is checked whether there is a sound source that has continued for a predetermined time or more and whose estimated sound source position variance (or fluctuation) is less than or equal to a threshold ε 2 (step S709).
 所定時間以上継続し、推定された音源位置の分散(若しくは、変動)が閾値ε2以下となる音源は、自然人すなわち操作命令を発話するユーザではなく、テレビやスピーカーなどの据え置き型の音響機器から発される妨害音と推定することができる。そこで、音源統計情報処理部106は、このような音源を検出すると(ステップS709のYes)、抑圧するべき音源として、その位置情報をビームフォーム部109に送る。そして、ビームフォーム部109では、抑圧するべき音源の位置情報から、この方向を抑圧するようにビームフォームのパラメータを計算する(ステップS710)。 A sound source that has continued for a predetermined time or more and whose estimated sound source position variance (or fluctuation) is less than or equal to the threshold ε 2 is not a natural person, that is, a user who speaks an operation command, but a stationary acoustic device such as a television or a speaker It can be estimated that the disturbing sound is emitted. Therefore, when the sound source statistical information processing unit 106 detects such a sound source (Yes in step S709), the sound source statistical information processing unit 106 transmits the position information to the beamform unit 109 as a sound source to be suppressed. Then, the beamform unit 109 calculates beamform parameters so as to suppress this direction from the position information of the sound source to be suppressed (step S710).
 このようにして、ビームフォーム部109は、複数マイク101を構成するマイクロフォンアレーのパラメータを調整して、妨害音と推定された音源からの音信号を抑圧するようにすることができる。 In this way, the beam form unit 109 can adjust the parameters of the microphone array constituting the plurality of microphones 101 to suppress the sound signal from the sound source estimated as the interference sound.
 なお、上記のステップS703における推定位置のずれの閾値ε1、あるいはステップS709における閾値ε2として、例えば人間が1時刻フレームの間に移動する距離を設定することによって、歩きながら話し掛けるユーザの発話は聴き取るが、それ以上離れた場所にある音源と同一視せず抑圧するようにする。 As the threshold value ε 1 of the estimated position deviation in step S703 or the threshold value ε 2 in step S709, for example, a user's utterance talking while walking is set by setting a distance that a person moves during one time frame, for example. Listen, but suppress it without equating to a sound source located further away.
 また、ステップS704では、話者識別に利用する音響的な特徴を利用して、音響の観点からも同一の音源かどうかを判定するようにしている。すなわち、ステップS703及びS704によるチェックによって、より正確に同一音源かどうかを判定することが可能となる。 In step S704, it is determined whether or not the sound source is the same from the acoustic point of view by using an acoustic feature used for speaker identification. That is, it is possible to more accurately determine whether the sound sources are the same by checking in steps S703 and S704.
 ちなみに、音源がユーザ(人間)による発話である場合、話者識別の際に利用する音源特徴量を音源の位置情報に加えて利用し、パーティクルフィルタによって移動する音源の追従を行う方法も提案されている(例えば、特許文献4を参照のこと)。この方法を利用することによって、位置情報だけによる音源の判定よりも精度を高めることができる。 By the way, when the sound source is an utterance by a user (human), a method of tracking the moving sound source using a particle filter using the sound source feature amount used for speaker identification in addition to the position information of the sound source has been proposed. (For example, see Patent Document 4). By using this method, it is possible to improve the accuracy of the sound source determination based only on the position information.
 図7に示した処理を実施する際に、話者識別部105による音声データからの話者認識機能を利用することができれば、音源の対応関係をより高精度で推定することができる。 7, if the speaker recognition function from the voice data by the speaker identification unit 105 can be used when the processing shown in FIG. 7 is performed, the correspondence relationship between the sound sources can be estimated with higher accuracy.
 なお、テレビやスピーカーからの音は、再生しているコンテンツによっては時々静音になる場合もある。したがって、音源統計情報処理部106は、時刻フレーム間の音源の関係を推定する際には、直前の時刻フレームだけでなく、同一位置付近にある過去の音源情報を参照することによって、たまたまコンテンツに無音区間があり直前のフレームでうまく音源が推定できなかった場合にも、より頑健に動作することができる。 It should be noted that the sound from the TV and speakers may sometimes be quiet depending on the content being played. Therefore, the sound source statistical information processing unit 106, when estimating the relationship of sound sources between time frames, happens to generate content by referring to not only the previous time frame but also past sound source information near the same position. Even when there is a silent section and the sound source cannot be estimated well in the immediately preceding frame, it can operate more robustly.
 上述したように、本実施形態に係る情報処理装置100によれば、音源が存在する時間区間の分布と空間分布の両方を利用して、ユーザが発話する音声をそれ以外の音(妨害音)から区別することができる。したがって、情報処理装置100は、据置のテレビやスピーカーから出力される人間の音声を、機器操作を行うためのユーザ発話と誤認識して誤動作することを抑制することが可能となる。また、情報処理装置100に、発話区間検出技術や起動ワード技術といった時間区間を限定してユーザの発話を区別する技術をさらに適用することによって、より効果を高めることが可能である。 As described above, according to the information processing apparatus 100 according to the present embodiment, the voice uttered by the user is made to other sounds (interfering sounds) using both the distribution of the time interval in which the sound source exists and the spatial distribution. Can be distinguished from Therefore, the information processing apparatus 100 can suppress erroneous operation by erroneously recognizing a human voice output from a stationary television or speaker as a user utterance for device operation. Further, it is possible to further enhance the effect by further applying to the information processing apparatus 100 a technology that distinguishes the user's utterance by limiting the time interval such as the utterance interval detection technique and the activation word technique.
 上記では、物理的に単一の装置として構成される情報処理装置100上で、ユーザが発話する音声をそれ以外の音(妨害音)から区別する処理を行う実施例について説明してきた。 In the above description, the embodiment has been described in which the processing for distinguishing the voice uttered by the user from other sounds (interfering sounds) is performed on the information processing apparatus 100 configured as a physically single apparatus.
 しかしながら、図1に示した情報処理装置100が備える、妨害音を抑圧するとともにユーザの発話に応答するための機能モジュールの一部又は全部を、クラウド上で実行し、その処理結果をクラウドから受信して、応答出力を実施するようにすることも可能である。 However, some or all of the functional modules for suppressing the interfering sound and responding to the user's utterance provided in the information processing apparatus 100 shown in FIG. 1 are executed on the cloud, and the processing result is received from the cloud. Thus, it is possible to execute response output.
 図8には、点線で囲まれた、音声認識部112、意味解析部113、応答生成部114、及びサービス提供部115の各機能をクラウド801上で実行するように構成された情報処理装置800を例示している。 In FIG. 8, an information processing apparatus 800 configured to execute the functions of the speech recognition unit 112, the semantic analysis unit 113, the response generation unit 114, and the service providing unit 115 surrounded by a dotted line on the cloud 801. Is illustrated.
 情報処理装置800は、クラウドと通信するための通信部(図示しない)をさらに備えており、音声区間検出部111で検出された、ユーザの発話に該当する音源の音声発話区間の音声波形データ(A)を、クラウド801に送信する。 The information processing apparatus 800 further includes a communication unit (not shown) for communicating with the cloud. The audio waveform data (speech utterance section of the sound source corresponding to the user's utterance detected by the speech section detection unit 111 ( A) is transmitted to the cloud 801.
 クラウド801側では、音声認識部112が、ユーザの発話に該当する音源の音声発話区間の音声波形データをテキスト化する。意味解析部113は、音声認識部112でテキスト化されたユーザの発話を解析して、どのような動作を要求しているかを決定するとともに、その実現に必要となるパラメータを抽出する。そして、応答生成部114は、意味解析部113で得られた動作要求とパラメータから、必要に応じてサービス提供部115と連動して、ユーザの動作要求を満たす応答を生成し、音声合成を利用して音声を合成し、あるいは、音声ではなく応答用のテキストや画面情報を生成して、生成した応答内容(B)を、情報処理装置800に送信する。 On the cloud 801 side, the voice recognition unit 112 converts the voice waveform data of the voice utterance section of the sound source corresponding to the user's utterance into text. The semantic analysis unit 113 analyzes the user's utterance converted into text by the speech recognition unit 112, determines what kind of operation is requested, and extracts parameters necessary for the realization. Then, the response generation unit 114 generates a response satisfying the user's operation request from the operation request and parameters obtained by the semantic analysis unit 113 in cooperation with the service providing unit 115 as necessary, and uses speech synthesis. Then, voice is synthesized, or instead of voice, response text and screen information are generated, and the generated response content (B) is transmitted to the information processing apparatus 800.
 情報処理装置800は、通信部(前述)により、応答用の音声データ、テキスト又は画面情報を受信すると、スピーカー116から音声出力し、又は画面(図示しない)に応答用のテキストメッセージや画面を表示する。 When the communication unit (described above) receives response voice data, text, or screen information, the information processing apparatus 800 outputs the voice from the speaker 116 or displays a response text message or screen on a screen (not shown). To do.
 また、図9には、妨害音を抑圧するとともにユーザの発話に応答するための機能モジュールの一部をクラウド上で実行する他の情報処理装置900の構成例を示している。同図中、点線で囲まれた、音源位置推定部103、記録音源選択部104、話者識別部105、音源統計情報処理部106、ビームフォーム部109、抑圧効果調整部110、音声区間検出部111、音声認識部112、意味解析部113、応答生成部114、サービス提供部115の各機能をクラウド901上で実行するように構成されている。図8に示した情報処理装置800と比較して、情報処理装置900での処理が軽減され、多くの処理がクラウド901側で実施するように構成されている。 FIG. 9 shows a configuration example of another information processing apparatus 900 that executes part of a functional module for suppressing the interference sound and responding to the user's utterance on the cloud. In the figure, a sound source position estimation unit 103, a recorded sound source selection unit 104, a speaker identification unit 105, a sound source statistical information processing unit 106, a beam form unit 109, a suppression effect adjustment unit 110, and a speech section detection unit surrounded by a dotted line. 111, the voice recognition unit 112, the semantic analysis unit 113, the response generation unit 114, and the service providing unit 115 are configured to execute on the cloud 901. Compared with the information processing apparatus 800 illustrated in FIG. 8, processing in the information processing apparatus 900 is reduced, and many processes are performed on the cloud 901 side.
 情報処理装置900は、クラウドと通信するための通信部(図示しない)をさらに備えている。情報処理装置900側では、AD変換部102が信号処理した、複数マイク101のマイク本数分の音声波形データ(C)を、クラウド901側に送信する。 The information processing apparatus 900 further includes a communication unit (not shown) for communicating with the cloud. On the information processing apparatus 900 side, the voice waveform data (C) for the number of microphones of the plurality of microphones 101, which is signal-processed by the AD conversion unit 102, is transmitted to the cloud 901 side.
 クラウド901側では、音源位置推定部103が、マイク本数分の音声波形データ(C)から、音源毎の音声波形を分離して、音源方向を推定する。記録音源選択部104は、音源位置推定部103から得られる音声波形から各音源のパワーを計算する。話者識別部105は、個々の音源が人の声を含む場合に、情報処理装置900の音源位置履歴保存部107から話者識別用パラメータ(D)を取得して、あらかじめ登録してあるユーザの声と照合して、そのユーザの声であるか、若しくは登録されていないかを識別する。そして、クラウド901は、現在の時刻フレームにおける、話者IDと対応付けした音源の位置情報(E)を、情報処理装置900に送信する。 On the cloud 901 side, the sound source position estimation unit 103 estimates the sound source direction by separating the sound waveform for each sound source from the sound waveform data (C) for the number of microphones. The recorded sound source selection unit 104 calculates the power of each sound source from the speech waveform obtained from the sound source position estimation unit 103. The speaker identification unit 105 acquires the speaker identification parameter (D) from the sound source position history storage unit 107 of the information processing apparatus 900 when each sound source includes a human voice, and is registered in advance. To identify whether the user's voice is registered or not registered. Then, the cloud 901 transmits the sound source position information (E) associated with the speaker ID in the current time frame to the information processing apparatus 900.
 情報処理装置900側では、クラウド901から受信した音源位置情報(E)を、音源位置履歴保存部107に記録する。また、情報処理装置900は、音源位置履歴保存部107に記録されている、過去の時刻フレームにおける音源位置に関する情報(F)を、クラウド901に送信する。 On the information processing apparatus 900 side, the sound source position information (E) received from the cloud 901 is recorded in the sound source position history storage unit 107. Further, the information processing apparatus 900 transmits information (F) related to the sound source position in the past time frame, which is recorded in the sound source position history storage unit 107, to the cloud 901.
 クラウド901側では、音源統計情報処理部106が、音源位置推定部103から供給される現在時刻における音源の位置情報と、情報処理装置900から受信した過去の時刻フレームにおける音源の位置情報(F)から、抑圧するべき音源を決定する。そして、ビームフォーム部109は、抑圧するべき音源の位置に関する情報から、該当する位置にある音源からの音信号を抑圧するためのマイクロフォンアレーのパラメータを算出すると、情報処理装置900から受信した音声波形データ(C)をそのパラメータで合成する。 On the cloud 901 side, the sound source statistical information processing unit 106 receives the position information of the sound source at the current time supplied from the sound source position estimation unit 103 and the position information (F) of the sound source in the past time frame received from the information processing device 900. From this, the sound source to be suppressed is determined. Then, when the beamformer 109 calculates the parameters of the microphone array for suppressing the sound signal from the sound source at the corresponding position from the information regarding the position of the sound source to be suppressed, the sound waveform received from the information processing apparatus 900 is calculated. Data (C) is synthesized with the parameters.
 音声区間検出部111は、ビームフォーム部109で作成された音データの中から、人間の音声らしい区間を検出して、音声認識の対象とする音データを切り出す。音声認識部112は、音声区間検出部111で切り出された音声データを入力として、その発話をテキスト化する。意味解析部113は、音声認識部112でテキスト化されたユーザの発話を解析して、ユーザが要求している動作を実現するためのパラメータを抽出する。そして、応答生成部114は、意味解析部113で得られた動作要求とパラメータから、必要に応じてサービス提供部115と連動して、ユーザの動作要求を満たす、音声テキスト、画面などからなる応答を生成して、その応答内容(G)を情報処理装置900に送信する。 The speech section detection unit 111 detects a section that seems to be human speech from the sound data created by the beamform unit 109, and cuts out sound data to be subjected to speech recognition. The voice recognition unit 112 inputs the voice data cut out by the voice section detection unit 111 and converts the speech into text. The semantic analysis unit 113 analyzes the user's utterance converted into text by the speech recognition unit 112 and extracts parameters for realizing the operation requested by the user. Then, the response generation unit 114 responds to the user's operation request from the operation request and parameters obtained by the semantic analysis unit 113, in accordance with the service providing unit 115 as necessary, and includes a response including a voice text, a screen, and the like. And the response content (G) is transmitted to the information processing apparatus 900.
 情報処理装置900は、通信部(前述)により、応答用の音声データ、テキスト又は画面情報などからなる応答内容(G)を受信すると、スピーカー116から音声出力し、又は画面(図示しない)に応答用のテキストメッセージや画面を表示する。 When the response content (G) including response voice data, text, or screen information is received by the communication unit (described above), the information processing apparatus 900 outputs a voice from the speaker 116 or responds to a screen (not shown). Display text messages and screens for use.
 図10には、情報処理装置900とクラウド901間のデータのやり取りを模式的に示している。 FIG. 10 schematically shows data exchange between the information processing apparatus 900 and the cloud 901.
 情報処理装置900は、複数マイク101のマイク本数分の音声波形データ(C)を、クラウド901側に送信する。また、情報処理装置900は、個々の音源が人の声を含む場合には、音源位置履歴保存部107から読み出した話者識別用パラメータ(D)を、クラウド901側に送信する。これに対し、クラウド901は、受信した音声波形データ(C)から、各音源のパワーを計算するとともに、話者識別用パラメータに基づいて話者を識別して、現在の時刻フレームにおける、話者IDと対応付けした音源の位置情報(E)を、情報処理装置900に返信する。 The information processing apparatus 900 transmits voice waveform data (C) for the number of microphones of the plurality of microphones 101 to the cloud 901 side. Further, when each sound source includes a human voice, the information processing apparatus 900 transmits the speaker identification parameter (D) read from the sound source position history storage unit 107 to the cloud 901 side. In contrast, the cloud 901 calculates the power of each sound source from the received speech waveform data (C), identifies the speaker based on the speaker identification parameter, and determines the speaker in the current time frame. The position information (E) of the sound source associated with the ID is returned to the information processing apparatus 900.
 情報処理装置900は、クラウド901から返信された音源位置情報(E)を利用して、音源位置履歴保存部107の記録内容を更新して、これを過去の時刻フレームにおける音源位置に関する情報(F)として、クラウド901に送信する。 The information processing apparatus 900 uses the sound source position information (E) sent back from the cloud 901 to update the recorded content of the sound source position history storage unit 107, and uses the information (F for the sound source position in the past time frame). ) To the cloud 901.
 クラウド901側では、現在時刻における音源の位置情報と過去の時刻フレームにおける音源の位置情報から抑圧するべき音源を決定する。そして、該当する位置にある音源からの音信号を抑圧するためのマイクロフォンアレーのパラメータを用いて音声波形データ(C)から合成し、人間の音声らしい区間の音声データを音声認識及び意味解析して、ユーザの動作要求に対する応答内容(G)を生成して、情報処理装置900に送信する。情報処理装置900側では、クラウド901から受信した応答内容を、音声、テキスト、又は画面表示などの方法で出力する。 On the cloud 901 side, a sound source to be suppressed is determined from the position information of the sound source at the current time and the position information of the sound source in the past time frame. Then, the speech waveform data (C) is synthesized using the microphone array parameters for suppressing the sound signal from the sound source at the corresponding position, and the speech data of the section that seems to be human speech is subjected to speech recognition and semantic analysis. Then, a response content (G) for the user operation request is generated and transmitted to the information processing apparatus 900. On the information processing apparatus 900 side, the response content received from the cloud 901 is output by a method such as voice, text, or screen display.
 なお、音源位置履歴保存部107の機能もクラウド901側に配設すれば、図9及び図10に示した、クラウド901から情報処理装置900への現在の時刻フレームにおける音源位置情報(E)の送信と、情報処理装置900からクラウド901への話者識別用パラメータ(D)及び過去の時刻フレームにおける音源位置情報(F)の送信という、通信処理に関連する負荷が軽減される。しかしながら、個々のクライアント(情報処理装置)における音源位置履歴情報をすべてクラウドサーバ側で管理しようとすると、クラウドサーバに接続するクライアントの台数の増加に伴い、管理しなければならない情報量が増大してしまい、クライアントからのアクセスに対して遅延なく処理するのが困難になる。したがって、クラウドサーバに接続するクライアントの台数が多くなる場合には、図9に示したように、音源位置履歴保存部107の機能は個々のクライアントに配置することが好ましいと言える。図8に示した構成例についても同様に、音源位置履歴保存部107の機能は個々のクライアントに配置することが好ましいと言える。 If the function of the sound source position history storage unit 107 is also arranged on the cloud 901 side, the sound source position information (E) in the current time frame from the cloud 901 to the information processing apparatus 900 shown in FIGS. Loads related to communication processing, such as transmission and transmission of speaker identification parameters (D) from the information processing apparatus 900 to the cloud 901 and sound source position information (F) in past time frames, are reduced. However, if all the sound source position history information in each client (information processing apparatus) is to be managed on the cloud server side, the amount of information that must be managed increases as the number of clients connected to the cloud server increases. Therefore, it becomes difficult to process access from a client without delay. Therefore, when the number of clients connected to the cloud server increases, it can be said that the function of the sound source position history storage unit 107 is preferably arranged in each client as shown in FIG. Similarly, in the configuration example shown in FIG. 8, it can be said that the function of the sound source position history storage unit 107 is preferably arranged in each client.
 また、情報処理装置900は、クラウド901へ、音声波形データ(C)と、話者識別用パラメータ(D)と、(F)過去の時刻フレームにおける音源位置情報をまとめて送信し、且つ、クラウド901から、(E)現在の時刻フレームにおける音源位置情報と応答内容(G)をまとめて受信するようにすれば、通信のオーバーヘッドを削減することができる。 Further, the information processing apparatus 900 transmits the sound waveform data (C), the speaker identification parameter (D), and (F) the sound source position information in the past time frame to the cloud 901, and the cloud 901 If (E) the sound source position information and the response content (G) in the current time frame are received together from 901, the communication overhead can be reduced.
 以上、特定の実施形態を参照しながら、本明細書で開示する技術について詳細に説明してきた。しかしながら、本明細書で開示する技術の要旨を逸脱しない範囲で当業者が該実施形態の修正や代用を成し得ることは自明である。 As described above, the technology disclosed in this specification has been described in detail with reference to specific embodiments. However, it is obvious that those skilled in the art can make modifications and substitutions of the embodiments without departing from the scope of the technology disclosed in this specification.
 本明細書で開示する技術は、音声エージェントを始め、操作命令となるユーザの発話を受け付ける部屋などで利用される据置型のさまざまに機器に適用して、ユーザが発話する音声をそれ以外の音(妨害音)から区別し、さらに妨害音による機器の意図しない誤動作を防止することができる。もちろん、本明細書で開示する技術を、対話ロボットなどの移動体装置にも同様に適用することができ、部屋内での現在位置や、部屋内で静止した状態において、ユーザが発話する音声を好適に区別することができる。また、本明細書で開示する技術を、テレビ電話などの通話機器に適用して、ユーザの発話以外の妨害音を抑制することができる。 The technology disclosed in this specification is applied to various stationary devices used in a room that receives a user's utterance as an operation command, such as a voice agent, and the voice uttered by the user is set to other sound. It is possible to distinguish from (interfering sound), and to prevent an unintended malfunction of the device due to the interfering sound. Needless to say, the technology disclosed in this specification can be applied to a mobile device such as a dialogue robot in the same manner, and a voice uttered by a user at a current position in a room or in a stationary state in a room. A suitable distinction can be made. In addition, the technology disclosed in this specification can be applied to a telephone device such as a videophone to suppress disturbing sounds other than the user's speech.
 要するに、例示という形態により本明細書で開示する技術について説明してきたのであり、本明細書の記載内容を限定的に解釈するべきではない。本明細書で開示する技術の要旨を判断するためには、特許請求の範囲を参酌すべきである。 In short, the technology disclosed in the present specification has been described in the form of examples, and the description content of the present specification should not be interpreted in a limited manner. In order to determine the gist of the technology disclosed in this specification, the claims should be taken into consideration.
 なお、本明細書の開示の技術は、以下のような構成をとることも可能である。
(1)時間フレーム毎に複数のマイクから集音される音声信号から推定される音源位置の履歴情報を処理する処理部と、
 各音源位置の履歴情報に基づいて、抑圧すべき音源を決定する決定部と、
を具備する情報処理装置。
(2)前記決定部は、前記履歴情報に基づいて推定される、音源が存在する時間区間の分布と空間分布に基づいて、抑圧すべき音源を決定する、
上記(1)に記載の情報処理装置。
(3)前記決定部は、音の継続時間が長い音源を抑圧すべき音源として決定する、
上記(1)又は(2)のいずれかに記載の情報処理装置。
(4)前記決定部は、音の継続時間が長く且つ推定される位置の変動が小さい音源を抑圧すべき音源として決定する、
上記(1)又は(2)のいずれかに記載の情報処理装置。
(5)複数のマイクから集音される音声信号から音源の方向を推定して、各音源からの音声波形を分離する音源位置推定部と、
 前記音源位置推定部が推定した時刻フレームの音源位置を保持する音源位置履歴保存部と、
をさらに備え、
 前記決定部は、前記音源位置履歴保存部が保持する時刻フレーム毎の音源位置の情報を統計処理して、抑圧すべき音源を決定する、
上記(1)乃至(4)のいずれかに記載の情報処理装置。
(6)前記音源位置履歴保存部は、各音源の推定位置情報と、音出力開始時刻と、音継続時間長に関する情報を保存する、
上記(5)に記載の情報処理装置。
(7)各音源に含まれる人の声の話者を識別する話者識別部をさらに備え、
 前記音源位置履歴保存部は、話者の識別情報と対応付けて各音源の推定位置を保存する、
上記(5)又は(6)のいずれかに記載の情報処理装置。
(8)前記音源位置推定部から得られる音声波形から各音源のパワーを計算し、閾値以上の音源の位置情報を時刻情報とともに選択的に出力する記録音源選択部をさらに備える、
上記(5)乃至(7)のいずれかに記載の情報処理装置。
(9)前記情報処理装置本体が移動したことを検知する移動検出部をさらに備え、
 前記移動検出部によって前記情報処理装置本体の移動が検知されたことに応答して、前記音源位置履歴保存部が保持している情報をクリアする、
上記(5)乃至(8)のいずれかに記載の情報処理装置。
(10)前記抑圧するべき音源からの音信号を抑圧するように、前記複数のマイクにおけるビームフォームのパラメータを調整するビームフォーム部をさらに備える、
上記(1)乃至(9)のいずれかに記載の情報処理装置。
(11)前記ビームフォーム部による前記抑圧するべき音源を抑圧する効果を調整する抑圧効果調整部をさらに備える、
上記(10)に記載の情報処理装置。
(12)前記ビームフォーム部で作成された音データの中から人間の音声らしい区間を切り出す音声区間検出部と、
 前記音声区間検出部で切り出された区間の発話をテキスト化する音声認識部と、
 前記音声認識部がテキスト化したユーザの発話を解析して、ユーザが要求している動作及びその動作要求を実現するためのパラメータを抽出する意味解析部と、
 前記動作要求及びパラメータに基づいて、ユーザの動作要求を満たす応答を生成する応答生成部と、
をさらに備える、
上記(10)又は(11)のいずれかに記載の情報処理装置。
(13)前記応答生成部が生成した応答を出力する出力部をさらに備える、
上記(12)に記載の情報処理装置。
(14)応答を生成するために必要な情報を前記応答生成部に提供するサービス提供部をさらに備える、
上記(12)又は(13)のいずれかに記載の情報処理装置。
(15)前記決定部は、所定の時刻フレームにわたる推定位置のズレ量が所定の閾値以内で且つ音響特徴量が類似している複数の音源を同一の音源と判定し、所定の時刻フレームにわたる推定位置のズレ量が第1の閾値以内であっても音響特徴量が類似しない複数の音源を異なる音源と判定して、各音源に関する情報を前記音源位置履歴保存部に保存する、
上記(6)に記載の情報処理装置。
(16)前記決定部は、前記音源位置履歴保存部に保存されている音源位置情報のうち、所定時間以上継続し、且つ、推定された音源位置の分散が第2の閾値以下となる音源を、抑圧すべき音源を決定する、
上記(15)に記載の情報処理装置。
(17)前記第1の閾値又は前記第2の閾値として、人間が1時刻フレームの間に移動する距離を設定する、
上記(15)又は(16)のいずれかに記載の情報処理装置。
(18)前記複数のマイクをさらに備える、
上記(1)乃至(17)のいずれかに記載の情報処理装置。
(19)前記決定部は、人間の声に近い特徴を持つ音声が検出された発話区間、又は、所定の起動ワードが検出されたことに応じて、抑圧すべき音源の決定を行う、
上記(1)乃至(18)のいずれかに記載の情報処理装置。
(20)時間フレーム毎に複数のマイクから集音される音声信号から推定される音源位置の履歴情報を処理する処理ステップと、
 各音源位置の履歴情報に基づいて、抑圧すべき音源を決定する決定ステップと、
を有する情報処理方法。
Note that the technology disclosed in the present specification can also be configured as follows.
(1) a processing unit that processes history information of a sound source position estimated from sound signals collected from a plurality of microphones for each time frame;
A determination unit that determines a sound source to be suppressed based on history information of each sound source position;
An information processing apparatus comprising:
(2) The determination unit determines a sound source to be suppressed based on a distribution and a spatial distribution of a time section where the sound source is estimated, which is estimated based on the history information.
The information processing apparatus according to (1) above.
(3) The determination unit determines a sound source having a long sound duration as a sound source to be suppressed.
The information processing apparatus according to any one of (1) or (2) above.
(4) The determination unit determines a sound source having a long sound duration and a small estimated position variation as a sound source to be suppressed.
The information processing apparatus according to any one of (1) or (2) above.
(5) a sound source position estimation unit that estimates the direction of a sound source from sound signals collected from a plurality of microphones and separates a sound waveform from each sound source;
A sound source position history storage unit that holds the sound source position of the time frame estimated by the sound source position estimation unit;
Further comprising
The determination unit performs statistical processing on information of a sound source position for each time frame held by the sound source position history storage unit, and determines a sound source to be suppressed.
The information processing apparatus according to any one of (1) to (4).
(6) The sound source position history storage unit stores estimated position information of each sound source, sound output start time, and information related to the sound duration time.
The information processing apparatus according to (5) above.
(7) a speaker identification unit for identifying a speaker of a human voice included in each sound source;
The sound source position history storage unit stores the estimated position of each sound source in association with speaker identification information.
The information processing apparatus according to any of (5) or (6) above.
(8) a recording sound source selection unit that calculates the power of each sound source from the sound waveform obtained from the sound source position estimation unit and selectively outputs the position information of the sound source equal to or greater than a threshold value together with time information;
The information processing apparatus according to any one of (5) to (7) above.
(9) a movement detection unit that detects that the information processing apparatus main body has moved;
In response to detecting the movement of the information processing apparatus main body by the movement detection unit, the information held by the sound source position history storage unit is cleared.
The information processing apparatus according to any one of (5) to (8).
(10) It further comprises a beamform unit for adjusting beamform parameters in the plurality of microphones so as to suppress sound signals from the sound source to be suppressed.
The information processing apparatus according to any one of (1) to (9) above.
(11) A suppression effect adjustment unit that adjusts an effect of suppressing the sound source to be suppressed by the beamform unit is further provided.
The information processing apparatus according to (10) above.
(12) a voice section detection unit that cuts out a section that seems to be human speech from the sound data created by the beamform unit;
A speech recognition unit that converts the utterance of the section extracted by the speech section detection unit into text,
Analyzing the user's utterance converted into text by the voice recognition unit, and extracting a parameter required for realizing the operation requested by the user and the operation request;
A response generation unit that generates a response that satisfies the user's operation request based on the operation request and the parameters;
Further comprising
The information processing apparatus according to any one of (10) or (11) above.
(13) It further includes an output unit that outputs the response generated by the response generation unit.
The information processing apparatus according to (12) above.
(14) A service providing unit that provides the response generation unit with information necessary to generate a response.
The information processing apparatus according to any one of (12) and (13).
(15) The determination unit determines that a plurality of sound sources whose estimated positional deviation over a predetermined time frame is within a predetermined threshold and whose acoustic feature amounts are similar are the same sound source, and estimation over a predetermined time frame Determining a plurality of sound sources whose acoustic feature values are not similar even if the positional deviation amount is within the first threshold as different sound sources, and storing information on each sound source in the sound source position history storage unit;
The information processing apparatus according to (6) above.
(16) The determination unit may select a sound source that has continued for a predetermined time or more and the estimated sound source position variance is equal to or less than a second threshold among the sound source position information stored in the sound source position history storage unit. Determine the sound source to be suppressed,
The information processing apparatus according to (15) above.
(17) As the first threshold value or the second threshold value, a distance that a person moves during one time frame is set.
The information processing apparatus according to any one of (15) or (16) above.
(18) The apparatus further includes the plurality of microphones.
The information processing apparatus according to any one of (1) to (17).
(19) The deciding unit decides a sound source to be suppressed according to an utterance section in which a voice having characteristics similar to a human voice is detected or a predetermined activation word is detected.
The information processing apparatus according to any one of (1) to (18).
(20) a processing step of processing history information of a sound source position estimated from audio signals collected from a plurality of microphones for each time frame;
A determination step for determining a sound source to be suppressed based on history information of each sound source position;
An information processing method comprising:
 100…情報処理装置、101…複数マイク、102…AD変換部
 103…音源位置推定部、104…記録音源選択部
 105…話者識別部、106…音源統計情報処理部
 107…音源位置履歴保存部、108…移動検出部
 109…ビームフォーム部、110…抑圧効果調整部
 111…音声区間検出部、112…音声認識部
 113…意味解析部、114…応答生成部
 115…サービス提供部、116…スピーカー
DESCRIPTION OF SYMBOLS 100 ... Information processing apparatus 101 ... Multiple microphones 102 ... AD conversion part 103 ... Sound source position estimation part 104 ... Recording sound source selection part 105 ... Speaker identification part 106 ... Sound source statistical information processing part 107 ... Sound source position history storage part DESCRIPTION OF SYMBOLS 108 ... Movement detection part 109 ... Beamform part 110 ... Suppression effect adjustment part 111 ... Speech section detection part 112 ... Speech recognition part 113 ... Semantic analysis part 114 ... Response generation part 115 ... Service provision part 116 ... Speaker

Claims (20)

  1.  時間フレーム毎に複数のマイクから集音される音声信号から推定される音源位置の履歴情報を処理する処理部と、
     各音源位置の履歴情報に基づいて、抑圧すべき音源を決定する決定部と、
    を具備する情報処理装置。
    A processing unit for processing history information of sound source positions estimated from audio signals collected from a plurality of microphones for each time frame;
    A determination unit that determines a sound source to be suppressed based on history information of each sound source position;
    An information processing apparatus comprising:
  2.  前記決定部は、前記履歴情報に基づいて推定される、音源が存在する時間区間の分布と空間分布に基づいて、抑圧すべき音源を決定する、
    請求項1に記載の情報処理装置。
    The determining unit determines a sound source to be suppressed based on a distribution and a spatial distribution of a time interval in which the sound source exists, which is estimated based on the history information.
    The information processing apparatus according to claim 1.
  3.  前記決定部は、音の継続時間が長い音源を抑圧すべき音源として決定する、
    請求項1に記載の情報処理装置。
    The determination unit determines a sound source having a long sound duration as a sound source to be suppressed,
    The information processing apparatus according to claim 1.
  4.  前記決定部は、音の継続時間が長く且つ推定される位置の変動が小さい音源を抑圧すべき音源として決定する、
    請求項1に記載の情報処理装置。
    The determination unit determines a sound source having a long sound duration and a small estimated position variation as a sound source to be suppressed.
    The information processing apparatus according to claim 1.
  5.  複数のマイクから集音される音声信号から音源の方向を推定して、各音源からの音声波形を分離する音源位置推定部と、
     前記音源位置推定部が推定した時刻フレームの音源位置を保持する音源位置履歴保存部と、
    をさらに備え、
     前記決定部は、前記音源位置履歴保存部が保持する時刻フレーム毎の音源位置の情報を統計処理して、抑圧すべき音源を決定する、
    請求項1に記載の情報処理装置。
    A sound source position estimation unit that estimates a direction of a sound source from sound signals collected from a plurality of microphones and separates a sound waveform from each sound source;
    A sound source position history storage unit that holds the sound source position of the time frame estimated by the sound source position estimation unit;
    Further comprising
    The determination unit performs statistical processing on information of a sound source position for each time frame held by the sound source position history storage unit, and determines a sound source to be suppressed.
    The information processing apparatus according to claim 1.
  6.  前記音源位置履歴保存部は、各音源の推定位置情報と、音出力開始時刻と、音継続時間長に関する情報を保存する、
    請求項5に記載の情報処理装置。
    The sound source position history storage unit stores information on the estimated position information of each sound source, sound output start time, and sound duration time length,
    The information processing apparatus according to claim 5.
  7.  各音源に含まれる人の声の話者を識別する話者識別部をさらに備え、
     前記音源位置履歴保存部は、話者の識別情報と対応付けて各音源の推定位置を保存する、
    請求項5に記載の情報処理装置。
    A speaker identification unit for identifying a speaker of a human voice included in each sound source;
    The sound source position history storage unit stores the estimated position of each sound source in association with speaker identification information.
    The information processing apparatus according to claim 5.
  8.  前記音源位置推定部から得られる音声波形から各音源のパワーを計算し、閾値以上の音源の位置情報を時刻情報とともに選択的に出力する記録音源選択部をさらに備える、
    請求項5に記載の情報処理装置。
    A sound source selection unit that calculates the power of each sound source from the sound waveform obtained from the sound source position estimation unit and selectively outputs the position information of the sound source equal to or greater than a threshold value together with time information,
    The information processing apparatus according to claim 5.
  9.  前記情報処理装置本体が移動したことを検知する移動検出部をさらに備え、
     前記移動検出部によって前記情報処理装置本体の移動が検知されたことに応答して、前記音源位置履歴保存部が保持している情報をクリアする、
    請求項5に記載の情報処理装置。
    A movement detection unit for detecting that the information processing apparatus main body has moved;
    In response to detecting the movement of the information processing apparatus main body by the movement detection unit, the information held by the sound source position history storage unit is cleared.
    The information processing apparatus according to claim 5.
  10.  前記抑圧するべき音源からの音信号を抑圧するように、前記複数のマイクにおけるビームフォームのパラメータを調整するビームフォーム部をさらに備える、
    請求項1に記載の情報処理装置。
    A beamform unit for adjusting a beamform parameter in the plurality of microphones so as to suppress a sound signal from the sound source to be suppressed;
    The information processing apparatus according to claim 1.
  11.  前記ビームフォーム部による前記抑圧するべき音源を抑圧する効果を調整する抑圧効果調整部をさらに備える、
    請求項10に記載の情報処理装置。
    A suppression effect adjustment unit that adjusts an effect of suppressing the sound source to be suppressed by the beamform unit;
    The information processing apparatus according to claim 10.
  12.  前記ビームフォーム部で作成された音データの中から人間の音声らしい区間を切り出す音声区間検出部と、
     前記音声区間検出部で切り出された区間の発話をテキスト化する音声認識部と、
     前記音声認識部がテキスト化したユーザの発話を解析して、ユーザが要求している動作及びその動作要求を実現するためのパラメータを抽出する意味解析部と、
     前記動作要求及びパラメータに基づいて、ユーザの動作要求を満たす応答を生成する応答生成部と、
    をさらに備える、
    請求項10に記載の情報処理装置。
    A voice section detector that cuts out a section that seems to be human speech from the sound data created in the beamform section;
    A speech recognition unit that converts the utterance of the section extracted by the speech section detection unit into text,
    Analyzing the user's utterance converted into text by the voice recognition unit, and extracting a parameter required for realizing the operation requested by the user and the operation request;
    A response generation unit that generates a response that satisfies the user's operation request based on the operation request and the parameters;
    Further comprising
    The information processing apparatus according to claim 10.
  13.  前記応答生成部が生成した応答を出力する出力部をさらに備える、
    請求項12に記載の情報処理装置。
    An output unit that outputs the response generated by the response generation unit;
    The information processing apparatus according to claim 12.
  14.  応答を生成するために必要な情報を前記応答生成部に提供するサービス提供部をさらに備える、
    請求項12に記載の情報処理装置。
    A service provider that provides the response generator with information necessary to generate a response;
    The information processing apparatus according to claim 12.
  15.  前記決定部は、所定の時刻フレームにわたる推定位置のズレ量が所定の閾値以内で且つ音響特徴量が類似している複数の音源を同一の音源と判定し、所定の時刻フレームにわたる推定位置のズレ量が第1の閾値以内であっても音響特徴量が類似しない複数の音源を異なる音源と判定して、各音源に関する情報を前記音源位置履歴保存部に保存する、
    請求項6に記載の情報処理装置。
    The determination unit determines that a plurality of sound sources whose estimated positional deviation over a predetermined time frame is within a predetermined threshold and whose acoustic feature values are similar are the same sound source, and the estimated positional deviation over a predetermined time frame. Even if the amount is within the first threshold, a plurality of sound sources that do not have similar acoustic feature amounts are determined as different sound sources, and information on each sound source is stored in the sound source position history storage unit.
    The information processing apparatus according to claim 6.
  16.  前記決定部は、前記音源位置履歴保存部に保存されている音源位置情報のうち、所定時間以上継続し、且つ、推定された音源位置の分散が第2の閾値以下となる音源を、抑圧すべき音源を決定する、
    請求項15に記載の情報処理装置。
    The determination unit suppresses a sound source that has continued for a predetermined time or more and whose estimated sound source position variance is equal to or less than a second threshold among the sound source position information stored in the sound source position history storage unit. Determine the sound source
    The information processing apparatus according to claim 15.
  17.  前記第1の閾値又は前記第2の閾値として、人間が1時刻フレームの間に移動する距離を設定する、
    請求項16に記載の情報処理装置。
    As the first threshold value or the second threshold value, a distance that a person moves during one time frame is set.
    The information processing apparatus according to claim 16.
  18.  前記複数のマイクをさらに備える、
    請求項1に記載の情報処理装置。
    Further comprising the plurality of microphones;
    The information processing apparatus according to claim 1.
  19.  前記決定部は、人間の声に近い特徴を持つ音声が検出された発話区間、又は、所定の起動ワードが検出されたことに応じて、抑圧すべき音源の決定を行う、
    請求項1に記載の情報処理装置。
    The determination unit determines a sound source to be suppressed according to an utterance period in which a voice having characteristics close to human voice is detected or a predetermined activation word is detected.
    The information processing apparatus according to claim 1.
  20.  時間フレーム毎に複数のマイクから集音される音声信号から推定される音源位置の履歴情報を処理する処理ステップと、
     各音源位置の履歴情報に基づいて、抑圧すべき音源を決定する決定ステップと、
    を有する情報処理方法。
    Processing steps for processing history information of sound source positions estimated from audio signals collected from a plurality of microphones for each time frame;
    A determination step for determining a sound source to be suppressed based on history information of each sound source position;
    An information processing method comprising:
PCT/JP2019/005286 2018-04-23 2019-02-14 Information processing device and information processing method WO2019207912A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018082364 2018-04-23
JP2018-082364 2018-04-23

Publications (1)

Publication Number Publication Date
WO2019207912A1 true WO2019207912A1 (en) 2019-10-31

Family

ID=68294973

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/005286 WO2019207912A1 (en) 2018-04-23 2019-02-14 Information processing device and information processing method

Country Status (1)

Country Link
WO (1) WO2019207912A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021156946A1 (en) * 2020-02-04 2021-08-12 三菱電機株式会社 Voice separation device and voice separation method

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016076123A1 (en) * 2014-11-11 2016-05-19 ソニー株式会社 Sound processing device, sound processing method, and program
JP2017090853A (en) * 2015-11-17 2017-05-25 株式会社東芝 Information processing device, information processing method, and program
WO2018021237A1 (en) * 2016-07-28 2018-02-01 国立研究開発法人情報通信研究機構 Speech dialogue device, speech dialogue method, and recording medium

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016076123A1 (en) * 2014-11-11 2016-05-19 ソニー株式会社 Sound processing device, sound processing method, and program
JP2017090853A (en) * 2015-11-17 2017-05-25 株式会社東芝 Information processing device, information processing method, and program
WO2018021237A1 (en) * 2016-07-28 2018-02-01 国立研究開発法人情報通信研究機構 Speech dialogue device, speech dialogue method, and recording medium

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021156946A1 (en) * 2020-02-04 2021-08-12 三菱電機株式会社 Voice separation device and voice separation method

Similar Documents

Publication Publication Date Title
CN110268470B (en) Audio device filter modification
CN107910011B (en) Voice noise reduction method and device, server and storage medium
US20210035563A1 (en) Per-epoch data augmentation for training acoustic models
JP6464449B2 (en) Sound source separation apparatus and sound source separation method
JP5519689B2 (en) Sound processing apparatus, sound processing method, and hearing aid
WO2017168936A1 (en) Information processing device, information processing method, and program
JP5649488B2 (en) Voice discrimination device, voice discrimination method, and voice discrimination program
US10461712B1 (en) Automatic volume leveling
US11790900B2 (en) System and method for audio-visual multi-speaker speech separation with location-based selection
JP2020115206A (en) System and method
US20160314785A1 (en) Sound reproduction method, speech dialogue device, and recording medium
KR20220044204A (en) Acoustic Echo Cancellation Control for Distributed Audio Devices
JP5803125B2 (en) Suppression state detection device and program by voice
US20120271630A1 (en) Speech signal processing system, speech signal processing method and speech signal processing method program
US11443760B2 (en) Active sound control
US11460927B2 (en) Auto-framing through speech and video localizations
JP3838159B2 (en) Speech recognition dialogue apparatus and program
WO2019207912A1 (en) Information processing device and information processing method
WO2016017229A1 (en) Speech segment detection device, voice processing system, speech segment detection method, and program
JP6678315B2 (en) Voice reproduction method, voice interaction device, and voice interaction program
JP7400364B2 (en) Speech recognition system and information processing method
US20200388268A1 (en) Information processing apparatus, information processing system, and information processing method, and program
JP2019053180A (en) Audio processing device, voice recognition device, audio processing method, voice recognition method, audio processing program and voice recognition program
WO2021206679A1 (en) Audio-visual multi-speacer speech separation
JP2005157086A (en) Speech recognition device

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19793615

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19793615

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP