JP6783339B2

JP6783339B2 - 音声を処理する方法及び装置

Info

Publication number: JP6783339B2
Application number: JP2019047290A
Authority: JP
Inventors: ウー，ヤー
Original assignee: バイドゥオンラインネットワークテクノロジー（ベイジン）カンパニーリミテッド
Priority date: 2018-06-29
Filing date: 2019-03-14
Publication date: 2020-11-11
Anticipated expiration: 2039-03-14
Also published as: JP2020003774A; US20200005793A1; CN108922528B; US11244686B2; CN108922528A

Description

本願の実施例は、コンピュータ技術分野に関し、具体的に音声を処理する方法及び装置に関する。

現在、スマートホームの研究及び普及に従い、スマートホームデバイスが我々の生活に入っている。マルチスペースシーンにおいて、ベッドルーム、居間、台所とトイレに音声対話機能を持つスマートホームデバイスを設置することができる。例えば、ベッドルームにスマートスピーカを設置し、居間にスマートテレビを設置し、台所にスマート冷蔵庫を設置し、トイレにスマート洗濯機を設置することができる。従来の音声対話装置に用いられる音声処理方式においては、一般的に、ユーザが音声指令を言い出した後に、音声指令を受信した少なくとも一つの音声対話装置が音声指令を処理することにより、ユーザとの音声対話を実現させる。

本願の実施例は、音声を処理する方法及び装置を提供した。

第一局面として、本願の実施例は、音声を処理する方法であって、目標音声対話装置のセットのうち少なくとも一つの音声対話装置が入力音声を受信したと確定されたことに応答して、少なくとも一つの音声対話装置のそれぞれについて、当該音声対話装置が受信した入力音声の音声特徴を取得するステップと、少なくとも一つの音声対話装置のそれぞれにより受信された入力音声の音声特徴に基づいて、少なくとも一つの音声対話装置から、音声対話装置を選択し、選択された音声対話装置に入力音声を処理させるステップと、を含む方法を提供した。

幾つかの実施例において、音声特徴は、ボリュームを含み、少なくとも一つの音声対話装置のそれぞれにより受信された入力音声の音声特徴に基づいて、少なくとも一つの音声対話装置から、音声対話装置を選択し、選択された音声対話装置に入力音声を処理させるステップは、少なくとも一つの音声対話装置のそれぞれにより受信された入力音声のボリュームの大きい順で、少なくとも一つの音声対話装置から、所定の第１の数の音声対話装置を選択し、選択された音声対話装置に入力音声を処理させるステップを含む。

幾つかの実施例において、音声特徴は音圧を含み、少なくとも一つの音声対話装置のそれぞれにより受信された入力音声の音声特徴に基づいて、少なくとも一つの音声対話装置から音声対話装置を選択し、選択された音声対話装置に入力音声を処理させるステップは、少なくとも一つの音声対話装置のそれぞれにより受信された入力音声の音圧の大きい順で、少なくとも一つの音声対話装置から所定の第２の数の音声対話装置を選択し、選択された音声対話装置に入力音声を処理させるステップを含む。

幾つかの実施例において、の少なくとも一つの音声対話装置のそれぞれにより受信された入力音声の音声特徴に基づいて、少なくとも一つの音声対話装置から音声対話装置を選択し、された音声対話装置に入力音声を処理させるステップは、入力音声に所定のウェークアップワードが含まれると確定されたことに応答して、少なくとも一つの音声対話装置のそれぞれにより受信された入力音声の音声特徴に基づいて、少なくとも一つの音声対話装置から音声対話装置を選択してウェークアップすることにより、ウェークアップされた音声対話装置に入力音声を処理させるステップを含む。

幾つかの実施例において、少なくとも一つの音声対話装置から音声対話装置を選択し、選択された音声対話装置に入力音声を処理させるステップの前に、該方法は、更に、入力音声を解析して解析結果を取得するステップを含み、少なくとも一つの音声対話装置から音声対話装置を選択し、選択された音声対話装置に入力音声を処理させるステップは、少なくとも一つの音声対話装置から音声対話装置を選択し、選択された音声対話装置が解析結果により指示された操作を実行するように、選択された音声対話装置へ解析結果を送信することを含む。

第二局面として、本願実施例は、音声を処理する装置であって、目標音声対話装置のセットのうち少なくとも一つの音声対話装置が入力音声を受信したと確定されたことに応答して、少なくとも一つの音声対話装置のそれぞれについて、当該音声対話装置により受信された入力音声の音声特徴を取得するように配置される取得ユニットと、少なくとも一つの音声対話装置のそれぞれにより受信された入力音声の音声特徴に基づいて、少なくとも一つの音声対話装置から音声対話装置を選択し、選択された音声対話装置に入力音声を処理させるように配置される選択ユニットと、を備える装置を提供した。

幾つかの実施例において、音声特徴はボリュームを含み、選択ユニットは、更に、少なくとも一つの音声対話装置のそれぞれにより受信された入力音声の音声特徴に基づいて、少なくとも一つの音声対話装置から音声対話装置を選択し、選択された音声対話装置に入力音声を処理させる時、少なくとも一つの音声対話装置のそれぞれにより受信された入力音声のボリュームの大きい順で少なくとも一つの音声対話装置から、所定の第１の数の音声対話装置を選択し、選択された音声対話装置に入力音声を処理させるように配置される。

幾つかの実施例において、音声特徴は音圧を含み、選択ユニットは、更に、少なくとも一つの音声対話装置のそれぞれにより受信された入力音声の音声特徴に基づいて、少なくとも一つの音声対話装置から音声対話装置を選択し、選択された音声対話装置に入力音声を処理させる時、少なくとも一つの音声対話装置のそれぞれにより受信された入力音声の音圧の大きい順で少なくとも一つの音声対話装置から所定の第二数の音声対話装置を選択し、選択された音声対話装置に入力音声を処理させるように配置される。

幾つかの実施例において、選択ユニットは、更に、少なくとも一つの音声対話装置のそれぞれにより受信された入力音声の音声特徴に基づいて、少なくとも一つの音声対話装置から音声対話装置を選択し、選択された音声対話装置により入力音声を処理させる時、入力音声に所定のウェークアップワードが含まれると確定されたことに応答して、少なくとも一つの音声対話装置のそれぞれにより受信された入力音声の音声特徴に基づいて、少なくとも一つの音声対話装置から音声対話装置を選択してウェークアップすることにより、ウェークアップされた音声対話装置に入力音声を処理させるように配置される。

幾つかの実施例において、該装置は、入力音声を解析して解析結果を取得するように配置される解析ユニットを更に備え、選択ユニットは、更に、少なくとも一つの音声対話装置から音声対話装置を選択し、選択された音声対話装置に入力音声を処理させる時、少なくとも一つの音声対話装置から音声対話装置を選択し、選択された音声対話装置が解析結果により指示された操作を実行するように、選択された音声対話装置へ解析結果を送信するように配置される。

第三局面として、本願の実施例は一つ又は複数のプロセッサと、一つ又は複数のプログラムが記憶される記憶装置と、を備え、一つ又は複数のプログラムが一つ又は複数のプロセッサにより実行されると、前記一つ又は複数のプロセッサに第一局面の何れかの実施形態に記載の方法を実現させる電子装置を提供した。

第四局面として、本願の実施例は、コンピュータプログラムが記憶されており、当該プログラムがプロセッサにより実行されると、第一局面の何れかの実施形態に記載の方法を実現させるコンピュータに読取可能な媒体を提供した。

本願により提供された音声を処理する方法及び装置は、目標音声対話装置のセットに入力音声が受信された音声対話装置があると確定されたことに応答して、入力音声が受信された少なくとも一つの音声対話装置のそれぞれについて、当該音声対話装置により受信された入力音声の音声特徴を取得する。そして、前記少なくとも一つの音声対話装置のそれぞれにより受信された入力音声の音声特徴に基いて、前記少なくとも一つの音声対話装置から音声対話装置を選択し、選択された音声対話装置に前記入力音声を処理させるようにすることができる。これにより、音声対話装置により受信された入力音声の音声特徴を効果的に利用して音声対話装置の選択を行い、対応性に優れた音声対話装置の選択を実現した。

以下の図面と合わせてなされた非制限な実施例に対する詳細説明を閲覧することにより、本願の他の特徴、目的及び利点がより明確になる。

本願の一実施例を適用可能な例示的なシステムアーキテクチャである。本願の音声を処理する方法による一実施例のフローチャートである。本願の音声を処理する方法による一つの応用場面の模式図である。本願の音声を処理する方法による他の実施例のフローチャートである。本願の音声を処理する方法によるもう一つの実施例のフローチャートである。本願の音声を処理する装置による一実施例の構成模式図である。本願実施例を実現可能な電子装置のコンピュータシステムの構成模式図である。

以下に図面と実施例を合わせて本願に対して具体的に説明する。理解すべきなのは、ここで説明された具体的な実施例は、関連発明に対する解釈に過ぎず、当該発明に対する限定ではない。また、説明すべきなのは、説明の便宜上、図面に関連発明に関する部分しか示されていない。

説明すべきなのは、矛盾しない限り、本願における実施例及び実施例における特徴を互いに組み合わせても良い。以下に図面を参照し実施例と合わせて本願を詳しく説明する。

図１は、本願の音声を処理する方法又は音声を処理する装置が適用可能な実施例の例示的なシステムアーキテクチャ１００を示した。

図１に示されたように、システムアーキテクチャ１００には、音声対話装置１０１、１０２、１０３、制御端末１０４及びネットワーク１０５１、１０５２、１０５３、１０５４、１０５５、１０５６が備えられても良い。なお、ネットワーク１０５１は、音声対話装置１０１と音声対話装置１０２との間に通信リンク的媒体を提供する。ネットワーク１０５２は、音声対話装置１０１と音声対話装置１０３との間に通信リンクの媒体を提供する。ネットワーク１０５３は、音声対話装置１０２と音声対話装置１０３との間に通信リンクの媒体を提供する。ネットワーク１０５４は、音声対話装置１０１と制御端末１０４との間に通信リンクの媒体を提供する。ネットワーク１０５５は、音声対話装置１０２と制御端末１０４との間に通信リンクの媒体を提供する。ネットワーク１０５６は、音声対話装置１０３と制御端末１０４との間に通信リンクの媒体を提供する。

制御端末１０４は、ネットワーク１０５４、１０５５、１０５６を介して音声対話装置１０１、１０２、１０３のそれぞれと対話を行ってメッセージなどを送受信することができる。例示として、音声対話装置１０１、１０２、１０３のうち少なくとも一つの音声対話装置が入力音声を受信したと確定された場合に、制御端末１０４は、前記少なくとも一つの音声対話装置のそれぞれについて、当該音声対話装置により受信された入力音声の音声特徴を取得し、その後に、制御端末１０４は、前記少なくとも一つの音声対話装置のそれぞれにより受信された入力音声の音声特徴に基いて、前記少なくとも一つの音声対話装置から選択し、選択された音声対話装置に前記入力音声を処理させるようにすることができる。

制御端末１０４は、ハードウェアであっても良く、ソフトウェアであっても良い。制御端末１０４はハードウェアである場合に、情報対話と情報処理をサポートする各種の電子装置であっても良く、スマートフォーン、スマートウォッチ、電子書籍リーダ、ＭＰ３（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐＡｕｄｉｏＬａｙｅｒＩＩＩ、ムービング・ピクチャー・エクスパーシ・グループ・オーディオ・レイヤー３）、ＭＰ４（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐＡｕｄｉｏＬａｙｅｒＩＶ、ムービング・ピクチャー・エクスパーシ・グループ・オーディオ・レイヤー４）プレーヤ、ノードパソコンなどを含むが、それらに限定されない。制御端末１０４はソフトウェアである場合に、前記列挙された電子装置にインストールされても良い。それは、複数のソフトウェア又はソフトウェアモジュール（例えば分散的なサービスを提供するために）として実現されても良く、単一のソフトウェア又はソフトウェアモジュールとして実現されても良い。ここでは具体的に限定されない。

音声対話装置１０１、１０２、１０３は、音声対話をサポートする各種の電子装置であっても良く、スマートスピーカ、スマートホームデバイス（例えば、スマートテレビ、スマート洗濯機、スマート冷蔵庫など）が含まれるが、それらに限定されない。音声対話装置１０１、１０２、１０３は、ネットワーク１０５１、１０５２、１０５３を介して他の音声対話装置と対話を行うことができる。例示として、音声対話装置１０１、１０２、１０３のうち少なくとも一つの音声対話装置が入力音声を受信したと確定された場合に、音声対話装置１０１は前記少なくとも一つの音声対話装置のそれぞれについて、当該音声対話装置により受信された入力音声の音声特徴を取得し、その後に、音声対話装置１０１は、前記少なくとも一つの音声対話装置のそれぞれにより受信された入力音声の音声特徴に基いて、前記少なくとも一つの音声対話装置から音声対話装置を選択し、選択された音声対話装置に前記入力音声を処理させるようにすることができる。

説明すべきなのは、本願の実施例により提供された音声を処理する方法は、制御端末１０４により実行可能である。それに応じて、音声を処理する装置は、制御端末１０４に設置されても良い。音声を処理する方法は、音声対話装置１０１、１０２、１０３のうちの何れか一つにより実行されても良い。それに応じて、音声を処理する装置は、対応する音声対話装置に設置されても良い。

なお、音声を処理する方法が音声対話装置１０１、１０２、１０３のうちの何れか一つに実行される場合に、例示的なシステムアーキテクチャ１００にネットワーク１０５４、１０５５、１０５６及び制御端末１０４が備えられなくても良い。

なお、音声対話装置１０１、１０２、１０３は、ハードウェアであっても良く、ソフトウェアであっても良い。音声対話装置１０１、１０２、１０３はハードウェアである場合に、複数の音声対話装置からなる分散的な音声対話装置グループとして実現されても良く、単一の音声対話装置として実現されても良い。音声対話装置はソフトウェアである場合に、複数のソフトウェア又はソフトウェアモジュール（例えば分散的なサービスを提供するために）として実現されても良く、単一のソフトウェア又はソフトウェアモジュールとして実現されても良い。ここでは具体的に限定されない。

理解すべきなのは、図１における音声対話装置、制御端末及びネットワークの数は例示的なものに過ぎない。実際の必要に応じて、任意の数の音声対話装置、制御端末及びネットワークを備えても良い。

続いて図２を参照する。図２は、本願の音声を処理する方法による一実施例のフロー２００を示した。当該音声を処理する方法は、以下のステップを含む。

ステップ２０１において、目標音声対話装置のセットに入力音声が受信された音声対話装置があるか否かを判定する。

本実施例において、音声を処理する方法の実行主体（例えば図１に示された制御端末１０４、又は音声対話装置１０１、１０２と１０３の何れか一つ）は、目標音声対話装置のセットに入力音声が受信された音声対話装置があるか否かを判定することができる。音声対話装置は、ユーザの入力音声に基いてユーザと対話を行う装置であっても良く、入力音声に対して解析などの処理を行って音声処理の結果をフィードバックすることができる。音声対話装置は、スマートスピーカ、音声対話機能を持つスマートホームデバイス（例えば、スマートテレビ、スマート冷蔵庫とスマート洗濯機など）の少なくとも一つを含んでも良いが、それらに限定されない。

本実施例において、目標音声対話装置のセットは、同一のローカルエリアネットワーク（例えば、ホームローカルエリアネットワーク）に位置し、情報の対話を行うように互いに通信可能な音声対話装置からなるセットであっても良い。例示として、目標音声対話装置のセットは、一つのホームにおいて、ベッドルームのスマートスピーカと、居間のスマートテレビと、台所のスマート冷蔵庫と、トイレのスマート洗濯機とからなる音声対話装置のセットであっても良い。目標音声対話装置のセットは、更に、一つのホームにおいて、マスターベッドルームのスマートスピーカと、セカンドベッドルームのスマートスピーカと、居間のスマートスピーカと、台所のスマートスピーカとからなるスピーカセットであっても良い。

本実施例において、前記実行主体は、前記目標音声対話装置のセットに対して音声処理を行う制御端末、例えば、携帯、パソコンなどの端末装置であっても良い。前記実行主体は、更に、目標音声対話装置のセットのうちの何れか一つの音声対話装置であっても良い。例示として、目標音声対話装置のセットがベッドルームのスマートスピーカと、居間のスマートテレビと、台所のスマート冷蔵庫と、トイレのスマート洗濯機とからなる音声対話装置のセットである場合に、実行主体が居間のスマートテレビであっても良く、ベッドルームのスマートスピーカであっても良く、台所のスマート冷蔵庫又はトイレのスマート洗濯機であっても良い。

本実施例において、入力音声は入力音とも呼ばれても良い。前記目標音声対話装置のセットにおける音声対話装置は入力音声を受信すると、入力音声が受信されたことを示す情報を前記実行主体へ送信することができる。前記実行主体は、前記目標音声対話装置のセットにおける音声対話装置をモニタリングして、入力音声が受信された音声対話装置があるか否かを判定することもできる。

ステップ２０２において、目標音声対話装置のセットに入力音声が受信された音声対話装置があると確定されたことに応答して、入力音声が受信された少なくとも一つの音声対話装置のそれぞれについて、当該音声対話装置により受信された入力音声の音声特徴を取得する。

本実施例において、ステップ２０１において前記目標音声対話装置のセットに入力音声が受信された音声対話装置があると確定されると、前記実行主体は、入力音声が受信された少なくとも一つの音声対話装置のそれぞれについて、当該音声対話装置により受信された入力音声の音声特徴を取得することができる。音声特徴は、音声を描画するものであっても良く、音色情報を含んでも良い。音色情報は、音色標識を含んでも良く、音色に指示されるユーザのユーザ標識を含んでも良い。一般的に、人によっては音が一般的に異なるので、音色が異なり、音色でユーザを唯一に標識することが可能である。

本実施例の幾つかの選択可能な実現方式において、前記音声特徴は、ボリュームと音圧の少なくとも一つを含んでも良いが、それらに限定されない。ボリュームは、音量とも呼ばれても良い。ボリュームの大きさは、主に音が受信された箇所における音波の幅に依存する。同一の音源は、音波の幅が遠く伝送されるほど、ボリュームが小さくなる。音圧は、大気圧が音波からの干渉を受けた時に発生した変化、即ち大気の圧力の残圧であり、大気の圧力に音波の干渉が重なることに起因した圧力の変化に相当する。ここでは、音圧は、音声対話装置が入力音声を受信した時に音波の振動に起因した音声対話装置のマイクにおける振動膜上の圧力の変化量であっても良い。

本実施例において、前記少なくとも一つの音声対話装置のそれぞれについて、当該音声対話装置が受信された入力音声から音声特徴を抽出することができる。その後に、前記実行主体は、当該音声対話装置から抽出された音声特徴を取得することができる。前記実行主体は、当該音声対話装置から受信された入力音声を取得した後に、取得された入力音声から音声特徴を抽出して当該音声対話装置により受信された入力音声の音声特徴としても良い。

なお、前記実行主体は、一般的に入力音声が受信された少なくとも一つの音声対話装置のそれぞれについて音声特徴の取得を行うことができる。

ステップ２０３において、少なくとも一つの音声対話装置のそれぞれにより受信された入力音声の音声特徴に基づいて、少なくとも一つの音声対話装置から音声対話装置を入力音声を処理するように選択する。

本実施例において、前記実行主体は、前記少なくとも一つの音声対話装置のそれぞれにより受信された入力音声の音声特徴に基づいて、前記少なくとも一つの音声対話装置から音声対話装置を入力音声を処理するように選択することができる。

本実施例において、前記実行主体には、音色情報と音声対話装置標識との間の対応関係の対応関係テーブルが記憶されても良い。取得された音声特徴が音色情報であれば、前記実行主体は前記対応関係テーブルにより、前記少なくとも一つの音声対話装置から、取得された音色情報に対応する音声対話装置標識に指示された音声対話装置を選択し、選択された音声対話装置に前記入力音声を処理させることができる。

本実施例において、選択された音声対話装置は、前記入力音声に対して音声認識と語義解析を行って解析結果を取得することができる。音声認識において、前記選択された音声対話装置は、前記入力音声に対して特徴抽出、音声デコード及びテキスト変換などのステップを実行することができる。語義解析において、前記選択された音声対話装置は、音声認識により得られたテキスト情報に対して自然言語理解（ＮａｔｕｒａｌＬａｎｇｕａｇｅＵｎｄｅｒｓｔａｎｄｉｎｇ、ＮＬＵ）、キーワード抽出、及び人工知能（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ、ＡＩ）アルゴリズムによるユーザ意図の解析を行うことができる。ユーザ意図は、ユーザが実現しようとする一つ又は複数の目的であっても良い。

本実施例において、前記解析結果にユーザ指令が含まれている場合に、選択された音声対話装置はユーザ指令に指示された操作を実行することができる。一般的に、ユーザ指令には、実行すべき操作の操作情報と、実行すべき操作の実行される対象の対象情報との少なくとも一つが含まれても良い。実行すべき操作は、音楽の再生、問題の解答、カウントダウンを含んでも良いが、それらに限定されない。実行すべき操作が音楽の再生であれば、実行すべき操作の実行される対象が音楽の名称であっても良い。

なお、前記音声特徴の抽出、音声デコード技術、テキスト変換、キーワード抽出及び人工知能アルゴリズムは、いままでよく研究、適用されている周知技術であるため、ここでは詳しく説明しない。

本実施例において、前記実行主体は、音声対話装置が選択された後に、選択された音声対話装置へ音声処理の指示を送信することができる。音声処理の指示が受信された音声対話装置は前記入力音声を処理することができる。

本実施例の幾つかの選択可能な実現方式において、取得された音声特徴に音圧が含まれている場合に、前記実行主体は、前記少なくとも一つの音声対話装置のそれぞれにより受信された入力音声に起因した、音声対話装置におけるマイクの振動膜上に生成された音圧の大きい順で前記少なくとも一つの音声対話装置から所定の第２の数の（例えば、一つ、三つなど）音声対話装置を選択し、選択された音声対話装置に前記入力音声を処理させることができる。例示として、入力音声が受信された音声対話装置にベッドルームのスマートスピーカ、居間のスマートテレビ及び台所のスマート冷蔵庫が含まれている場合に、前記実行主体は、ベッドルームのスマートスピーカにより入力音声が受信された音圧が０．００２パスカル（Ｐａ）、居間のスマートテレビにより入力音声が受信された音圧が０．０２パスカル、台所のスマート冷蔵庫により入力音声が受信された音圧が０．００１２パスカルであることを取得した。前記実行主体は、入力音声の受信された音圧が最も大きい居間のスマートテレビを選択して、該スマートテレビに前記入力音声を処理させることができる。

本実施例の幾つかの選択可能な実現方式において、前記実行主体は、前記入力音声を解析して解析結果を取得することができる。前記実行主体は、前記入力音声に対して音声認識及び語義解析を行って解析結果を取得することができる。音声認識において、前記実行主体は前記入力音声に対して特徴抽出、音声デコード及びテキスト変換などのステップを実行することができる。語義解析において、前記実行主体は、音声認識により得られたテキスト情報に対して自然言語理解、キーワード抽出及び人工知能アルゴリズムによるユーザ意図の解析を行うことができる。ユーザ意図は、ユーザが実現しようとする一つ又は複数の目的であっても良い。そして、前記実行主体は、前記少なくとも一つの音声対話装置から音声対話装置を選択し、選択された音声対話装置へ前記解析結果を送信して選択された音声対話装置に前記解析結果に指示された操作を実行させることができる。前記解析結果にユーザ指令が含まれている場合に、選択された音声対話装置はユーザ指令に指示された操作を実行することができる。一般的に、ユーザ指令には、実行すべき操作の操作情報と実行すべき操作の実行される対象の対象情報との少なくとも一つが含まれても良い。実行すべき操作は、音楽の再生、問題の解答、カウントダウンを含んでも良いが、それらに限定されない。実行すべき操作が音楽の再生であれば、実行すべき操作の実行される対象が音楽の名称であっても良い。

続いて図３を参照する。図３は、本実施例の音声を処理する方法による応用場面の一つの模式図である。図３の応用場面において、居間のスマートテレビ３０２、ベッドルームのスマートスピーカ３０３と台所のスマート冷蔵庫３０４により目標音声対話装置のセットを構成する。ユーザが居間に「「ようこそ北京へ」という歌を再生する」の入力音声３０５を言い出した。スマートテレビ３０２、スマートスピーカ３０３とスマート冷蔵庫３０４は何れも入力音声３０５を受信すると、スマートテレビ３０２、スマートスピーカ３０３とスマート冷蔵庫３０４から音声を処理する方法の実行主体３０１へ入力音声が受信されたことを示す情報を送信することができる。そして、実行主体３０１は、スマートテレビ３０２、スマートスピーカ３０３とスマート冷蔵庫３０４により受信された入力音声の第一音声特徴３０６、第二音声特徴３０７と第三音声特徴３０８をそれぞれ取得することができる。例示として、第一音声特徴３０６、第二音声特徴３０７と第三音声特徴３０８は何れも音色標識２であっても良い。そして、実行主体３０１には、音色標識と音声対話装置標識との間の対応関係の対応関係テーブルが記憶されても良い。実行主体３０１は、前記対応関係テーブルにおいて音色標識２に対応する音声対話装置標識としてスマートテレビを検索することができる。この場合に、実行主体３０１は、スマートテレビ３０２を入力音声３０５として「「ようこそ北京へ」という歌を再生する」を処理するように選択することができる（符号３０９に示されたように）。スマートテレビ３０２は、「ようこそ北京へ」という歌を再生する。

本願の前記実施例により提供された方法は、音声対話装置により受信された入力音声の音声特徴を利用して音声対話装置を選択することにより、対応性に優れた音声対話装置の選択を実現した。

続いて図４を参照する。図４は、音声を処理する方法の他の実施例のフロー４００を示した。当該音声を処理する方法のフロー４００には、以下のステップが含まれる。

ステップ４０１において、目標音声対話装置のセットに入力音声が受信された音声対話装置があるか否かを判定する。

ステップ４０２において、目標音声対話装置のセットに入力音声が受信された音声対話装置があると確定されたことに応答して、入力音声が受信された少なくとも一つの音声対話装置のそれぞれについて、当該音声対話装置により受信された入力音声の音声特徴を取得する。

本実施例において、ステップ４０１〜４０２の操作はステップ２０１〜２０２の操作と基本的に同じであるため、ここでは詳しく説明しない。

ステップ４０３において、少なくとも一つの音声対話装置のそれぞれにより受信された入力音声のボリュームの大きい順で少なくとも一つの音声対話装置から所定の第１の数の音声対話装置を選択し、選択された音声対話装置に入力音声を処理させる。

本実施例において、取得された音声特徴にはボリュームが含まれても良い。ボリュームは音量とも呼ばれても良い。ボリュームの大きさは、主に音が受信された箇所における音波の幅に依存する。同一の音源は、音波の幅が遠く伝送されるほど、ボリュームが小さくなる。前記実行主体は、少なくとも一つの音声対話装置のそれぞれにより受信された入力音声のボリュームの大きい順で少なくとも一つの音声対話装置から所定の第１の数の（例えば、一つ、二つなど）音声対話装置を選択し、選択された音声対話装置に入力音声を処理させることができる。

例示として、入力音声が受信された音声対話装置にベッドルームのスマートスピーカ、居間のスマートテレビと台所のスマート冷蔵庫が含まれている場合に、前記実行主体は、ベッドルームのスマートスピーカにより受信された入力音声のボリュームが６、居間のスマートテレビにより受信された入力音声のボリュームが８、台所のスマート冷蔵庫により受信された入力音声のボリュームが２であることを取得した。前記実行主体は、受信された入力音声のボリュームが最も大きい居間のスマートテレビを選択し、該スマートテレビに前記入力音声を処理させることができる。

図４からわかるように、図２に対応する実施例と比べ、本実施例における音声を処理する方法のフロー４００には、各音声対話装置により受信された入力音声のボリュームの大きい順で少なくとも一つの音声対話装置から音声対話装置を選択し、選択された音声対話装置に入力音声を処理させるステップが追加された。従って、本実施例に説明された技術案は、音源に近い音声対話装置を選択して入力音声を処理できるため、音声処理の正確率が向上した。

続いて図５を参照する。図５は、音声を処理する方法のもう一つの実施例のフロー５００を示した。当該音声を処理する方法のフロー５００は、以下のステップを含む。

ステップ５０１において、目標音声対話装置のセットに入力音声が受信された音声対話装置があるか否かを判定する。

ステップ５０２において、目標音声対話装置のセットに入力音声が受信された音声対話装置があると確定されたことに応答して、入力音声が受信された少なくとも一つの音声対話装置のそれぞれについて、当該音声対話装置により受信された入力音声の音声特徴を取得する。

本実施例において、ステップ５０１〜５０２の操作はステップ２０１〜２０２の操作と基本的に同じであるため、ここでは詳しく説明しない。

ステップ５０３において、入力音声に所定のウェークアップワードが含まれているか否かを判定する。

本実施例において、前記実行主体は前記入力音声に所定のウェークアップワードが含まれているか否かを判定することができる。具体的に、前記実行主体は、前記入力音声に対してデコードを行って音素シーケンスを取得した後に、予め記憶されたウェークアップワードの音素シーケンスとマッチングし、デコードされた因素シーケンスに記憶されたウェークアップワードの音素シーケンスとマッチした音素シーケンスがある場合に、前記音声入力情報に所定のウェークアップワードがあると確定することができる。前記ウェークアップワードは、予め設置された命令ワード、例えば、オープン、どうも、ハーローなどであっても良い。なお、前記ウェークアップワードは、デフォールドであっても良く、ユーザに設置されるものであっても良い。

ステップ５０４において、入力音声に所定のウェークアップワードが含まれていると確定されたことに応答して、少なくとも一つの音声対話装置のそれぞれにより受信された入力音声の音声特徴に基づいて、少なくとも一つの音声対話装置から音声対話装置を選択してウェークアップすることにより、ウェークアップされた音声対話装置に入力音声を処理させる。

本実施例において、ステップ５０３において前記入力音声に所定のウェークアップワードが含まれていると確定されると、前記実行主体は、少なくとも一つの音声対話装置のそれぞれにより受信された入力音声の音声特徴に基づいて、前記少なくとも一つの音声対話装置から音声対話装置を選択し、選択された音声対話装置をウェークアップすることにより、ウェークアップされた音声対話装置に入力音声を処理させることができる。ウェークアップされた音声対話装置は、前記入力音声に対して音声認識、語義解析などの処理を行ってユーザ意図、及びユーザ意図に指示される操作を認識することができる。例示として、ユーザ意図が「ようこそ北京へ」という歌を再生することであれば、選択された音声対話装置が「ようこそ北京へ」という歌を再生することができる。

図５からわかるように、図２に対応する実施例と比べ、本実施例における音声を処理する方法のフロー５００には、入力音声に所定のウェークアップワードが含まれている場合に、選択された音声対話装置をウェークアップしてウェークアップされた音声対話装置に入力音声を処理させることができるステップが追加された。従って、本実施例に説明された技術案は、毎回に音声対話装置を改めて選択して音声処理を行う必要がなく、ウェークアップされた音声対話装置を利用してその後に受信された入力音声を処理することができる。このような方式により、音声処理の過程が簡単になり、音声処理の効率を向上させることができる。

続いて図６を参照する。前記の各図に示された方法の実現として、本願は音声を処理する装置の一実施例を提供した。当該装置の実施例は図２に示された方法の実施例に対応する。当該装置は具体的に各種の電子装置に適用可能である。

図６に示されたように、本実施例における音声を処理する装置６００には、取得ユニット６０１と、選択ユニット６０２とが備えられる。なお、取得ユニット６０１は、目標音声対話装置のセットのうち少なくとも一つの音声対話装置が入力音声を受信したと確定されたことに応答して、少なくとも一つの音声対話装置のそれぞれについて、当該音声対話装置により受信された入力音声の音声特徴を取得するように配置される。選択ユニット６０２は、少なくとも一つの音声対話装置のそれぞれにより受信された入力音声の音声特徴に基づいて、少なくとも一つの音声対話装置から音声対話装置を選択し、選択された音声対話装置に入力音声を処理させるように配置される。

本実施例において、音声を処理する装置６００において、取得ユニット６０１の具体的な処理は図２の対応の実施例におけるステップ２０１とステップ２０２を参照し、選択ユニット６０２の具体的な処理は図２の対応の実施例におけるステップ２０３を参照することができる。

本実施例の幾つかの選択可能な実現方式において、前記音声特徴には、ボリュームが含まれても良い。ボリュームは音量とも呼ばれても良い。ボリュームの大きさは、主に音が受信された箇所における音波の幅に依存する。同一の音源は、音波の幅が遠く伝送されるほど、ボリュームが小さくなる。前記選択ユニット６０２は、少なくとも一つの音声対話装置のそれぞれにより受信された入力音声のボリュームの大きい順で少なくとも一つの音声対話装置から所定の第１の数の音声対話装置を選択し、選択された音声対話装置に入力音声を処理させることができる。

本実施例の幾つかの選択可能な実現方式において、前記音声特徴には、音圧が含まれても良い。音圧は、音波からの干渉を受けると大気圧に発生した変化、即ち大気の圧力の残圧であり、大気の圧力に音波の干渉が重なることに起因した圧力の変化に相当する。ここでは、音圧は、音声対話装置が入力音声を受信した時に音波の振動に起因した音声対話装置のマイクにおける振動膜上の圧力の変化量であっても良い。取得された音声特徴に音圧が含まれている場合に、前記選択ユニット６０２は、前記少なくとも一つの音声対話装置のそれぞれにより受信された入力音声により音声対話装置のマイクの振動膜において発生された音圧の大きい順で前記少なくとも一つの音声対話装置から所定の第２の数の音声対話装置を選択し、選択された音声対話装置に前記入力音声を処理させることができる。

本実施例の幾つかの選択可能な実現方式において、前記選択ユニット６０２は前記入力音声に所定のウェークアップワードが含まれているか否かを判定することができる。具体的に、前記選択ユニット６０２は、前記入力音声に対してデコードを行って音素シーケンスを取得した後に、予め記憶されたウェークアップワードの音素シーケンスとマッチングし、デコードされた因素シーケンスに記憶されたウェークアップワードの音素シーケンスとマッチした音素シーケンスがある場合に、前記音声入力情報に所定のウェークアップワードがあると確定することができる。前記ウェークアップワードは、予め設置された命令ワード、例えば、オープン、どうも、ハーローなどであっても良い。前記入力音声に所定のウェークアップワードが含まれていると確定されると、前記選択ユニット６０２は、少なくとも一つの音声対話装置のそれぞれにより受信された入力音声の音声特徴に基づいて、前記少なくとも一つの音声対話装置から音声対話装置を選択し、選択された音声対話装置をウェークアップしてウェークアップされた音声対話装置に入力音声を処理させることができる。ウェークアップされた音声対話装置は、前記入力音声に対して音声認識、語義解析などの処理を行ってユーザ意図、及びユーザ意図に指示された操作を認識することができる。

本実施例の幾つかの選択可能な実現方式において、前記音声を処理する装置６００は、解析ユニット（未図示）を備えても良い。前記解析ユニットは、前記入力音声を解析して解析結果を取得することができる。前記解析ユニットは、前記入力音声に対して音声認識及び語義解析を行って解析結果を取得することができる。音声認識において、前記解析ユニットは、前記入力音声に対して特徴抽出、音声デコード及びテキスト変換などのステップを実行することができる。語義解析において、前記解析ユニットは、音声認識により得られたテキスト情報に対して自然言語理解、キーワード抽出及び人工知能アルゴリズムによるユーザ意図の解析を行うことができる。ユーザ意図は、ユーザが実現しようとする一つ又は複数の目的であっても良い。そして、前記選択ユニット６０２は、前記少なくとも一つの音声対話装置から音声対話装置を選択し、選択された音声対話装置へ前記解析結果を送信して、選択された音声対話装置に前記解析結果に指示された操作を実行させることができる。前記解析結果にユーザ指令が含まれている場合に、選択された音声対話装置はユーザ指令に指示された操作を実行することができる。一般的に、ユーザ指令には、実行すべき操作の操作情報と実行すべき操作の実行される対象の対象情報との少なくとも一つが含まれても良い。実行すべき操作は、音楽の再生、問題の解答、カウントダウンを含んでも良いが、それらに限定されない。実行すべき操作が音楽の再生であれば、実行すべき操作の実行される対象が音楽の名称であっても良い。

以下に図７を参照する。図７は、本発明の実施例を実現可能な電子装置（例えば図１における制御端末１０４）のコンピュータシステム７００の構成模式図を示した。図７に示された電子装置は、一つの例示に過ぎず、本願の実施例の機能及び使用範囲を制限するものではない。

図７に示されたように、電子装置７００には、中央処理ユニット（ＣＰＵ）７０１と、メモリ７０２と、入力ユニット７０３と、出力ユニット７０４とが備えられる。なお、ＣＰＵ７０１、メモリ７０２、入力ユニット７０３及び出力ユニット７０４は、バス７０５を介して互いに接続される。ここでは、本願の実施例による方法は、コンピュータプログラムとして実現され、且つメモリ７０２に記憶されても良い。電子装置７００におけるＣＰＵ７０１は、メモリ７０２に記憶されている前記コンピュータプログラムを呼び出すことにより、本願の実施例の方法に限定された音声処理機能を具体的に実現する。

特に、本開示の実施例によれば、上記のフローチャートに参照して説明された過程はコンピュータソフトウェアプログラムに実現されても良い。例えば、本開示の実施例はコンピュータ読取可能な媒体にロードされるコンピュータプログラムを含むコンピュータプログラム製品を備える。当該コンピュータプログラムは、フローチャートに示される方法を実行するためのプログラムコードを含む。当該コンピュータプログラムは、中央処理ユニット（ＣＰＵ）７０１により実行される場合に、本願の方法に限定される前記機能を実行する。説明すべきなのは、本願のコンピュータ読取可能な媒体は、コンピュータ読取可能な信号媒体、コンピュータ読取可能な記憶媒体、或いは前記両者の任意の組み合わせであっても良い。コンピュータ読取可能な記憶媒体は、例えば電気、磁気、光、電磁気、赤外線、半導体のシステム、サーバ又は部品、或いはこれらの任意の組み合わせであっても良いが、それらに限定されない。コンピュータ読取可能な記憶媒体についてのより具体的な例は、一つ又は複数の導線を含む電気的な接続、携帯可能なコンピュータ磁気ディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読取専用メモリ（ＲＯＭ）、消去可能なプログラミング読取専用メモリ（ＥＰＲＯＭ又はフラッシュ）、光ファイバ、携帯可能なコンパクト磁気ディスク読取専用メモリ（ＣＤ−ＲＯＭ）、光学記憶素子、磁気記憶素子、或いは前記の任意の適当の組み合わせを含むが、それらに限定されない。本願において、コンピュータ読取可能な記憶媒体は、プログラムを含むか記憶する任意の有形の媒体であっても良い。当該プログラムは、コマンド実行システム、装置又は部品に使用され、或いはそれらに組み合わせて使用されても良い。本願において、コンピュータ読取可能な信号媒体は、ベースバンドに伝送され或いはキャリアの一部として伝送され、コンピュータ読取可能なプログラムコードがロードされるデータ信号を含んでも良い。このような伝送されるデータ信号は、各種の形式を採用しても良く、電磁気信号、光信号又は前記の任意の適当の組み合わせを含むが、それらに限定されない。コンピュータ読取可能な信号媒体は、コンピュータ読取可能な記憶媒体以外の任意のコンピュータ読取可能な媒体であっても良い。当該コンピュータ読取可能な媒体は、コマンド実行システム、装置又は部品に使用され又はそれらと組み合わせて使用されるプログラムを送信し、伝播し又は伝送することができる。コンピュータ読取可能な媒体に含まれるプログラムコードは、任意の適当の媒体で伝送されても良く、無線、電線、光ケーブル、ＲＦなど、或いは前記の任意の適当の組み合わせを含むが、それらに限定されない。

図面におけるフローチャート及びブロック図は、本願の各実施例によるシステム、方法及びコンピュータプログラム製品により実現可能なシステム構造、機能及び操作を示した。この点において、フローチャート又はブロック図における各ブロックは、一つのモジュール、プログラムセグメント、又はコードの一部を表すことができる。当該モジュール、プログラムセグメント、コードの一部には、一つ又は複数の所定のロジック機能を実現するための実行可能なコマンドが含まれる。注意すべきなのは、幾つかの置換としての実現において、ブロックに示される機能は図面に示される順序と異なって発生されても良い。例えば、二つの接続的に表示されるブロックは実際に基本的に併行に実行されても良く、場合によっては逆な順序で実行されても良く、関連の機能に従って決定される。注意すべきなのは、ブロック図及び／又はフローチャートにおける各ブロック、及びブロック図及び／又はフローチャートにおけるブロックの組み合わせは、所定の機能又は操作を実行する専用のハードウェアによるシステムで実現されても良く、或いは専用のハードウェアとコンピュータコードの組み合わせで実現されても良い。

本発明の実施例の説明に係わるユニットは、ソフトウェアで実現されても良く、ハードウェアで実現されても良い。説明されたユニットはプロセッサに設置されても良い。例えば、取得ユニットと選択ユニットを備えるプロセッサとして説明されても良い。なお、これらのユニットの名称は、ある場合に当該ユニットの自身に対する限定とされない。例えば、選択ユニットは、「少なくとも一つの音声対話装置のそれぞれにより受信された入力音声の音声特徴に基づいて、少なくとも一つの音声対話装置から音声対話装置を入力音声を処理するように選択するユニット」と説明されても良い。

他の局面として、本願は更にコンピュータ読取可能な媒体を提供した。当該コンピュータ読取可能な媒体は、前記実施形態に説明された装置に含まれたものであっても良く、当該装置に実装されずに別途に存在するものであっても良い。前記コンピュータ読取可能な媒体に一つ又は複数のプログラムがロードされる。前記一つ又は複数のプログラムが当該装置により実行されると、当該装置に、目標音声対話装置のセットのうち少なくとも一つの音声対話装置が入力音声を受信したと確定されたことに応答して、少なくとも一つの音声対話装置のそれぞれについて、当該音声対話装置により受信された入力音声の音声特徴を取得し、少なくとも一つの音声対話装置のそれぞれにより受信された入力音声の音声特徴に基づいて、少なくとも一つの音声対話装置から音声対話装置を入力音声を処理するように選択するように実行させる。

以上の記載は、ただ本発明の好適な実施例及び運用される技術原理に対する説明である。当業者であればわかるように、本発明にかかる発明範囲は、前記技術特徴の特定の組み合わせからなる技術案に限定されず、前記の発明構想から逸脱されない場合に前記技術特徴又は均等の特徴による任意の組み合わせで形成される他の技術案も同時に含まれるべきである。例えば前記特徴と本発明に開示された（それらに限定されない）類似の機能を具備する技術特徴が互いに置換されて得られる技術案は該当する。

Claims

音声を処理する方法であって、
目標音声対話装置のセットのうち少なくとも一つの音声対話装置が入力音声を受信したと確定されたことに応答して、前記少なくとも一つの音声対話装置のそれぞれについて、当該音声対話装置が受信した入力音声の音声特徴を取得するステップと、
前記入力音声に所定のウェークアップワードが含まれると確定されたことに応答して、前記少なくとも一つの音声対話装置のそれぞれにより受信された入力音声の音声特徴に基いて、前記少なくとも一つの音声対話装置から、音声対話装置を選択してウェークアップするステップと、
ウェークアップされた音声対話装置に前記入力音声を処理させるステップと、
を含む方法。
前記音声特徴は、ボリュームを含み、
前記少なくとも一つの音声対話装置から、音声対話装置を選択してウェークアップするステップは、
前記少なくとも一つの音声対話装置のそれぞれにより受信された入力音声のボリュームの大きい順で、前記少なくとも一つの音声対話装置から、所定の第１の数の音声対話装置を選択してウェークアップする、請求項１に記載の方法。
前記音声特徴は音圧を含み、
前記少なくとも一つの音声対話装置から音声対話装置を選択してウェークアップするステップは、
前記少なくとも一つの音声対話装置のそれぞれにより受信された入力音声の音圧の大きい順で、前記少なくとも一つの音声対話装置から所定の第２の数の音声対話装置を選択してウェークアップするステップを含む、請求項１に記載の方法。
前記の前記少なくとも一つの音声対話装置から音声対話装置を選択してウェークアップするステップの前に、前記方法は、更に、
前記入力音声を解析して解析結果を取得するステップを含み、
ウェークアップされた音声対話装置に前記入力音声を処理させるステップは、選択された音声対話装置が前記解析結果により指示された操作を実行するように、選択された音声対話装置へ前記解析結果を送信することを含む請求項１から３の何れか一つに記載の方法。
音声を処理する装置であって、
目標音声対話装置のセットのうち少なくとも一つの音声対話装置が入力音声を受信したと確定されたことに応答して、前記少なくとも一つの音声対話装置のそれぞれについて、当該音声対話装置により受信された入力音声の音声特徴を取得するように構成される取得ユニットと、
前記入力音声に所定のウェークアップワードが含まれると確定されたことに応答して、前記少なくとも一つの音声対話装置のそれぞれにより受信された入力音声の音声特徴に基づいて、前記少なくとも一つの音声対話装置から音声対話装置を選択してウェークアップし、ウェークアップされた音声対話装置に前記入力音声を処理させるように構成される選択ユニットと、を備える装置。
前記音声特徴はボリュームを含み、
前記選択ユニットは、更に、
前記少なくとも一つの音声対話装置から音声対話装置を選択してウェークアップする時、
前記少なくとも一つの音声対話装置のそれぞれにより受信された入力音声のボリュームの大きい順で前記少なくとも一つの音声対話装置から、所定の第１の数の音声対話装置を選択してウェークアップするように構成される、請求項５に記載の装置。
前記音声特徴は音圧を含み、
前記選択ユニットは、更に、
前記少なくとも一つの音声対話装置から音声対話装置を選択してウェークアップする時、
前記少なくとも一つの音声対話装置のそれぞれにより受信された入力音声の音圧の大きい順で前記少なくとも一つの音声対話装置から所定の第２の数の音声対話装置を選択してウェークアップするように構成される、請求項５に記載の装置。
前記装置は、
前記入力音声を解析して解析結果を取得するように構成される解析ユニットを更に備え、
前記選択ユニットは、更に、
ウェークアップされた音声対話装置に前記入力音声を処理させることは、選択された音声対話装置が前記解析結果により指示された操作を実行するように、選択された音声対話装置へ前記解析結果を送信することを含むように構成される、請求項５から７の何れか一つに記載の装置。
一つ又は複数のプロセッサと、
一つ又は複数のプログラムが記憶される記憶装置と、を備え、
前記一つ又は複数のプログラムが前記一つ又は複数のプロセッサにより実行されると、前記一つ又は複数のプロセッサに請求項１から４の何れか一つに記載の方法を実現させる電子装置。
コンピュータプログラムが記憶されており、当該プログラムがプロセッサにより実行されると、請求項１から４の何れか一つに記載の方法を実現させるコンピュータに読取可能な媒体。