JP2014170185A

JP2014170185A - 発話コマンド認識システム

Info

Publication number: JP2014170185A
Application number: JP2013043104A
Authority: JP
Inventors: Atsunori Sakai; 敦典坂井
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2013-03-05
Filing date: 2013-03-05
Publication date: 2014-09-18
Anticipated expiration: 2033-03-05
Also published as: JP6236805B2

Abstract

【課題】音声認識結果が端末操作可能な発話コマンド以外のものになってしまう危険性を少なくする。
【解決手段】コマンド重み記憶部１７１には、認識対象となる発話コマンドの表記が記録されている。音声認識部１７２は、クライアント端末から送られてくる、ユーザが発話した音声の音声データに対して音声認識を行い、上記音声に含まれている単語毎に、その単語に対する候補単語と該候補単語に対する信頼度とを求め、求めた候補単語の中から信頼度が高い順に複数の候補単語を選択する。コマンド認識部１７３は、コマンド重み記憶部１７１に表記が記録されている発話コマンドであって、その発話コマンドの表記と同一の表記が、音声認識部１７２で選択された候補単語を連結した候補単語列に存在する発話コマンドを、上記音声に含まれている発話コマンドと認識する。
【選択図】図１７

Description

本発明は、発話コマンドを認識する発話コマンド認識システム、音声認識サーバ、発話コマンド認識方法、及び、プログラムに関する。

近年、スマートフォンなどのモバイル端末で利用されている「Siri」や「しゃべってコンシェル」等のような、発話コマンドによる端末操作を可能にする音声アシスタントアプリケーションが普及し始めている。これらの音声アシスタントアプリケーションでは、音声認識サーバにおいて、各ユーザのモバイル端末から送られてくる音声データに対する音声認識を実行している。

音声認識サーバにおいて、不特定多数のユーザから送られてくる音声データに対する音声認識を実行する技術としては、次のような技術が知られている（例えば、特許文献１参照）。

特許文献１に記載されている技術では、複数の音声認識装置を備えた音声認識サーバを用いて、端末装置から送られてくる音声データに対する音声認識を実行している。各音声認識装置は、特性が異なる音響モデル、言語モデル、音声認識アルゴリズムを有している。例えば、或る音声認識装置には、若い男性用の音響モデルを配置し、別の音声認識装置には、若い女性用の音響モデルを配置するというように、各音声認識装置に特性の異なる音響モデルを配置する。

音声認識サーバは、端末装置から発話コマンドに対応する音声データが送られてくると、上記複数の音声認識装置を並列動作させる。そして、或る音声認識装置が認識結果を出力すると、その信頼度が閾値以上であるか否かを判定する。信頼度が閾値以上である場合には、上記或る音声認識装置から出力された認識結果を最終的な認識結果とし、全ての音声認識装置における音声認識タスクを停止させる。これに対して、信頼度が閾値未満である場合には、他の音声認識装置から認識結果が出力されるのを待ち、上述した処理と同様の処理を行う。

特表２０１１−５２７０３０号公報

上述した特許文献１に記載されている技術は、特性が異なる音響モデル、言語モデル、及び、音声認識アルゴリズムを有する複数の音声認識装置を並列に動作させ、最初に出力された信頼度が閾値以上の認識結果を最終的な認識結果としているので、１台の音声認識装置を用いて音声認識を行う場合にして、高い認識精度を得ることができる。しかし、特許文献１に記載されている技術は、最初に出力された信頼度が閾値以上の認識結果を最終的な認識結果としているだけであり、端末操作可能な発話コマンドとしてどのようなコマンドが存在するのかを全く考慮していないため、音声認識結果が端末操作可能な発話コマンド以外のものになってしまう危険性がある。

[発明の目的]
そこで、本発明に目的は、音声認識結果が端末操作可能な発話コマンド以外のものになってしまう危険性があるという課題を解決した発話コマンド認識システムを提供することにある。

本発明に係る発話コマンド認識システムは、
クライアント端末と音声認識サーバとを備え、
前記音声認識サーバは、
認識対象となる発話コマンドの表記が記録されたコマンド重み記憶部と、
前記クライアント端末から送られてくる、ユーザが発話した音声の音声データに対して音声認識を行い、前記音声に含まれている単語毎に、その単語に対する候補単語と該候補単語に対する信頼度とを求め、該求めた候補単語の中から信頼度が高い順に複数の候補単語を選択する音声認識部と、
前記コマンド重み記憶部に表記が記録されている発話コマンドであって、その発話コマンドの表記と同一の表記が、前記音声認識部で選択された候補単語を連結した候補単語列に存在する発話コマンドを、前記音声に含まれている発話コマンドと認識するコマンド認識部とを備える。

本発明に係る音声認識サーバは、
認識対象となる発話コマンドの表記が記録されたコマンド重み記憶部と、
クライアント端末から送られてくる、ユーザが発話した音声の音声データに対して音声認識を行い、前記音声に含まれている単語毎に、その単語に対する候補単語と該候補単語に対する信頼度とを求め、該求めた候補単語の中から信頼度が高い順に複数の候補単語を選択する音声認識部と、
前記コマンド重み記憶部に表記が記録されている発話コマンドであって、その発話コマンドの表記と同一の表記が、前記音声認識部で選択された候補単語を連結した候補単語列に存在する発話コマンドを、前記音声に含まれている発話コマンドと認識するコマンド認識部とを備える。

本発明に係る発話コマンド認識方法は、
認識対象となる発話コマンドの表記が記録されたコマンド重み記憶部と、音声認識部と、コマンド認識部とを備えたコンピュータが実行する発話コマンド認識方法であって、
前記音声認識武が、前記クライアント端末から送られてくる、ユーザが発話した音声の音声データに対して音声認識を行い、前記音声に含まれている単語毎に、その単語に対する候補単語と該候補単語に対する信頼度とを求め、該求めた候補単語の中から信頼度が高い順に複数の候補単語を選択し、
コマンド認識武が、前記コマンド重み記憶部に表記が記録されている発話コマンドであって、その発話コマンドの表記と同一の表記が、前記音声認識部で選択された候補単語を連結した候補単語列に存在する発話コマンドを、前記音声に含まれている発話コマンドと認識する。

本発明に係るプログラムは、
認識対象となる発話コマンドの表記が記録されたコマンド重み記憶部を備えたコンピュータを、
クライアント端末から送られてくる、ユーザが発話した音声の音声データに対して音声認識を行い、前記音声に含まれている単語毎に、その単語に対する候補単語と該候補単語に対する信頼度とを求め、該求めた候補単語の中から信頼度が高い順に複数の候補単語を選択する音声認識部、
前記コマンド重み記憶部に表記が記録されている発話コマンドであって、その発話コマンドの表記と同一の表記が、前記音声認識部で選択された候補単語を連結した候補単語列に存在する発話コマンドを、前記音声に含まれている発話コマンドと認識するコマンド認識部として機能させる。

本発明によれば、音声認識結果が端末操作可能な発話コマンド以外のものになってしまう危険性を少なくすることができる、という効果を得ることができる。

本発明の第１の実施の形態に係る発話コマンド認識システムの構成例を示すブロック図である。クライアント端末２−１の構成例を示す図である。コマンド動作対応表記憶部２５の内容例を示す図である。音声認識サーバ１の構成例を示すブロック図である。コマンド表記憶部１１０の内容例を示す図である。コマンド重み記憶部１１２の内容例を示す図である。個人データ記憶部１１４の内容例を示す図である。単語辞書一時記憶部１１３の内容例を示す図である。追加部１０７の処理例を示すフローチャートである。個人データ記録部１１６の処理例を示すフローチャートである。単語辞書作成部１０２の処理例を示すフローチャートである。音声認識部１０３の処理例を示すフローチャートである。音声認識結果の一例を示す図である。コマンド認識部１０４の処理例を示すフローチャートである。重み変更部１０５の動作を説明するための図である。重み変更部１０５の処理例を示すフローチャートである。本発明の第２の実施の形態に係る発話コマンド認識システムの構成例を示すブロック図である。

次に、本発明の実施の形態について図面を参照して詳細に説明する。

[本発明の第１の実施の形態]
図１を参照すると、本発明の第１の実施の形態に係る発話コマンド認識システムは、音声認識サーバ１と、スマートフォン等のモバイル端末やパーソナルコンピュータ等により実現されるクライアント端末２−１〜２−ｎと、アプリケーション一覧情報記憶部３１を有するクラウドサーバ３とを備え、それらはネットワークＮＷを介して相互に接続されている。なお、クラウドサーバ３のアプリケーション一覧情報記憶部３１には、クライアント端末２−１〜２−ｎのユーザのユーザ名に関連付けて、そのクライアント端末にインストールされているアプリケーションのアプリケーション名が記録されている。

クライアント端末２−１〜２−ｎは、ユーザが発話した発話コマンドを含む音声データを音声認識サーバ１へ送信する機能や、音声認識サーバ１から送られてきた発話コマンドに対する認識結果に基づいて、自端末２−１〜２−ｎにインストールされているアプリケーションの機能を呼び出す機能などを有する。

図２はクライアント端末２−１の構成例を示すブロック図であり、音声入力部２１と、送受信部２２と、機能呼出し部２３と、追加部２４と、コマンド動作対応表記憶部２５と、複数のアプリケーション２７−１〜２７−ｍが記録（インストール）されている記憶装置２６とを備えている。なお、他のクライアント端末もクライアント端末２−１と同様の構成を有している。

音声入力部２１は、ユーザが発話した発話コマンドを含む音声の音声データと、クライアント端末２−１のユーザのユーザ名とを含む認識要求を、送受信部２２を介して音声認識サーバ１へ送信する機能を有する。ここで、音声データは、音声信号であっても良いし、音声の特徴量であっても良い。また、ユーザの発話内容は、「連絡先を起動」のように、発話コマンドだけが含まれる場合と、「ｘｘｘさんの住所は」のように発話コマンド「さんの住所は」と非発話コマンド部「ｘｘｘ」とが含まれる場合がある。

送受信部２２は、ネットワークＮＷを介してデータを送受信する機能を有する。

コマンド動作対応表記憶部２５には、発話コマンドの表記と、その発話コマンドが関連するアプリケーションの名前（アプリ名）と、その発話コマンドが発話された際の動作内容とが関連付けて記録されている。図３にコマンド動作対応表記憶部２５の内容例を示す。同図における例えば第２行目は、発話コマンド「〜さんの住所は」は、連絡先アプリケーション（連絡先アプリ）に関連するものであり、動作内容が「連絡先アプリの住所表示機能を呼出し、〜の値を引き渡す」であることを示している。

機能呼出し部２３は、音声認識サーバ１から送られてきた発話コマンドに対する認識結果に関連付けて記録されている動作内容をコマンド動作対応表記憶部２５から検索する機能や、検索した動作内容に従った動作を行う機能を有する。なお、動作内容に従った動作を行う際に必要であれば、音声認識部１から送られてきた非発話コマンド部の認識結果を利用する。例えば、音声認識サーバ１から発話コマンド及び非発話コマンド部の認識結果として「さんの住所は」「ｘｘｘ」が送られてきた場合は、機能呼出し部２３は、連絡先アプリの住所表示機能を呼出し、「ｘｘｘ」を引き渡す。

追加部２４は、音声認識サーバ１から発話コマンドの表記、その発話コマンドが関連するアプリケーション名、及び、その発話コマンドが発話された際の動作内容を含む追加指示が送られてきたとき、追加指示に含まれている各情報をコマンド動作対応表記憶部２５に記録する機能を有する。

なお、クライアント端末２−１をコンピュータによって実現する場合は、例えば、次のようにする。コンピュータを、音声入力部２１、送受信部２２、機能呼出し部２３、及び、追加部２４として機能させるプログラムが記録したディスク、半導体メモリ、その他の記録媒体を用意し、コンピュータに上記プログラムを読み取らせる。コンピュータは、読み取ったプログラムに従って自身の動作を制御することにより、自コンピュータ上に音声入力部２１、送受信部２２、機能呼出し部２３、及び、追加部２４を実現する。

音声認識サーバ１は、クライアント端末２−１〜２−ｎから送られてきた発話コマンドを含む音声データに対して音声認識を行い、認識結果をクライアント端末２−１〜２−ｎに返す機能や、クライアント端末２−１〜２−ｎの機能呼出し部２３により機能を呼び出すことができるアプリケーション（新アプリケーション）を追加する機能を有する。

図４を参照すると、音声認識サーバ１は、送受信部１０１と、単語辞書作成部１０２と、音声認識部１０３と、コマンド認識部１０４と、重み変更部１０５と、個人データ記録部１０６と、追加部１０７と、言語モデル１０８と、音響モデル１０９と、コマンド表記憶部１１０と、共通単語辞書記憶部１１１と、コマンド重み記憶部１１２と、単語辞書一時記憶部１１３と、個人データ記憶部１１４と、キーボードやＬＣＤから構成される入出力部１１５を備えている。

コマンド表記憶部１１０には、クライアント端末２−１〜２−ｎの機能呼出し部２３から機能を呼び出すことができるアプリケーションのアプリケーション名に関連付けて、そのアプリケーションの機能を呼び出すために使用する発話コマンドの表記と、そのアプリケーションを利用する際に必要になる共通単語辞書の名前とが記録されている。更に、コマンド表記憶部１１０には、発話コマンドの表記に関連付けて、その発話コマンドの表記と音声認識結果との比較方法と、その発話コマンドが発話されたときの動作内容とが記録されている。図５にコマンド表記憶部１１０の内容例を示す。なお、発話コマンドの表記と音声認識結果との比較方法については、後で詳しく説明する。

共通辞書記憶部１１１には、複数のアプリケーションで共通に利用可能な共通単語辞書（アドレス帳単語辞書、メール内容辞書など）が記録される。共通単語辞書には、単語の表記と読みとが関連付けて記録される。

コマンド重み記憶部１１２には、アプリケーション名に関連付けて、そのアプリケーションの機能を呼び出すために使用する発話コマンドの表記と、読みと、重み（アプリケーション側重み）とが記録されている。図６にコマンド重み記憶部１１２の内容例を示す。この発話コマンド毎に設定されている重みは、発話コマンドを構成する各単語（助詞を除く）の出現確率に対する重みである。重みを大きくするほど、その発話コマンドを構成する単語の出現確率が高くなり、この発話コマンドを構成する単語に対する認識結果の信頼度が高くなる。従って、或るアプリケーションにおいて、特定の発話コマンドを認識されやすくするためには、その発話コマンドの重みを大きな値にすれば良い。なお、ここでは、重みを、発話コマンドを構成する単語の出現確率に対する重みとしたが、単語の出現頻度に対する重みとしても良い。この場合、重みを大きくする程、発話コマンドを構成する単語の出現頻度が高くなり、発話コマンドを構成する各単語の信頼度が高くなる。

個人データ記憶部１１４には、クライアント端末２−１、２−２、…のユーザのユーザ名Ｕ１、Ｕ２、…に関連付けて、そのユーザのクライアント端末にインストールされているアプリケーションのアプリケーション名が記録されている。更に、アプリケーション名に関連付けて、そのアプリケーションの機能を呼び出すために使用する発話コマンドの表記と、重み（個人側重み）とが記録されている。ここで、発話コマンド毎に設定されている重みは、発話コマンドを構成する各単語（助詞を除く）の出現確率に対する重みである。重みを大きくするほど、その発話コマンドを構成する単語の出現確率が高くなり、その発話コマンドを構成する単語の信頼度が高くなる。従って、ユーザの声質や話し方により認識されにくい発話コマンド等がある場合には、上記ユーザのユーザ名に関連付けて記録されている重みの内、認識されにくい発話コマンドに対する重みの値を大きな値にすれば良い。

単語辞書一時記憶部１１３には、音声認識部１０３で音声認識を行う際に使用される単語辞書が記録される。より具体的には、音声データの送信元のクライアント端末にインストールされているアプリケーションで必要になる共通単語辞書が記録されると共に、インストールされているアプリケーションのアプリケーション名に関連付けてコマンド重み記憶部１１２に記録されている発話コマンドの表記および重みと、上記クライアント端末のユーザのユーザ名に関連付けて個人データ記憶部１１４に記録されている発話コマンドの表記及び重みとに基づいて作成された単語辞書が記録される。単語辞書の作成方法については、後で詳しく説明する。なお、コマンド重み記憶部１１２および個人データ記憶部１１４の内容がそれぞれ図６及び図７に示すものであり、音声データの送信元のユーザのユーザ名がＵ１であるときに作成される単語辞書を図８に示す。

追加部１０７は、クライアント端末２−１〜２−ｎの機能呼出し部２３から機能を呼び出すことができる新たなアプリケーション（新アプリケーション）を追加する場合、新アプリケーションを追加するために必要になる情報を各記憶部１１０，１１２に記録するものであり、次のような機能を有する。

・管理者が入出力部１１５から入力する追加指示に従って、コマンド表記憶部１１０に、新アプリケーションのアプリケーション名と、新アプリケーションの機能を呼び出すために使用する発話コマンドの表記と、その発話コマンドの表記と音声認識結果との比較方法と、その発話コマンドが発話されたときの動作内容とを記録する機能。

・コマンド表記憶部１１０に新たに記録したアプリケーションのアプリケーション名と、そのアプリケーションの機能を呼び出すために使用する発話コマンドの表記および読みとをコマンド重み記憶部１１２に記録すると共に、管理者の指示に従って新たに記録した各発話コマンドの重みをコマンド重み記憶部１１２に記録する機能。

個人データ記録部１０６は、次のような機能を有する。

・クラウドサーバ３のアプリケーション一覧情報記憶部３１から定期的に、各ユーザのクライアント端末２−１〜２−ｎにインストールされているアプリケーションの一覧を取得する機能。なお、クラウドサーバ３からアプリケーションの一覧を取得する代わりに、各ユーザのクライアント端末２−１〜２−ｎからアプリケーションの一覧を取得するようにしてもよい。

・クラウドサーバ３から取得したアプリケーションの一覧と、個人データ記憶部１１４の内容とに基づいて、ユーザ毎に、前回のアプリケーションの一覧取得時以降にインストールされたアプリケーションがあるか否かを判定する機能。

・前回のアプリケーションの一覧取得時以降にインストールされたアプリケーションがあると判定したユーザについては、コマンド表記憶部１１０から上記アプリケーションの機能を呼び出すために使用する発話コマンドの表記を取得し、ユーザ名に関連付けて上記アプリケーションのアプリケーション名と、コマンド表記憶部１１０から取得した上記アプリケーションを利用するために必要になる発話コマンドの表記と、各発話コマンドの重みとを個人データ記憶部１１４に記録する機能。なお、重みは、予め定められているデフォルト値を設定する。

・前回のアプリケーションの一覧取得時以降にインストールしたアプリケーションがあると判定したユーザについては、そのユーザのクライアント端末に対して、上記アプリケーションのアプリケーション名と、コマンド表記憶部１１０から取得した上記アプリケーションの機能を呼び出すために使用する発話コマンドの表記および動作内容とを含む追加指示を送信する機能。

重み変更部１０５は、ユーザ毎に、そのユーザのクライアント端末のインストールされている各アプリケーションの利用回数を管理し、管理している各アプリケーションの利用回数に応じて、個人データ記憶部１１４に記録されている発話コマンドの重みを変更する機能を有する。

送受信部１０１は、ネットワークＮＷを介してデータを送受信する機能を有する。

単語辞書作成手段１０２は、次の機能を有する。

・送受信部１０１を介して音声認識要求を受信したとき、その送信元ユーザのクライアント端末にインストールされているアプリケーションに関する情報を、コマンド重み記憶部１１２および個人データ記憶部１１４から入力する機能。より具体的には、個人データ記憶部１１４から、ユーザ名「Ｕ１」に関連付けて記録されているアプリケーション名、発話コマンドの表記、及び重み（個人側重み）を入力し、コマンド重み記憶部１１２から送信元ユーザのクライアント端末にインストールされているアプリケーションのアプリケーション名に関連付けて記録されている発話コマンドの表記、読み、及び重み（アプリ側重み）を入力する。

・入力した発話コマンド毎に、アプリ側重みと個人側重みとを乗算し、合成重みを算出する機能。

・入力した各発話コマンドを形態素解析により単語に分割し、各単語の表記、読み、及び重み（合成重み）が設定された単語辞書を作成し、単語辞書一時記憶部１１３に記録する機能。なお、各単語の重みは、その単語が含まれていた発話コマンドの合成重みとする。また、複数の発話コマンドに同一の単語（例えば、図６、図７における「起動」など）が含まれている場合は、その単語が含まれている発話コマンドの合成重みの合計値を、その単語の重みとする。

・コマンド表記憶部１１０を参照し、ユーザがインストールしているアプリケーションが共通単語辞書を必要としているか否かを判定し、必要である場合は、該当する共通単語辞書を共通単語辞書記憶部１１１から入力し、単語辞書一時記録部１１３に記録する機能。

・音声認識に必要な全ての単語辞書を単語辞書一時記憶部１１３に記録した後、音声認識部１０３に対して音声認識開始を指示する機能。

音声認識部１０３は、単語辞書一時記憶部１１３に記録されている単語辞書、言語モデル１０８、及び、音響モデル１０９を利用して、送受信部１０１を介して受信した音声認識要求中の音声データに対して音声認識を行い、音声データに含まれている単語毎に、その単語に対する候補単語と、この候補単語に対する信頼度（単語の重みを考慮した信頼度）とを求め、求めた候補単語の中から信頼度が高い順に複数の候補単語を選択する機能を有する。本実施の形態では、各単語毎に、第１候補単語〜第３候補単語を選択する。

ここで、単語の重みを考慮した信頼度としては、例えば次式（１）に示す事後確率Ｐ（Ｗ｜Ｘ）を利用することができる。

Ｐ（Ｗ｜Ｘ）＝Ｐ（Ｘ｜Ｗ）・Ｐ（Ｗ）・ＷＦ／Ｐ（Ｘ）・・・（１）

なお、式（１）においてＰ（Ｗ）は単語Ｗの出現確率、Ｐ（Ｘ）は音声データＸの出現確率、ＷＦは単語辞書一時記憶部１１３に記録されている単語辞書に設定されている単語Ｗに対する重みである。

コマンド認識部１０４は、次のような機能を有する。

・音声認識要求の送信元ユーザのユーザ名に関連付けて個人データ記憶部１１４に表記が記録されている発話コマンドの中に、コマンド表記憶部１１０に記録されている比較方法で比較したときに、音声認識部１０３で選択された候補単語を連結した候補単語列と一致する発話コマンドが存在するか否かを調べ、存在する場合は、その発話コマンドの表記を音声データに含まれている発話コマンドの最終的な認識結果とする機能。

・発話コマンドの最終的な認識結果と、非発話コマンド部の認識結果とを音声認識要求の送信元のクライアント端末へ送信する機能。

なお、音声認識サーバ１は、コンピュータにより実現可能であり、その場合は、例えば、次のようにする。コンピュータを、送受信部１０１、単語辞書作成部１０２、音声認識部１０３、コマンド認識部１０４、重み変更部１０５、個人データ記録部１０６、及び、追加部１０７として機能させるためのプログラムを記録したディスク、半導体メモリ、その他の記録媒体を用意し、コンピュータに上記プログラムを読み取らせる。コンピュータは、読み取ったプログラムに従って自身の動作を制御することにより、自コンピュータ上に、上記各部１０１〜１０７を実現する。

[第１の実施の形態の動作]
次に、本実施の形態の動作について詳細に説明する。

先ず、クライアント端末２−１〜２−ｎの機能呼出し部２３により機能を呼び出すことができるアプリケーション（新アプリケーション）を追加する場合の動作を説明する。

管理者は、新アプリケーションを追加する場合、新アプリケーションのアプリケーション名と、新アプリケーションの機能を呼び出すために使用する発話コマンドの表記と、その発話コマンドの表記と音声認識結果との比較方法と、その発話コマンドが発話されたときの動作内容とを含んだ追加指示を入出力部１１５から入力する。

これにより、追加部１０７は、図９のフローチャートに示すように、コマンド表記憶部１１０に、追加指示に含まれている新アプリケーションのアプリケーション名と、新アプリケーションの機能を呼び出すために使用する発話コマンドの表記と、その発話コマンドの表記と音声認識結果との比較方法と、その発話コマンドが発話されたときの動作内容とを記録する（ステップＳ９１）。その後、追加部１０７は、新アプリケーションのアプリケーション名と、そのアプリケーションの機能を呼び出すために使用する発話コマンドの表記および読みとをコマンド重み記憶部１１２に記録すると共に、管理者の指示に従って新たに記録した各発話コマンドの重みを記録する（ステップＳ９２）。

また、個人データ記録部１０６は、新アプリケーションを自身のクライアント端末２−ｋ（１≦ｋ≦ｎ）にインストールしたユーザが、新アプリケーションを利用できるようにするため、定期的に図１０のフローチャートに示す処理を行っている。

個人データ記録部１０６は、先ず、クラウドサーバ３のアプリケーション一覧情報記憶部３１から、各ユーザのクライアント端末２−１〜２−ｎにインストールされているアプリケーションの一覧を取得する（ステップＳ１０１）。

次に、個人データ記録部１０６は、クラウドサーバ３から取得したアプリケーションの一覧と、個人データ記憶部１１４の内容とに基づいて、ユーザ毎に、前回のアプリケーションの一覧取得時以降にインストールされたアプリケーションがあるか否かを判定する。そして、そのようなアプリケーションがあるユーザについては、コマンド表記憶部１１０から上記アプリケーションの機能を呼び出すために使用する発話コマンドの表記を取得し、ユーザ名に関連付けて上記アプリケーションのアプリケーション名と、コマンド表記憶部１１０から取得した発話コマンドの表記と、各発話コマンドの重みとを個人データ記憶部１１４に記録する。なお、重みは、予め定められているデフォルト値を設定する（ステップＳ１０２）。

更に、前回のアプリケーションの一覧取得時以降にインストールしたアプリケーションがあるユーザについては、そのユーザのクライアント端末に対して、上記アプリケーションのアプリケーション名と、コマンド表記憶部１１０から取得した上記アプリケーションの機能を呼び出すために使用する発話コマンドの表記および動作内容とを含む追加指示を送信する（ステップＳ１０３）。これにより、クライアント端末内の追加部２４は、追加指示に含まれているアプリケーション名と、発話コマンドの表記および動作内容とをコマンド動作対応表記憶部２５に記録する。

次に、クライアント端末２−１のユーザがアプリケーションの機能を呼び出すために、音声入力部２１に発話コマンドを含む音声を入力した場合の動作を説明する。なお、クライアント端末２−１のユーザのユーザ名は「Ｕ１」であるとする。

クライアント端末２−１の音声入力部２１は、ユーザが発話した発話コマンドを含む音声の音声データと、クライアント端末２−１のユーザのユーザ名「Ｕ１」とを含む認識要求を、送受信部２２を介して音声認識サーバ１へ送信する。なお、以下の説明では、ユーザの発話内容は「明日駅前の広場に集合とメモして」であるとする。この発話内容に含まれる発話コマンドは「メモして」である。

音声認識サーバ１内の単語辞書作成部１０２は、送受信部１０１を介して音声認識要求を受信すると、図１１のフローチャートに示すように、送信元ユーザのクライアント端末２−１にインストールされているアプリケーションに関する情報を、コマンド重み記憶部１１２および個人データ記憶部１１４から入力する（ステップＳ１１１）。例えば、コマンド重み記憶部１１２および個人データ記憶部１１４の内容がそれぞれ図６および図７に示すものである場合は、個人データ記憶部１１４から、ユーザ名「Ｕ１」に関連付けて記録されているアプリケーション名「連絡先アプリ」「メモアプリ」「リマインダーアプリ」、発話コマンドの表記、及び重み（個人側重み）を入力し、コマンド重み記憶部１１２からアプリケーション名「連絡先アプリ」「メモアプリ」「リマインダーアプリ」に関連付けて記録されている発話コマンドの表記、読み、及び重み（アプリ側重み）を入力する。

次に、単語辞書作成部１０２は、ステップＳ１１１で入力した発話コマンド毎に、アプリ側重みと個人側重みとを乗算し、合成重みを算出する（ステップＳ１１２）。例えば、図６および図７の例では、発話コマンド「連絡先を起動」は、アプリ側重みが「２」で、個人側重みが「１」であるので、合成重みは「２×１＝２」となる。また、発話コマンド「さんの住所は」は、アプリ側重みが「１」、個人側重みが「２．５」であるので、合成重みは「１×２．５＝２．５」となる。

その後、単語辞書作成部１０２は、入力した各発話コマンドを形態素解析により単語に分割し、各単語の表記、読み、及び重み（合成重み）が設定された単語辞書を作成し、単語辞書一時記憶部１１３に記録する（ステップＳ１１３、Ｓ１１４）。なお、各単語の重みは、その単語が含まれていた発話コマンドの合成重みとする。また、複数の発話コマンドに同一の単語（例えば、図６、図７における「起動」など）が含まれている場合は、その単語が含まれている発話コマンドの合成重みの合計値を、その単語の重みとする。この例の場合、単語辞書一時記憶部１１３に記録される単語辞書は、図８に示すものとなる。

次に、単語辞書作成部１０２は、コマンド表記記憶部１１０を参照し、ユーザがインストールしているアプリケーションが共通単語辞書を必要としているか否かを判定し、必要である場合は、該当する共通単語辞書を共通単語辞書記憶部１１１から入力し、単語辞書一時記録部１１３に記録する（ステップＳ１１５）。この例の場合、ユーザ名「Ｕ１」のユーザのクライアント端末２−１にインストールされているアプリケーションは「連絡アプリ」「メモアプリ」「リマインダーアプリ」であるので、「アドレス帳単語辞書」「メモ内容辞書」「リマインド内容辞書」が必要であると判定され、それらが単語辞書一時記憶部１１３に記録される。

そして、音声認識に必要な全ての単語辞書を単語辞書一時記憶部１１３に記録すると、単語辞書作成部１０２は、音声認識部１０３に対して音声認識開始を指示する（ステップＳ１１６）。

これにより、音声認識部１０３は、単語辞書一時記憶部１１３に記録されている単語辞書、言語モデル１０８、及び、音響モデル１０９を利用して、送受信部１０１を介して受信した音声認識要求中の音声データに対して音声認識を行い、音声データに含まれている単語毎に、その単語に対する候補単語と、候補単語の信頼度（単語の重みを考慮した信頼度）とを求める（ステップＳ１２１、Ｓ１２２）。その後、音声認識部１０３は、求めた候補単語の中から信頼度が高い順に複数の候補単語を選択し、選択した候補単語と信頼度との組を認識結果として出力する（ステップＳ１２３）。なお、本実施の形態では、各単語毎に、第１候補単語〜第３候補単語を選択する。また、以下の説明では、認識結果として図１３に示す認識結果が出力されたとする。

コマンド認識部１０４は、音声認識部１０３から図１３に示す認識結果が出力されると、先ず、図１４のフローチャートに示すように、送信元ユーザのユーザ名Ｕ１に関連付けて個人データ記憶部１１４に表記が記録されている発話コマンドの表記の中に、コマンド表記憶部１１０に記録されている比較方法（全文一致または後方一致）で比較したときに、音声認識部１０３で選択された第１候補単語を連結した候補単語列と一致する発話コマンドが存在するか否かを調べる（ステップＳ１４１）。

そして、そのような発話コマンドが存在する場合（ステップＳ１４１がＹｅｓ）は、その発話コマンドの表記を認識結果として、要求元のクライアント端末２−１へ送信する。また、非発話コマンド部が存在する場合は、その部分の認識結果として、非発話コマンド部を構成する各単語の第１候補単語を連結した候補単語列の表記もクライアント端末２−１へ送る（ステップＳ１４４）。これに対して、そのような発話コマンドが存在しない場合（ステップＳ１４１がＮｏ）は、ステップＳ１４２に移行する。この例の場合、第１候補単語を連結した候補単語列は「明日駅前の広場に集合とメモ指定」であり、一致する発話コマンドは存在しないので、ステップＳ１４２に移行することになる。

ステップＳ１４２では、送信元ユーザのユーザ名Ｕ１に関連付けて個人データ記憶部１１４に表記が記録されている発話コマンドの表記の中に、コマンド表記憶部１１０に記録されている比較方法で比較したときに、音声認識部１０３で選択された信頼度が一定値（例えば、0.5）以上の候補単語を連結した候補単語列と一致する発話コマンドが存在するか否かを調べる。そして、そのような発話コマンドが存在しない場合（ステップＳ１４２がＮｏ）は、クライアント端末２−１に対して発話コマンドが認識されなかった旨を通知する（ステップＳ１４５）。これに対して、そのような発話コマンドが存在する場合（ステップＳ１４２がＹｅｓ）は、ステップＳ１４３に移行する。この例の場合、単語「と」「メモ」に対する第１候補単語と、単語「して」に対する対する第２候補単語「して」とを連結した候補単語列は、発話コマンド「とメモして」と一致するので、ステップＳ１４３に移行する。

ステップＳ１４３では、比較一致となった発話コマンドは、１個だけか否かを判定する。そして、１個だけの場合（ステップＳ１４３がＹｅｓ）は、一致した発話コマンドの表記を発話コマンドの認識結果としてクライアント端末２−１へ送信する。また、非発話コマンド部が存在する場合は、その部分の認識結果もクライアント端末２−１へ送信する。（ステップＳ１４６）これに対して、一致する発話コマンドが複数存在する場合（ステップＳ１４３がＮｏ）は、ステップＳ１４７に移行する。この例の場合、一致する発話コマンドは１個だけであるので、コマンド認識部１０４は、発話コマンドの認識結果として「とメモして」をクライアント端末２−１へ送信すると共に、非発話コマンド部の認識結果として「明日駅前の広場に集合」をクライアント端末２−１へ送信する。

ステップＳ１４７では、発話コマンドを構成する単語の信頼度の平均値が最も高い発話コマンドの表記を、発話コマンドの認識結果として、クライアント端末２−１へ送信する。また、非発話コマンドが存在する場合は、その部分の認識結果もクライアント端末２−１へ送信する（ステップＳ１４７）。

クライアント端末２−１の機能呼出し部２３は、音声認識サーバ１から発話コマンドと認識されなかった旨の通知を受けると、通知内容を表示部（図示せず）に表示し、ユーザに発話コマンドを再入力することを促す。また、機能呼出し部２３は、音声認識サーバ１から、発話コマンドの認識結果「とメモして」と、非発話コマンド部の認識結果「明日駅前の広場に集合」とが送られてくると、発話コマンドの認識結果「メモして」に関連付けてコマンド動作対応表記憶部２５に記録されている動作内容の動作を実行する。コマンド動作対応表記憶部２５の内容が図３に示すものであるとすると、機能呼出し部２３は、メモアプリを呼出し、非発話コマンド部の認識結果「明日駅前の広場に集合」を渡すことになる。

次に、重み変更部１０５の動作について説明する。重み変更部１０５は、図１５に示すように、ユーザ名に関連付けて、そのユーザがインストールしているアプリケーションの名前と、使用回数とを管理している。この管理は、例えば、送受信部１０１が受信した音声認識要求に含まれているユーザ名に関連付けて記録されている使用回数の内の、コマンド認識部１０４で認識された発話コマンドを利用するアプリケーションの使用回数をインクリメントすることにより行う。また、重み変更部１０５は、定期的に図１６のフローチャートに示す処理を行う。

重み変更部１０５は、アプリケーションの使用回数を管理しているユーザのユーザ名の内の先頭のユーザ名に注目する（ステップＳ１６１）。今、例えば、ユーザ名「Ｕ１」に注目したとする。次に、注目したユーザ名「Ｕ１」のユーザがインストールしている連絡先アプリ、メモアプリ、リマインダーアプリの使用回数の合計値を求める（ステップＳ１６２）。図１５の例の場合、合計値は、１１４＋３６＋１０＝１６０となる。

その後、次式（２）に示す演算を行うことにより、各アプリケーションの各発話コマンドに対する重みを算出する（ステップＳ１６３）。

重み＝（アプリケーションの使用回数）÷（アプリケーションの使用回数の合計値）
×１０＋（デフォルト値）・・・（２）

例えば、デフォルト値を「１」とすると、連絡先アプリケーションの各発話コマンドの重みは、次式（３）に示すように「８．１２５」となる。

重み＝１１４÷（１１４＋３６＋１０）×１０＋１
＝１１４÷１６０×１０＋１
＝８．１２５・・・（３）

その後、重み変更部１０５は、個人データ記憶部１１４にユーザ名「Ｕ１」に関連付けて記録されている各アプリケーションの各発話コマンドの重みをステップＳ１６４で求めた重みに変更する（ステップＳ１６５）。重み変更部１０５は、以上の処理を未注目のユーザ名がなくなるまで繰り返し行い、未注目のユーザ名がなくなると（ステップＳ１６６がＹｅｓ）、その処理を終了する。

なお、重みの変更方法はこれに限られるものではなく、例えば、次のようにしても良い。クライアント端末２−ｋのユーザは、認識精度が悪いと感じた発話コマンドの表記とユーザ名「Ｕｋ」とを含む重み変更要求を音声認識サーバ１へ送信する。音声認識サーバ１内の重み変更部１０５は、重み変更指示を受信すると、ユーザ名「Ｕｋ」に関連付けて個人データ記憶部１１４に記録されている上記発話コマンドの重みを所定量インクリメントする。また、上述した説明では、音声認識結果を音声認識要求の要求元へ返すようにしたが、要求元ユーザによって予め指定されている家電製品などに送り、その動作を制御するようにすることもできる。

[第１の実施の形態の効果]
本実施の形態によれば、音声認識結果が端末操作可能な発話コマンド以外のものになってしまう危険性を少なくすることができる、という効果を得ることができる。その理由は、コマンド重み記憶部１１２に表記が記録されている発話コマンドであって、その発話コマンドの表記と同一の表記が、音声認識部１０３で選択された候補単語を連結した候補単語列に存在する発話コマンドを、上記音声に含まれている発話コマンドと認識するコマンド認識部１０４を備えているからである。

また、本実施の形態によれば、ユーザ毎に、特定の発話コマンドを認識されやすくすることができるという効果を得ることができる。その理由は、音声認識部１０４が候補単語の信頼度を求める際、個人データ記憶部１１４に記録されている、音声データの送信元のユーザのクライアント端末にインストールされているアプリケーションで使用する発話コマンドの重みを考慮するようにしているからである。

更に、本実施の形態によれば、アプリケーション毎に、特定の発話コマンドを認識されやすくすることができるという効果を得ることができる。その理由は、音声認識部１０３が候補単語の信頼度を求める際、コマンド重み記憶部１１２に記録されている発話コマンドの重みの内、音声データの送信元のクライアント端末にインストールされているアプリケーションの機能を呼び出すために使用する発話コマンドの重みも考慮するようにしているからである。

また、本実施の形態によれば、クライアント端末において発話コマンドを用いて機能を呼び出すことができるアプリケーションを追加することができるという効果を得ることができる。その理由は、音声認識サーバ１が、クライアント端末の機能呼び出し部２３により機能を呼び出すことができる新アプリケーションを追加する場合、上記新アプリケーションの機能を呼び出すために使用するコマンドの表記と重みとをコマンド重み記憶部１１２に記録する追加部と、上記クライアント端末に上記新アプリケーションがインストールされている場合、上記個人データ記憶部１１４に、上記クライアント端末のユーザに関する情報として、上記新アプリケーションの機能を呼び出すために使用するコマンドの表記と重みとを記録する個人データ記録部と備えているからである。

[本発明の第２の実施の形態]
次に、本発明の第２の実施の形態に係る発話コマンド認識システムについて説明する。

図１７を参照すると、本発明の第２の実施の形態に係る発話コマンド認識システムは、音声認識サーバ１７０と、クライアント端末１８０とを備えている。

音声認識サーバ１７０は、コマンド重み記憶部１７１と、音声認識部１７２と、コマンド認識部１７３とを備えている。

コマンド重み記憶部１７１には、認識対象となる発話コマンドの表記が記録されている。

音声認識部１７２は、クライアント端末から送られてくる、ユーザが発話した音声の音声データに対して音声認識を行い、上記音声に含まれている単語毎に、その単語に対する候補単語と該候補単語に対する信頼度とを求め、求めた候補単語の中から信頼度が高い順に複数の候補単語を選択する。

コマンド認識部１７３は、コマンド重み記憶部１７１に表記が記録されている発話コマンドであって、その発話コマンドの表記と同一の表記が、音声認識部１７２で選択された候補単語を連結した候補単語列に存在する発話コマンドを、上記音声に含まれている発話コマンドと認識する。

[第２の実施の形態の効果]
本発明によれば、音声認識結果が端末操作可能な発話コマンド以外のものになってしまう危険性を少なくすることができる、という効果を得ることができる。その理由は、コマンド重み記憶部１７１に表記が記録されている発話コマンドであって、その発話コマンドの表記と同一の表記が、音声認識部１７２で選択された候補単語を連結した候補単語列に存在する発話コマンドを、上記音声に含まれている発話コマンドと認識するコマンド認識部１７３を備えているからである。

本発明は、スマートフォンなどのモバイル機器、パーソナルコンピュータ、音声認識対応のネットワーク家電など、音声によって操作可能な機器からの音声を認識する場合に適用することができる。

１・・・音声認識サーバ
１０１・・・送受信部
１０２・・・単語辞書作成部
１０３・・・音声認識部
１０４・・・コマンド認識部
１０５・・・重み記憶部
１０６・・・個人データ記録部
１０７・・・追加部
１０８・・・言語モデル
１０９・・・音響モデル
１１０・・・コマンド表記憶部
１１１・・・共通単語辞書記憶部
１１２・・・コマンド重み記憶部
１１３・・・単語辞書一時記憶部
１１４・・・個人データ記憶部
１１５・・・入出力部
２−１〜２−ｎ・・・クライアント端末
２１・・・音声入力部
２２・・・送受信部
２３・・・機能呼出し部
２４・・・追加部
２５・・・コマンド動作対応表記憶部
２６・・・記憶装置
２７−１〜２７−ｍ・・・アプリケーション
３・・・クラウドサーバ
３１・・・アプリケーション一覧情報記憶部
１７０・・・音声認識サーバ
１７１・・・コマンド重み記憶部
１７２・・・音声認識部
１７３・・・コマンド認識部
１８０・・・クライアント端末

Claims

クライアント端末と音声認識サーバとを備え、
前記音声認識サーバは、
認識対象となる発話コマンドの表記が記録されたコマンド重み記憶部と、
前記クライアント端末から送られてくる、ユーザが発話した音声の音声データに対して音声認識を行い、前記音声に含まれている単語毎に、その単語に対する候補単語と該候補単語に対する信頼度とを求め、該求めた候補単語の中から信頼度が高い順に複数の候補単語を選択する音声認識部と、
前記コマンド重み記憶部に表記が記録されている発話コマンドであって、その発話コマンドの表記と同一の表記が、前記音声認識部で選択された候補単語を連結した候補単語列に存在する発話コマンドを、前記音声に含まれている発話コマンドと認識するコマンド認識部とを備えることを特徴とする発話コマンド認識システム。
請求項１記載の発話コマンド認識システムにおいて、
前記音声認識サーバは、ユーザ毎に、そのユーザのクライアント端末にインストールされているアプリケーションの機能を呼び出すために使用する発話コマンドの表記と重みとが関連付けて記録された個人データ記憶部を備え、且つ、
前記音声認識部は、候補単語の信頼度を求める際、前記個人データ記憶部に記録されている、前記音声データの送信元のユーザのクライアント端末にインストールされているアプリケーションで使用する発話コマンドの重みを考慮することを特徴とする発話コマンド認識システム。
請求項２記載の発話コマンド認識システムにおいて、
前記コマンド重み記憶部には、アプリケーション毎に、そのアプリケーションの機能を呼び出すために使用する発話コマンドの表記と重みとが記録され、
前記音声認識部は、候補単語の信頼度を求める際、前記コマンド重み記憶部に記録されている発話コマンドの重みの内、前記音声データの送信元のクライアント端末にインストールされているアプリケーションの機能を呼び出すために使用する発話コマンドの重みも考慮することを特徴とする発話コマンド認識システム。
請求項２または３記載の発話コマンド認識システムにおいて、
前記音声認識サーバは、ユーザ毎に、そのユーザのクライアント端末のインストールされている各アプリケーションの使用回数を管理し、該管理している各アプリケーションの使用回数に応じて、前記個人データ記憶部に記録されている発話コマンドの重みを変更する重み変更部を備えることを特徴とする発話コマンド認識システム。
請求項３または４記載の発話コマンド認識システムにおいて、
前記コマンド認識部は、認識結果を前記音声データの送信元のクライアント端末へ送信し、
前記クライアント端末は、前記コマンド認識部から送られてきた認識結果に基づいて、自クライアント端末にインストールされているアプリケーションの機能を呼び出す機能呼出し部を備え、
前記音声認識サーバは、
前記機能呼び出し部により機能を呼び出すことができる新アプリケーションを追加する場合、前記新アプリケーションの機能を呼び出すために使用するコマンドの表記と重みとを前記コマンド重み記憶部に記録する追加部と、
前記クライアント端末に前記新アプリケーションがインストールされている場合、前記個人データ記憶部に、前記クライアント端末のユーザに関する情報として、前記新アプリケーションの機能を呼び出すために使用するコマンドの表記と重みとを記録する個人データ記録部と備えたことを特徴とする発話コマンド認識システム。
認識対象となる発話コマンドの表記が記録されたコマンド重み記憶部と、
クライアント端末から送られてくる、ユーザが発話した音声の音声データに対して音声認識を行い、前記音声に含まれている単語毎に、その単語に対する候補単語と該候補単語に対する信頼度とを求め、該求めた候補単語の中から信頼度が高い順に複数の候補単語を選択する音声認識部と、
前記コマンド重み記憶部に表記が記録されている発話コマンドであって、その発話コマンドの表記と同一の表記が、前記音声認識部で選択された候補単語を連結した候補単語列に存在する発話コマンドを、前記音声に含まれている発話コマンドと認識するコマンド認識部とを備えることを特徴とする音声認識サーバ。
認識対象となる発話コマンドの表記が記録されたコマンド重み記憶部と、音声認識部と、コマンド認識部とを備えたコンピュータが実行する発話コマンド認識方法であって、
前記音声認識武が、前記クライアント端末から送られてくる、ユーザが発話した音声の音声データに対して音声認識を行い、前記音声に含まれている単語毎に、その単語に対する候補単語と該候補単語に対する信頼度とを求め、該求めた候補単語の中から信頼度が高い順に複数の候補単語を選択し、
コマンド認識武が、前記コマンド重み記憶部に表記が記録されている発話コマンドであって、その発話コマンドの表記と同一の表記が、前記音声認識部で選択された候補単語を連結した候補単語列に存在する発話コマンドを、前記音声に含まれている発話コマンドと認識することを特徴とする発話コマンド認識方法。
認識対象となる発話コマンドの表記が記録されたコマンド重み記憶部を備えたコンピュータを、
クライアント端末から送られてくる、ユーザが発話した音声の音声データに対して音声認識を行い、前記音声に含まれている単語毎に、その単語に対する候補単語と該候補単語に対する信頼度とを求め、該求めた候補単語の中から信頼度が高い順に複数の候補単語を選択する音声認識部、
前記コマンド重み記憶部に表記が記録されている発話コマンドであって、その発話コマンドの表記と同一の表記が、前記音声認識部で選択された候補単語を連結した候補単語列に存在する発話コマンドを、前記音声に含まれている発話コマンドと認識するコマンド認識部として機能させるためのプログラム。