JP2020118962A - 音声認識システム、音声認識装置、及び音声認識機能付き本 - Google Patents

音声認識システム、音声認識装置、及び音声認識機能付き本 Download PDF

Info

Publication number
JP2020118962A
JP2020118962A JP2020000093A JP2020000093A JP2020118962A JP 2020118962 A JP2020118962 A JP 2020118962A JP 2020000093 A JP2020000093 A JP 2020000093A JP 2020000093 A JP2020000093 A JP 2020000093A JP 2020118962 A JP2020118962 A JP 2020118962A
Authority
JP
Japan
Prior art keywords
information
recognition
character string
voice
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020000093A
Other languages
English (en)
Inventor
敦 菊田
Atsushi Kikuta
敦 菊田
高広 越田
Takahiro KOSHIDA
高広 越田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ryoyo Electro Corp
Original Assignee
Ryoyo Electro Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ryoyo Electro Corp filed Critical Ryoyo Electro Corp
Publication of JP2020118962A publication Critical patent/JP2020118962A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】認識精度の向上を可能とする音声認識システム、音声認識装置、及び音声認識機能付き本を提供する。【解決手段】音声データを取得する取得手段と、音素認識により、音声データに含まれる開始無音区間及び終了無音区間を抽出し、開始無音区間と終了無音区間との間に挟まれた音素及び休止区間の配列を、認識対象データとして抽出する抽出手段と、文字列データベースを参照し、認識対象データの有する配列に対応する音素情報を選択し、選択された音素情報に紐づく文字列情報及びクラスIDを、候補データとして複数検出する検出手段と、文法データベースを参照し、複数の候補データを文法情報に基づき組み合あわせたセンテンスを生成し、センテンスに含まれる候補データ毎に対応する信頼度を算出する算出手段と、選択手段と、生成手段とを備えることを特徴とする。【選択図】図1

Description

本発明は、音声に対応する認識情報を生成する音声認識システム、音声認識装置、及び音声認識機能付き本に関する。
従来、音声認識に関する技術として、例えば特許文献1の認知機能評価装置や、特許文献2の発話内容の把握システム等が提案されている。
特許文献1の認知機能評価装置では、フォルマント解析部は、対象者の音声に含まれる特定の音素の瞬時音圧の時間変動を対象期間に亘って表している対象データを受け取る。そして、フォルマント解析部は、対象期間を複数のフレームに分割し、特定のフォルマントの周波数を、2つ以上の対象フレームのそれぞれについて求める。特徴解析部は、対象フレーム毎に求められた特定のフォルマントの周波数について特徴量を求める。評価部は、特徴量に基づいて対象者の認知機能を評価する。
特許文献2では、録取された音声データに対して音素基準の音声認識を行ってインデクシングされたデータを保存し、これを用いて核心語に基づく発話内容を把握することにより、発話内容の把握が正確に、手軽に且つ速やかに行われる、録取された音声データに対する核心語の取出に基づく発話内容の把握システムと、このシステムを用いたインデクシング方法及び発話内容の把握方法等が開示されている。
特開2018−50847号公報 特開2015−539364号公報
ここで、音声認識に関する技術では、様々な分野での応用が期待される一方で、認識精度の向上が課題として挙げられている。認識精度を向上させるために、音素を用いる方法が注目を集めているが、音声データから音素の配列を取得する際のバラつき等により、依然として認識精度の向上が課題として挙げられている。
この点、特許文献1では、対象者の音声に基づく特定のフォルマント周波数について特徴量を求め、特徴量に基づいて対象者の認知機能を評価することで、精度の向上を図っている。しかしながら、特許文献1の開示技術では、対象者の発する音声の内容までを認識することができない。
また、特許文献2では、核心語に基づく発話内容を把握することにより、発話内容の把握を実現する技術が開示されている。しかしながら、特許文献2の開示技術では、音素の類似する核心語が発話内容に含まれる場合、認識精度が悪くなる恐れがある。このような状況により、認識精度の向上を可能とする音声認識に関する技術が望まれている。
そこで本発明は、上述した問題に鑑みて案出されたものであり、その目的とするところは、認識精度の向上を可能とする音声認識システム、音声認識装置、及び音声認識機能付き本を提供することにある。
第1発明に係る音声認識システムは、音声に対応する認識情報を生成する音声認識システムであって、前記音声に基づき、音声データを取得する取得手段と、音素認識により、前記音声データに含まれる開始無音区間及び終了無音区間を抽出し、前記開始無音区間と前記終了無音区間との間に挟まれた音素及び休止区間の配列を、前記音素認識により認識対象データとして抽出する抽出手段と、予め取得された文字列情報と、前記文字列情報に紐づく音素情報と、前記文字列情報に付与されたクラスIDとが記憶された文字列データベースと、前記文字列データベースを参照し、前記認識対象データの有する前記配列に対応する前記音素情報を選択し、選択された前記音素情報に紐づく前記文字列情報及び前記クラスIDを、候補データとして複数検出する検出手段と、予め取得された前記クラスIDの配列順序を示す文法情報が記憶された文法データベースと、前記文法データベースを参照し、複数の前記候補データを前記文法情報に基づき組み合あわせたセンテンスを生成し、前記センテンスに含まれる前記候補データ毎の前記文字列情報に対する信頼度を、前記文法データベースを用いて算出する算出手段と、前記信頼度に基づき、複数の前記候補データから評価データを選択する選択手段と、前記評価データに基づき、前記認識情報を生成する生成手段とを備えることを特徴とする。
第2発明に係る音声認識システムは、第1発明において、予め取得された前記文字列情報と、前記文字列情報を組み合わせた参照センテンスと、前記文字列情報毎に付与された閾値とが記憶された参照データベースをさらに備え、前記生成手段は、前記参照データベースを参照し、前記参照センテンスのうち、前記評価データに対応する第1参照センテンスを指定する指定手段と、前記評価データに対応する前記信頼度と、前記第1参照センテンスに含まれる第1文字列情報に付与された第1閾値とを比較する比較手段と、を有し、前記比較手段の比較結果に基づき、前記認識情報を生成することを特徴とする。
第3発明に係る音声認識装置は、音声に対応する認識情報を生成する音声認識装置であって、前記音声に基づき、音声データを取得する取得部と、音素認識により、前記音声データに含まれる開始無音区間及び終了無音区間を抽出し、前記開始無音区間と前記終了無音区間との間に挟まれた音素及び休止区間の配列を、前記音素認識により認識対象データとして抽出する抽出部と、予め取得された文字列情報と、前記文字列情報に紐づく音素情報と、前記文字列情報に付与されたクラスIDとが記憶された文字列データベースと、前記文字列データベースを参照し、前記認識対象データの有する前記配列に対応する前記音素情報を選択し、選択された前記音素情報に紐づく前記文字列情報及び前記クラスIDを、候補データとして複数検出する検出部と、予め取得された前記クラスIDの配列順序を示す文法情報が記憶された文法データベースと、前記文法データベースを参照し、複数の前記候補データを前記文法情報に基づき組み合あわせたセンテンスを生成し、前記センテンスに含まれる前記候補データ毎の前記文字列情報に対する信頼度を、前記文法データベースを用いて算出する算出部と、前記信頼度に基づき、複数の前記候補データから評価データを選択する選択部と、前記評価データに基づき、前記認識情報を生成する生成部とを備えることを特徴とする。
第4発明に係る音声認識機能付き本は、第3発明における音声認識装置を備えることを特徴とする。
本発明によれば、抽出手段は、音素及び休止区間の配列を認識対象データとして抽出する。また、検出手段は、認識対象データの有する配列に対応する音素情報を選択し、候補データを検出する。このため、認識対象データにおける音素のみを考慮した配列に対して候補データを検出する場合に比べ、誤認識を低減させることができる。これにより、認識精度の向上を図ることが可能となる。
また、本発明によれば、文字列データベースには、音素と休止区間との配列に対応する音素情報、及び音素情報に紐づく文字列情報が記憶される。このため、音素全体に対してパターンマッチングするために記憶するデータに比べて、データ容量の削減や、データ蓄積の簡易化を実現することができる。
本発明によれば、抽出部は、音素及び休止区間の配列を認識対象データとして抽出する。また、検出部は、認識対象データの有する配列に対応する音素情報を選択し、候補データを検出する。このため、認識対象データにおける音素のみを考慮した配列に対して候補データを検出する場合に比べ、誤認識を低減させることができる。これにより、認識精度の向上を図ることが可能となる。
また、本発明によれば、文字列データベースには、音素と休止区間との配列に対応する音素情報、及び音素情報に紐づく文字列情報が記憶される。このため、音素全体に対してパターンマッチングするために記憶するデータに比べて、データ容量の削減や、データ蓄積の簡易化を実現することができる。
また、本発明によれば、認識精度の高い音声認識機能付き本の実現を可能とする。
図1は、第1実施形態における音声認識システムの構成の一例を示す模式図である。 図2は、第1実施形態における音声認識システムの動作の一例を示す模式図である。 図3(a)は、第1実施形態における音声認識装置の構成の一例を示す模式図であり、図3(b)は、第1実施形態における音声認識装置の機能の一例を示す模式図であり、図3(c)は、第1実施形態における生成部の一例を示す模式図である。 図4は、第1実施形態における音声認識装置の各機能の一例を示す模式図である。 図5は、文字列データベース、文法データベース、参照データベース、及び発話データベースの一例を示す模式図である。 図6(a)は、第1実施形態における音声認識システムの動作の一例を示すフローチャートであり、図6(b)は、反映手段の一例を示すフローチャートであり、図6(c)は、第1出力手段及び第2出力手段の一例を示すフローチャートである。 図7(a)は、指定手段及び比較手段の一例を示すフローチャートであり、図7(b)は、更新手段の一例を示すフローチャートであり、図7(c)は、設定手段の一例を示すフローチャートである。 図8は、更新手段の一例を示す模式図である。 図9は、設定手段の一例を示す模式図である。 図10は、設定手段の第1変形例を示す模式図である。 図11(a)及び図11(b)は、設定手段の第2変形例を示す模式図である。 図12は、条件情報の一例を示す模式図である。 図13は、文字列データベース及び参照データベースの変形例を示す模式図である。 図14は、参照データベースの第1変形例を示す模式図である。 図15は、第2実施形態における音声認識システムの構成の一例を示す模式図である。 図16は、音声認識機能付き本の構成の一例を示す模式図である。 図17は、物語データベースの一例を示す模式図である。 図18(a)は、参照データベースの第2変形例を示す模式図であり、図18(b)は、生成部の動作の一例を示す模式図である。 図19は、参照データベースの第3変形例を示す模式図である。
以下、本発明の実施形態における音声認識システム及び音声認識装置の一例について、図面を参照しながら説明する。
(第1実施形態:音声認識システム100の構成)
図1〜図5を参照して、第1実施形態における音声認識システム100の構成の一例について説明する。図1は、本実施形態における音声認識システム100の全体の構成を示す模式図である。
音声認識システム100は、利用者の用途に応じて構築された文字列データベース及び文法データベースを参照し、利用者の音声に対応する認識情報を生成する。文字列データベースには、利用者が発すると想定される文字列(文字列情報)と、文字列情報に対応する音素(音素情報)が記憶される。このため、上記文字列及び音素を蓄積することで用途に応じた認識情報を生成でき、様々な用途に展開することが可能となる。
特に、文字列データベースに記憶される音素の配列(音素情報)は、音声に含まれる休止区間を踏まえて分類することで、音声に対する認識情報の精度を飛躍的に向上させることが可能となることを、発明者が発見した。また、音声認識システム100では、例えば文字列データベースに記憶された文字列情報に限定して、音声に対する認識情報を生成する。このため、用途毎に文法データベースの内容を変更することで、用途に適した認識情報を高精度に生成することが可能となる。
文法データベースには、文字列情報を組み合わせたセンテンスを生成するために必要な文法情報が記憶される。文法情報は、文字列情報毎に紐づくクラスIDの配列順序を示す情報を複数含む。文法データベースを参照することで、休止区間を踏まえて分類された音素の配列に基づいて文字列情報を検出したあと、容易に各文字列情報を組み合わせることができる。これにより、音声に対する文法を考慮した認識情報を生成することができる。この結果、利用者等の発する音声の内容を踏まえた音声認識を高精度に実現することが可能となる。
図1に示すように、音声認識システム100は、音声認識装置1を備え、例えば収音装置2、制御装置3、及びサーバ5の少なくとも何れかを備えてもよい。音声認識システム100では、例えば収音装置2等を用いて利用者等の音声を収音し、音声認識装置1を用いて音声に対応する認識情報を生成する。認識情報は、音声を文字列に変換したテキストデータ等のほか、例えば制御装置3等を制御する情報を含み、例えば利用者に報知(返答)するための音声に関する情報(音声情報、発話情報)等を含んでもよい。
音声認識システム100では、音声認識装置1に対して、収音装置2や制御装置3が直接接続されるほか、例えば公衆通信網4を介して接続されてもよい。また、音声認識装置1に対して、例えば公衆通信網4を介して、サーバ5や利用者等の保有するユーザ端末6が、公衆通信網4を介して接続されてもよい。なお、音声認識装置1には、収音装置2及び制御装置3の少なくとも何れかが一体に形成されてもよい。
音声認識システム100の用途の一例として、例えば図2に示すように、利用者との疑似対話や、発声訓練等が、一例として挙げられる。例えば利用者に報知する音声に関する発話情報に基づき、スピーカ等の制御装置3から音声が出力される(発話情報出力1)。その後、利用者が音声を認識し、利用者から発せられた音声が、マイク等の収音装置2を用いて収音される(音声収集)。そして、収音された音声に基づく音声データを音声認識装置1が取得し、音声データに対する認識情報を生成する(認識情報生成)。生成された認識情報は、例えば利用者に再度報知するための発話情報を選択するときに用いられ、選択された発話情報に基づき、再度制御装置3から音声が出力される(発話情報出力2)。なお、発話情報出力2では、例えば生成された認識情報に基づき、制御装置3から音声が出力されてもよい。
<音声認識装置1>
図3(a)は、音声認識装置1の構成の一例を示す模式図である。音声認識装置1として、Raspberry Pi(登録商標)等のシングルボードコンピュータが用いられるほか、例えばパーソナルコンピュータ(PC)等の電子機器が用いられてもよい。音声認識装置1は、筐体10と、CPU(Central Processing Unit)101と、ROM(Read Only Memory)102と、RAM(Random Access Memory)103と、保存部104と、I/F105〜107とを備える。各構成101〜107は、内部バス110により接続される。
CPU101は、音声認識装置1全体を制御する。ROM102は、CPU101の動作コードを格納する。RAM103は、CPU101の動作時に使用される作業領域である。保存部104は、文字列データベース等の各種情報が保存される。保存部104として、例えばSDメモリーカードのほか、例えばHDD(Hard Disk Drive)、SSD(Solid State Drive)等が用いられる。
I/F105は、収音装置2、制御装置3、公衆通信網4等との各種情報の送受信を行うためのインターフェースである。I/F106は、用途に応じて接続される入力部分108との各種情報の送受信を行うためのインターフェースである。入力部分108として、例えばキーボードが用いられ、音声認識システム100の管理等を行う利用者等は、入力部分108を介して、各種情報又は音声認識装置1の制御コマンド等を入力又は選択する。I/F107は、用途に応じて接続される出力部分109との各種情報の送受信を行うためのインターフェースである。出力部分109は、保存部104に保存された各種情報、認識情報、音声認識装置1の処理状況等を出力する。出力部分109として、ディスプレイが用いられ、例えばタッチパネル式でもよい。この場合、出力部分109が入力部分108を含む構成としてもよい。出力部分109として、例えばスピーカ機能を備えたディスプレイ等の機器が用いられてもよい。なお、I/F105〜I/F107として、例えば同一のものが用いられてもよく、各I/F105〜I/F107として、例えばそれぞれ複数のものが用いられてもよい。また、入力部分108及び出力部分109の少なくとも何れかは、状況に応じて取り外されてもよい。
図3(b)は、音声認識装置1の機能の一例を示す模式図である。音声認識装置1は、取得部11と、抽出部12と、記憶部13と、検出部14と、算出部15と、選択部16と、生成部17と、出力部18とを備える。音声認識装置1は、例えば反映部19を備えてもよい。なお、図3(b)に示した各機能は、CPU101が、RAM103を作業領域として、保存部104等に記憶されたプログラムを実行することにより実現される。また、各機能の一部は、例えばJulius等の公知の音素認識技術を含む音声認識エンジンや、Python等のような公知の汎用プログラミング言語を用いて実現し、各種データの抽出や生成等の処理を行ってもよい。また、各機能の一部は、人工知能により制御されてもよい。ここで、「人工知能」は、いかなる周知の人工知能技術に基づくものであってもよい。
<取得部11>
取得部11は、少なくとも1つの音声データを取得する。取得部11は、例えば収音装置2等を用いて収音した音声(音声信号)に対し、PCM(pulse code modulation)等のパルス変調したデータを、音声データとして取得する。取得部11は、収音装置2の種類に応じて、例えば複数の音声データを一度に取得してもよい。なお、音声信号をパルス変調する処理は、収音装置2等により行われるほか、例えば取得部11により行われてもよい。
取得部11は、例えば同時に複数の音声データを取得してもよい。この場合、音声認識装置1に対して、収音装置2が複数接続されるほか、複数の音声を同時に収音できる収音装置2が接続されてもよい。なお、取得部11は、音声データのほか、例えばI/F105、I/F106を介して各種情報(データ)を収音装置2等から取得する。
<抽出部12>
抽出部12は、音素認識により、音声データに含まれる開始無音区間及び終了無音区間を抽出する。また、抽出部12は、開始無音区間と終了無音区間との間に挟まれた音素及び休止区間の配列を、音素認識により認識対象データとして抽出する。すなわち、抽出部12の基本的な機能は、音素認識技術を用いることにより実現することができる。
抽出部12は、例えば100ミリ秒以上1秒以下の非発話状態(無音区間)を、開始無音区間及び終了無音区間として抽出する。抽出部12は、開始無音区間と終了無音区間との間に挟まれた区間(音声区間)に対し、音素及び休止区間を割り当てる。抽出部12は、それぞれ割り当てられた音素及び休止区間の配列を、認識対象データとして抽出する。
音素は、母音と、子音とを含む公知のものである。休止区間は、開始無音区間及び終了無音区間よりも短い区間を示し、例えば音素の区間と同程度の区間(長さ)を示す。抽出部12は、例えば各音素の長さ又は認識対象データ全体の長さを判定したあと、休止区間の長さを設定した上で、音素及び休止区間を割り当てた配列を、認識対象データとして抽出してもよい。すなわち、抽出部12は、音素の長さ又は認識対象データ全体の長さに応じて、休止区間の長さを設定してもよい。
抽出部12は、例えば図4に示すように、開始無音区間「silB」及び終了無音区間「silE」を抽出し、音声区間における配列「a/k/a/r/i/*/w/o/*/ts/u/k/e/t/e」(*は休止区間を示す)を、対象認識データとして抽出する。抽出部12は、例えば1つの音声データからそれぞれ異なる配列の対象認識データを複数抽出してもよい。この場合、抽出部12における音素及び休止区間の割り当てに伴うバラつきを考慮した音声認識を実施することができる。例えば抽出部12は、1つ以上5つ以下の対象認識データを抽出することで、処理時間を抑えた上で、認識精度を高めることができる。なお、抽出部12は、例えば開始無音区間及び終了無音区間の少なくとも何れかを含む配列を、対象認識データとして抽出してもよい。
休止区間は、例えば呼吸音及びリップノイズの少なくとも何れかを含んでもよい。すなわち、抽出部12は、例えば休止区間に含まれる呼吸音及びリップノイズの少なくとも何れかを、認識対象データとして抽出してもよい。この場合、後述する文字列データベースに記憶された音素情報に、呼吸音及びリップノイズの少なくとも何れかを含ませることで、より精度の高い認識情報を生成することが可能となる。
<記憶部13、データベース>
記憶部13は、各種データを保存部104に記憶させ、又は各種データを保存部104から取出す。記憶部13は、必要に応じて保存部104に記憶された各種データベースを取出す。
保存部104には、例えば図5に示すように、文字列データベース及び文法データベースが記憶され、例えば参照データベース、及び発話データベースの少なくとも何れかが記憶されてもよい。
文字列データベースには、予め取得された文字列情報と、文字列情報に紐づく音素情報と、文字列情報に付与されたクラスIDとが記憶される。文字列データベースは、検出部14によって候補データを検出するときに用いられる。
音素情報は、利用者が発すると想定される音素の配列(例えば第1音素情報「a/k/a/r/i」等)を複数含む。音素の配列は、休止区間により分離される区間に対応するほか、例えば「h/i/*/i/t/e」のように休止区間を含んでもよく、利用条件に応じて任意に設定される。なお、音素情報は、例えば開始無音区間及び終了無音区間の少なくとも何れかを含んでもよい。
文字列情報は、各音素の配列に紐づく文字列(例えば第1文字列情報「明かり」等)を含む。このため、文字列情報には、単語や形態素等の意味を持つ表現要素が用いられるほか、意味を持たない文字列が用いられてもよい。なお、文字列情報は、日本語のほか、例えば2ヵ国以上の言語を含んでもよく、数字や利用箇所で用いられる略称等の文字列を含んでもよい。また、同一の文字列情報に対して、異なる音素の配列が紐づけられてもよい。
クラスIDは、文字列情報に紐づき、文字列情報の単語等が文法上用いられると想定される配列箇所(例えば第1クラスID「1」等)を示す。例えば音声の文法(センテンス)が「対象」+「助詞」+「アクション」として表すことができる場合、クラスIDとして、音声の「対象」となる文字列情報に対して「1」が用いられ、音声の「助詞」となる文字列情報に対して「2」が用いられ、音声の「アクション」となる文字列情報に対して「3」が用いられる。
文字列データベースに記憶された音素情報は、例えば文字列情報に対応する音素の配列から、少なくとも1つの子音を除いた配列を示してもい。簡易音素情報は、例えば図5における文字列情報「明かり」に紐づいた「a/a/i」のように、文字列情報に対応する基本的な音素の配列「a/k/a/r/i」から、子音を除いた母音のみによる音素の配列を示す。また、簡易音素情報は、例えば文字列情報「弾いて」に紐づいた「i/*/i/e」のように、母音と休止区間との組み合わせによる配列を示してもよいほか、子音を1つ除いた「i/*/i/t/e」のような、少なくとも1つの子音を除いた配列を示してもよい。
簡易音素情報は、例えば文字列情報に対応する母音と、濁音、半濁音、促音、及び拗音の少なくとも何れかとを組み合わせた配列を示してもよい。この場合、簡易音素情報は、上記以外の子音を除いた配列を示し、例えば文字列情報に対応する無声子音を除いた配列を示す。
例えば濁音は、文字列「が」に対応する音素「g/a」等を示し、半濁音は、文字列「ぱ」に対応する音素「p/a」等を示し、促音は、文字列「勝った」に対応する音素「k/a/q/t/a」等を示し、拗音は、文字列「しょ」に対応する音素「s/h/o」等を示す。
簡易音素情報の示す配列に、濁音、半濁音、促音、及び拗音の少なくとも何れかを含ませることで、特徴的な音声に音声認識の対象を絞ることができ、認識精度をさらに向上させることが可能となる。例えば簡易音素情報の配列に、濁音、及び半濁音の少なくとも何れかを含ませることで、方言等の特徴を踏まえた音声認識を実現することができる。また、例えば簡易音素情報の配列に、促音、及び拗音の少なくとも何れかを含ませることで、認識し難い音声に対して認識精度の低下を抑制することができる。
例えば「弁当ください」のような文字列に対し、「べんおううだあい」や、「えんおううああい」等のような音声を利用者が発する場合においても、簡易音素情報を用いた音声認識を行うことで、認識精度の向上を図ることができる。また、「キャットフード」のような認識し難い文字列に対し、「あっおうーど」や、「きゃっおうーど」等のような音声を利用者が発する場合においても、簡易音素情報を用いた音声認識を行うことで、認識精度の低下を抑制することができる。
また、文字列データベースに記憶された音素情報は、1つの文字列情報に紐づく2つ以上のそれぞれ異なる音素の配列を示す音素候補情報を含んでもよい。各音素候補情報は、例えば図4における文字列情報「消して」に紐づいた「k/e/s/i/t/e」及び「e/i/e」のように、1つの文字列情報に対応し、それぞれ異なる音素の配列を示す。なお、例えば音素候補情報が、上述した簡易音素情報を含んでもよい。この場合、複数の利用者の中で子音を発することが困難な利用者が含まれる状況等においても、認識精度の低下を抑制することができる。
なお、例えば標準語における音素の配列「k/e/s/i/t/e」と、方言における音素の配列「k/e/s/u/t/e」とを、2つの音素候補情報として1つの文字列情報に紐づけてもよい。また、互いに異なる言語を、2つの音素候補情報として1つの文字列情報に紐づけてもよい。
以下、音素情報には、上述した簡易音素情報及び音素候補情報の少なくとも何れか含んでもよい点は同様であり、適宜説明を省略する。
文法データベースには、予め取得された複数のクラスIDの配列順序を示す文法情報が記憶される。文法データベースは、算出部15によって信頼度を算出するときに用いられる。文法情報として、例えば第1文法情報「1、2、3」が用いられる場合、音声の候補として「対象」+「助詞」+「アクション」を示すセンテンスを生成することができる。文法情報は、例えば第1文法情報「1、2、3」、第2文法情報「4、5、6」、第3文法情報「2、1、3」等のクラスIDの配列順序を複数含む。
参照データベースには、予め取得された文字列情報と、文字列を組み合わせた参照センテンスと、文字列情報毎に付与された閾値とが記憶され、例えば文字列情報に紐づく音素情報が記憶されてもよい。参照データベースは、生成部17によって認識情報を生成するときに、必要に応じて用いられる。なお、参照データベースに記憶される文字列情報及び音素情報は、例えば文字列データベースに記憶される文字列情報及び音素情報と等しくすることで、データ容量を少なくすることができる。
本実施形態では、参照データベースに記憶された音素情報は、例えば上述した簡易音素情報、及び音素候補情報の少なくとも何れかを含んでもよい。この場合、例えば図5に示すように、1つの文字列情報「明かり」に紐づく2つの音素候補情報「a/k/a/r/i」、「a/a/i」毎に、異なるセンテンスに分類する(図5では第1、第3参照センテンス)ほか、同一のセンテンスとしてもよい。また、例えば1つの文字列情報「弾いて」に紐づく2つの音素候補情報「h/i/*/i/t/e」、「i/*/i/e」毎に異なる閾値「0.800」、「0.890」を設定してもよいほか、同一の閾値を設定してもよい。
なお、例えば簡易音素情報が優先的に選択されるように、簡易音素情報に紐づく閾値を低くしてもよい。この場合、濁音、半濁音、促音、拗音等を含む音声を、特徴的な音声として優先的に認識させることもできる。
発話データベースには、予め取得された発話情報が記憶され、例えば返答情報が記憶されてもよい。発話情報は、利用者に報知する音声に関する情報を示し、用途に応じて利用者が認識できる言語に対応して記憶される。発話情報は、例えば文字列、数値、音素等の公知のデータ形式で記憶される。発話情報は、例えば制御装置3から発する音声を指定する数値やID等のような、制御装置3を制御するためのデータ形式で記憶されてもよい。発話情報は、例えばPCM等のデータ形式で記憶されてもよい。
返答情報は、発話情報に紐づく情報を示す。返答情報は、認識情報を評価するために用いられ、例えば認識情報と等しいデータ形式で記憶される。返答情報として、発話情報に対して利用者の返答として相応しい内容であるか否かを判定できる情報が含まれ、例えば文字列や音素等のデータ形式が含まれてもよい。
例えば図5に示すように、発話情報として「おはようございます」(第1発話情報)という内容に対し、返答情報「おはようございます」(第1返答情報)という文字列が紐づいている。この場合、第1返答情報が、認識情報と一致するか否かを評価し、利用者から発せられた音声に対する判定をしてもよい。また、返答情報として、例えば閾値等の数値を含んでもよい。この場合、返答情報の数値(閾値)を用いて、認識情報に含まれる数値を評価し、利用者から発せられた音声に対する評価をしてもよい。これにより、音声認識システム100では、疑似対話形式の音声認識を実現することができる。
<検出部14>
検出部14は、文字列データベースを参照し、認識対象データの有する音素の配列に対応する音素情報を選択する。また、検出部14は、選択された音素情報に紐づく文字列情報及びクラスIDを候補データとして複数検出する。
検出部14は、例えば図4に示すように、認識対象データに対応する音素情報「a/k/a/r/i」、「w/o」、「ts/u/k/e/t/e」を選択し、各音素情報に紐づく文字列情報及びクラスID「明かり/1」、「を/2」、「つけて/3」を、それぞれ候補データとして検出する。このとき、認識対象データの数に応じて、候補データの数が増加する。なお、各音素の配列は、予め休止区間毎に区切られて分類されるほか、音素及び休止区間を含む音素情報に基づいて分類されてもよい。
<算出部15>
算出部15は、文法データベースを参照し、複数の候補データを文法情報に基づき組み合わせたセンテンスを生成する。また、算出部15は、センテンスに含まれる候補データ毎の文字列情報に対する信頼度を、文法データベースを用いて算出する。信頼度の算出には、例えば文法データベースを参照したスタックデコーディングサーチが行われる。
算出部15は、例えば図4に示すように、第1文法情報「1、2、3」に含まれるクラスID毎に、各候補データ「明かり/1」、「を/2」、「つけて/3」のクラスIDを対応させ、センテンス「明かり/1」「を/2」「つけて/3」を生成する。このとき、例えば文法情報が「3、1、2」の場合、センテンスとして「つけて/3」「明かり/1」「を/2」が生成される。
算出部15は、センテンスに含まれる各候補データ「明かり/1」、「を/2」、「つけて/3」、に対応する信頼度「0.982」、「1.000」、「0.990」を算出する。算出部15は、各候補データの文字列情報に対して0.000以上1.000以下の範囲で信頼度を算出する。
算出部15は、例えば各センテンスに対して、優先度を示すランクを設定(図4ではランク1〜ランク5)してもよい。ランクを設定することで、任意のランク下位にランク付けされたセンテンス(例えばランク6以下)を、評価対象から除外することができる。このため、後述する評価データとして選択される候補データの数を減らすことができ、処理速度の向上を図ることが可能となる。
算出部15は、例えば内容の異なるセンテンスに同一の候補データが含まれる場合、各候補データにはそれぞれ異なる信頼度を算出してもよい。例えば、第1センテンスに含まれる各候補データ「明かり/1」、「を/2」、「つけて/3」に対応する信頼度「0.982」、「1.000」、「0.990」が算出された場合、第2センテンスに含まれる各候補データ「明かり/1」、「を/2」、「弾いて/3」に対応する信頼度「0.942」、「1.000」、「0.023」が算出される。すなわち、同一の候補データ「明かり」であっても、センテンスの内容や組み合わせの順序によって、異なる信頼度が算出されてもよい。
例えば信頼度として、各文字列情報に対して予め設定された値が用いられてもよい。この場合、予め設定された値は、例えば文法データベースに記憶される。上記のほか、例えば信頼度として、検出部14において検出された候補データ(又は候補データの文字列情報)の種類及び数に応じた相対値が用いられてもよい。例えば検出部14において検出された複数の候補データにおいて、1つのクラスIDが付与された文字列情報の種類が多くなるにつれて、各文字列情報に対して低い信頼度を算出するようにしてもよい。
なお、例えば簡易音素情報が優先的に選択されるように、簡易音素情報に紐づく文字列情報に対する信頼度を、基本の音素情報に紐づく文字列情報に対する信頼度よりも高く算出できるようにしてもよい。この場合、濁音、半濁音、促音、拗音等を含む音声を、特徴的な音声として優先的に認識させることもできる。
<選択部16>
選択部16は、信頼度に基づき、複数の候補データから評価データを選択する。選択部16は、例えば複数の候補データのうち、クラスID毎に最も高い信頼度が算出された候補データを、評価データとして選択する。例えば選択部16は、同じクラスID「3」における候補データ「つけて/3/0.990」、「弾いて/3/0.023」のうち、最も高い信頼度を有する候補データ「つけて/3/0.990」を評価データとして選択する。なお、選択部16は、例えば1つのクラスIDに対して複数の候補データを、評価データとして選択してもよい。この場合、後述する生成部17において、複数の候補データから1つ選択するようにしてもよい。
<生成部17>
生成部17は、評価データに基づき、認識情報を生成する。生成部17は、例えば評価データをテキストや数値等のデータ形式に変換し、認識情報として生成するほか、例えば評価データを音声データ形式や、制御装置3の制御又は制御装置3から音声を発生させるための制御データ形式に変換し、認識情報として生成してもよい。すなわち、認識情報は、制御装置3を制御するための情報(例えば車両の走行速度を制御するための情報)を含む。なお、評価データに基づくテキストや数値等のデータ形式、音声データ形式、又は制御データ形式に変換する方法は、公知の技術を用いることができ、必要に応じて各データ形式を蓄積したデータベース等を用いてもよい。
生成部17は、例えば指定部17aと、比較部17bとを有してもよい。指定部17aは、参照データベースを参照し、参照センテンスのうち、評価データに対応する第1参照センテンスを指定する。指定部17aは、例えば評価データとして「明かり/1」、「を/2」、「つけて/3」が選択された場合、図5に示す第1参照センテンスを指定する。この場合、第1参照センテンスに含まれる各文字列情報(第1文字列情報)として、評価データに含まれる候補データと等しい文字列が指定される。
比較部17bは、評価データに対応する信頼度と、第1文字列情報に付与された閾値(第1閾値)とを比較する。比較部17bは、例えば評価データ「明かり」、「を」、「つけて」の信頼度「0.982」、「1.000」、「0.990」が、第1文字列情報「明かり」、「を」、「つけて」の第1閾値「0.800」、「0.900」、「0.880」以上か否かを比較する。この場合、生成部17は、比較結果に基づいて認識情報を生成する。例えば信頼度が第1閾値以上の場合に、生成部17が認識情報を生成してもよい。例えば信頼度が第1閾値以上の場合と、第1閾値未満の場合とに応じて、生成部17が異なる生成情報を生成してもよい。
<出力部18>
出力部18は、認識情報を出力する。出力部18は、I/F105を介して制御装置3等に認識情報を出力する。出力部18は、例えばI/F107を介して出力部分109に認識情報を出力してもよい。出力部18は、認識情報のほか、例えばI/F105、I/F107を介して各種情報(データ)を制御装置3等に出力する。
出力部18は、例えば認識情報に基づき、発話情報(例えば発話情報に含まれる第1発話情報)を出力してもよい。出力部18は、例えば出力した第1発話情報に対して生成された認識情報と、出力した第1発話情報に紐づく第1返答情報とを比較する。出力部18は、比較結果に基づき、認識情報に対し、第1返答情報と同等であるか否かを判定し、判定結果に応じて出力する発話情報を選択する。なお、出力部18は、例えば認識情報の代わりに発話情報を出力するほか、例えば認識情報と発話情報とを出力してもよい。
出力部18は、例えば公知の技術を用いて、認識情報と返答情報とを比較する。比較方法として、例えば認識情報と、返答情報とが完全一致するか否かを比較するほか、一部一致、又は類似するか否かを比較してもよい。また、認識情報が数値の場合は、返答情報を閾値として、認識情報と返答情報との比較が行われてもよい。なお、比較結果と、判定結果(認識情報が第1返答情報と同等であるか否か)との紐づけは、予め任意に設定することができる。
<反映部19>
反映部19は、認識情報等を評価した利用者等の評価結果を取得し、参照データベースの閾値に反映させる。反映部19は、例えば認識情報に対して評価結果が悪い場合(例えば、音声データに対して得られる認識情報が、利用者等の要求、利用者等の発する音声、又は利用者の認識等と乖離している場合)、閾値を変更させることで、認識情報の改善を図る。このとき、例えば公知の機械学習方法等を用いて、評価結果を閾値に反映させてもよい。
<収音装置2>
収音装置2は、公知のマイクに加え、例えばDSP(digital signal processor)を有してもよい。収音装置2がDSPを有する場合、収音装置2は、マイクによって収音した音声信号に対しPCM等のパルス変調したデータ(音声データ)を生成し、音声認識装置1に送信する。
収音装置2は、例えば音声認識装置1と直接接続されるほか、例えば公衆通信網4を介して接続されてもよい。なお、収音装置2が収音機能のみを有する場合、音声認識装置1がパルス変調したデータを生成してもよい。
<制御装置3>
制御装置3は、認識情報を音声認識装置1から受信して制御可能な装置を示す。制御装置3は、例えば発話情報に基づき、音声を出力してもよい。制御装置3として、スピーカ等の出力装置が用いられ、例えば収音装置2と一体に設けられた装置が用いられてもよいほか、スピーカ機能を搭載した任意の端末が用いられてもよい。制御装置3として、例えばLED等の照明装置が用いられるほか、例えば車載装置(例えば車両の走行速度を制御するため、ブレーキ系統に直結する装置)、表示言語を変更できる自動販売機、施錠装置、オーディオ機器、マッサージ機等が用いられる。制御装置3は、例えば音声認識装置1と直接接続されるほか、例えば公衆通信網4を介して接続されてもよい。
制御装置3は、例えば発話情報に紐づく音声データが記憶されたデータベースを備えてもよい。この場合、発話データベースに記憶された発話情報と、音声データとの紐づけが、予め設定される。制御装置3は、例えば認識情報に基づき、音声を出力してもよい。この場合、制御装置3は、例えば上述した発話データベースが記憶された記憶部を備えてもよい。
<公衆通信網4>
公衆通信網4は、音声認識装置1が通信回路を介して接続されるインターネット網等である。公衆通信網4は、いわゆる光ファイバ通信網で構成されてもよい。また、公衆通信網4は、有線通信網には限定されず、無線通信網等の公知の通信網で実現してもよい。
<サーバ5>
サーバ5には、上述した各種情報が記憶される。サーバ5には、例えば公衆通信網4を介して送られてきた各種情報が蓄積される。サーバ5には、例えば保存部104と同様の情報が記憶され、公衆通信網4を介して音声認識装置1と各種情報の送受信が行われてもよい。すなわち、音声認識装置1は、保存部104の代わりにサーバ5を用いてもよい。特に、サーバ5に上述した各データベースが保存され、音声認識装置1には、サーバ5に記憶された各データベースの少なくとも一部が保存されるようにしてもよい。この場合、サーバ5を用いて音声認識装置1に保存された各データベースを適宜更新することで、音声認識装置1における更新機能や蓄積するデータ容量を最小限に抑えることができる。このため、音声認識装置1を公衆通信網4に常時接続しない状態で利用することができ、更新が必要な場合のみ公衆通信網4に接続するように用いることができる。これにより、音声認識装置1の利用先を大幅に拡大させることができる。
<ユーザ端末6>
ユーザ端末6は、例えば音声認識システム100の利用者等が保有する端末を示す。ユーザ端末6として、主に携帯電話(携帯端末)が用いられ、それ以外ではスマートフォン、タブレット型端末、ウェアラブル端末、パーソナルコンピュータ、IoT(Internet of Things)デバイス等の電子機器のほか、あらゆる電子機器で具現化されたものが用いられてもよい。ユーザ端末6は、例えば公衆通信網4を介して音声認識装置1と接続されるほか、例えば音声認識装置1と直接接続されてもよい。利用者等は、例えばユーザ端末6を介して音声認識装置1から認識情報を取得するほか、例えば収音装置2の代わりにユーザ端末6を用いて音声を収音させてもよい。
ユーザ端末6は、例えば複数の音声認識装置1から生成された認識情報を取得してもよい。この場合、例えば各音声認識装置1の配置された状況に適した音声が発せられているかを判定した結果が、認識情報として生成される。このため、ユーザ端末6を作業管理者等が利用することで、適切な作業が遂行されているか否かを容易に判断することができる。
(音声認識システム100の動作の一例)
次に、本実施形態における音声認識システム100の動作の一例について説明する。図6(a)は、本実施形態における音声認識システム100の動作の一例を示すフローチャートである。
<取得手段S110>
先ず、音声データを取得する(取得手段S110)。取得部11は、収音装置2等により収音された音声に基づき、音声データを取得する。取得部11は、例えば記憶部13を介して保存部104に音声データを保存する。なお、取得手段S110では、例えば子音を発することが困難な利用者から発せられた音声や、子音を聞き取り難い環境で発せられた音声においても、取得部11は、音声データを取得することができる。
<抽出手段S120>
次に、認識対象データを抽出する(抽出手段S120)。抽出部12は、例えば記憶部13を介して保存部104から音声データを取出し、音声データに含まれる開始無音区間及び終了無音区間を、音素認識により抽出する。また、抽出部12は、開始無音区間と終了無音区間との間に挟まれた音素及び休止区間の配列を、音素認識により認識対象データとして抽出する。抽出部12は、例えば記憶部13を介して保存部104に認識対象データを保存する。なお、抽出部12は、一度に複数の音声データを取得してもよい。
抽出部12は、例えば1つの音声データから複数の認識データを抽出する。このとき、複数の認識データは、それぞれ異なる音素及び休止区間の配列を有する(例えば図4の配列A〜配列C)。抽出部12は、例えばそれぞれ異なる条件を設定するほか、例えば同一条件で設定したときにおけるバラつきの範囲内で、複数の認識データを抽出する。
なお、例えば休止区間が呼吸音及びリップノイズの少なくとも何れかを含むとき、抽出部12は、呼吸音及びリップノイズの少なくとも何れかを含む配列を、認識対象データとして抽出してもよい。
<検出手段S130>
次に、認識対象データに基づき、候補データを検出する(検出手段S130)。検出部14は、例えば記憶部13を介して保存部104から認識対象データを取出す。検出部14は、文字列データベースを参照し、認識対象データの有する配列に対応する音素情報を選択する。また、検出部14は、選択された音素情報に紐づく文字列情報及びクラスIDを候補データとして複数検出する。検出部14は、例えば記憶部13を介して保存部104に候補データを保存する。なお、認識対象データの有する配列は、例えば一対の休止区間の間における音素の配列を示し、一対の休止区間の間に他の休止区間が配列されてもよい。
<算出手段S140>
次に、各候補データに対応する信頼度を算出する(算出手段S140)。算出部15は、例えば記憶部13を介して保存部104から候補データを取出す。算出部15は、文法データベースを参照し、複数の候補データを文法情報に基づき組み合わせたセンテンスを生成する。また、算出部15は、センテンスに含まれる候補データ毎に対応する信頼度を算出する。算出部15は、例えば記憶部13を介して保存部104に各候補データ及び信頼度を保存する。算出部15として、例えばJulius等の公知の音声認識エンジンが用いられることで、センテンスの生成及び信頼度の算出が実現されてもよい。
算出部15は、文法データベースの文法情報の種類に応じて、複数のセンテンスを生成することができる。また、算出部15は、文法情報の種類を選択することで、状況に適した音声認識を高精度で実施することができる。
<選択手段S150>
次に、信頼度に基づき、評価データを選択する(選択手段S150)。選択部16は、例えば記憶部13を介して保存部104から候補データ及び信頼度を取出す。選択部16は、例えば複数の候補データのうち、クラスID毎に最も高い信頼度が算出された候補データを、評価データとして選択する。選択部16は、例えば記憶部13を介して保存部104に評価データを保存する。
<生成手段S160>
次に、評価データに基づき、認識情報を生成する(生成手段S160)。生成部17は、例えば記憶部13を介して保存部104から評価データを取出す。生成部17は、例えば上述した公知の技術を用いて評価データを任意のデータに変換し、認識情報として生成する。
生成手段S160は、例えば図7(a)に示すように、指定手段S161と、比較手段S162とを有してもよい。
指定手段S161は、評価データに対応する第1参照センテンスを指定する。指定部17aは、参照データベースを参照し、参照センテンスのうち、評価データに対応する第1参照センテンスを指定する。
比較手段S162は、評価データに対応する信頼度と、第1参照センテンスに含まれる第1文字列情報に付与された第1閾値とを比較する。比較部17bは、例えば図4に示すように、評価データの信頼度が第1閾値以上の場合に、認識が正しいと判断してもよい。この後、比較部17bの判断(比較結果)に基づき、認識情報が生成される。なお、比較部17bにおいて評価データの信頼度が第1閾値未満となり、認識が誤っていると判断した場合、そのまま終了するか、抽出手段S120から再度実施するほか、例えば利用者等に再度音声を発するように促す認識情報を生成してもよい。
<出力手段S170>
その後、必要に応じて認識情報を出力する(出力手段S170)。出力部18は、I/F107を介して出力部分109に認識情報を表示するほか、例えばI/F105を介して制御装置3等を制御するための認識情報を出力する。
<反映手段S180>
なお、例えば図6(b)に示すように、認識情報を評価した利用者等の評価結果を取得し、参照データベースの閾値に反映させてもよい(反映手段S180)。この場合、反映部19は、取得部11を介して利用者等が作成した評価結果を取得する。反映部19は、評価結果に含まれる評価値等に基づき、比較手段S162における比較の結果が改善(認識精度が向上)するように、閾値を変更する。
なお、反映部19は、例えば参照データベースのほか、文字列データベース及び文法データベースの少なくとも何れかに評価結果を反映させてもよい。また、算出部15が評価結果に基づき、信頼度の算出に反映させてもよい。
これにより、本実施形態における音声認識システム100の動作が終了する。なお、音声認識システム100では、例えば図6(c)に示すように、出力手段S170は、第1出力手段S171、及び第2出力手段S172の少なくとも何れかを有してもよい。
<第1出力手段S171>
第1出力手段S171は、取得手段S110の前に、発話情報に含まれる第1発話情報を出力する。出力部18は、例えば記憶部13を介して保存部104から発話データベースに記憶された発話情報を取出す。出力部18は、発話情報から特定の発話情報(以下、第1発話情報とする)を選択し、制御装置3に出力する。制御装置3は、第1発話情報に基づき音声を出力する。第1出力手段S171のあと、取得手段S110等が行われる。
出力部18が選択する第1発話情報は、予め利用者等により設定されてもよい。第1出力手段S171は、例えば制御装置3や入力部分108等から入力された起動指示情報(例えばデータや音声等)に基づき実行されてもよく、実行のタイミングや起動指示情報については任意に設定でき、起動指示情報に基づいて第1発話情報が選択されてもよい。
なお、第1出力手段S171では、出力部18から第1発話情報が出力されるほか、例えば制御装置3が第1発話情報を出力してもよい。この場合、第1発話情報として、利用者に報知される音声データが用いられ、音声認識装置1を介さずに、第1出力手段S171が行われる。
<第2出力手段S172>
第2出力手段S172は、生成手段S160のあと、必要に応じて認識情報に基づく発話情報を出力する。出力部18は、例えば発話データベースを参照し、第1出力手段S171で出力した第1発話情報に紐づく第1返答情報と、認識情報とを比較し、比較結果に基づき、認識情報に対して第1返答情報と同等であるか否かを判定する。出力部18は、判定結果に応じて発話データベースに記憶された発話情報から特定の発話情報を選択し、I/F105を介して制御装置3を出力する。その後、制御装置3は、選択された発話情報に基づく音声を出力する。これにより、例えば利用者は、自ら発した音声に対する認識結果を知ることができる。
第2出力手段S172は、例えば認識情報に対し、第1返答情報と同等であると判定した場合に、第1発話情報とは異なる第2発話情報を選択し、制御装置3に出力してもよい。この場合、制御装置3は、第1発話情報に基づく音声とは異なり、第2発話情報に基づく音声を出力する。
また、第2出力手段S172は、例えば認識情報に対し、第1返答情報と同等ではないと判定した場合に、第1発話情報を選択し、制御装置3に出力してもよい。この場合、制御装置3は、第1出力手段S171と同様に、第1発話情報に基づく音声を出力する。
また、第2出力手段S172では、例えば出力部18から制御装置3に対して認識情報が出力されてもよい。この場合、制御装置3は、取得した認識情報に基づき、発話データベースに記憶された第2発話情報等を選択し、選択された発話情報に紐づく音声を出力する。
なお、第1出力手段S171、及び第2出力手段S172では、例えば制御装置3の代わりに、出力部分109又はユーザ端末6に対して、発話情報を出力してもよい。この場合、出力部分109又はユーザ端末6は、発話情報に基づき、音声を出力する。
なお、例えば第1出力手段S171を実施せずに、取得手段S110から第2出力手段S172までを実施してもよい。この場合、第2出力手段S172では、例えば出力部18は、認識情報に基づき、発話データベースに記憶された返答情報から特定の第1返答情報を選択し、第1返答情報に紐づく第1発話情報を制御装置3等に出力する。このとき、出力部18は、例えば返答情報と、認識情報とを比較し、予め設定された条件(最も近いもの等)によって、第1発話情報を選択する。
例えば音声認識システム100では、第1出力手段S171、又は第2出力手段S172を実施したあと、任意の期間利用者から音声が発せられなかった場合、再度第1出力手段S171、又は第2出力手段S172を実施するほか、音声認識システム100を終了してもよい。再度第1出力手段S171、又は第2出力手段S172を実施するとき、例えば他の返答情報を変更するように設定することができ、例えば任意の回数を超えたら他の返答情報に変更するように設定することもできる。
例えば音声認識システム100では、第2出力手段S172を実施したあと、取得手段S110〜第2出力手段S172を繰り返し実施してもよい。この場合、例えば第2出力手段S172において、特定の返答情報を繰り返し選択したとき、任意の回数を超えたら強制的に他の返答情報を選択してもよい。
本実施形態における音声認識システム100によれば、抽出手段S120は、音素及び休止区間の配列を認識対象データとして抽出する。また、検出手段S130は、認識対象データの有する配列に対応する音素情報を選択し、候補データを検出する。このため、認識対象データにおける音素のみを考慮した配列に対して候補データを検出する場合に比べ、誤認識を低減させることができる。これにより、認識精度の向上を図ることが可能となる。
また、認識精度の向上が可能となるため、精度向上のために用いられる事前音声入力を実施する必要がない。ここで、事前音声入力とは、音声データを取得する前に、音声認識を開始させるための音声を示す。事前音声入力を用いることで、認識精度を向上させることができる一方で、利便性の低下に影響する懸念が挙げられる。この点、本実施形態における音声認識システム100によれば、事前音声入力を実施しないことで、利便性の向上を実現させることが可能となる。
なお、本実施形態における音声認識システム100によれば、必要に応じて事前音声入力を実施してもよい。これにより、認識精度のさらなる向上を図ることが可能となる。
また、本実施形態における音声認識システム100によれば、文字列データベースには、音素と休止区間との配列に対応する音素情報、及び音素情報に紐づく文字列情報が記憶される。このため、音素全体に対してパターンマッチングするために記憶するデータに比べて、データ容量の削減や、データ蓄積の簡易化を実現することができる。
特に、音声認識システム100の利用される環境を踏まえて、文字列データベースに記憶される文字列情報を選択することで、データ容量の削減ができ、例えば公衆通信網4に接続する必要がなく、利用の幅を広げることができる。また、音声データの取得から認識情報を生成するまでの時間を大幅に短縮することができる。
また、本実施形態における音声認識システム100によれば、音素情報は、簡易音素情報を含んでもよい。このため、子音を発することが困難な利用者を対象とする場合や、子音を聞き取り難い環境で利用する場合等においても、認識精度の低下を抑制することができる。これにより、文字列情報に対応する基本的な音素情報のみを用いて音素認識を実施する場合に比べて、利用条件の幅を拡大させることが可能となる。
また、本実施形態における音声認識システム100によれば、音素情報は、1つの文字列に紐づく2以上の音素候補情報を含んでもよい。このため、1つの文字列情報に対応する複数の音素の配列が存在する場合においても、認識することができる。これにより、文字列情報に対応する基本的な音素情報のみを用いて音素認識を実施する場合に比べて、利用条件の幅をさらに拡大させることが可能となる。
また、本実施形態における音声認識システム100によれば、音素候補情報は、簡易音素情報を含んでもよい。このため、発する音声の特徴が、利用者毎に異なる場合においても、各利用者の発する音声に対して適切な認識情報を生成することができる。これにより、利用条件の幅をさらに拡大させることが可能となる。
また、本実施形態における音声認識システム100によれば、簡易音素情報は、濁音、半濁音、促音、及び拗音の少なくとも何れかを含む配列を示す。このため、濁音等の音声に特化した音声認識を実現することができる。これにより、認識精度をさらに向上させることが可能となる。
また、本実施形態における音声認識システム100によれば、抽出手段S120は、1つの音声データから複数の認識対象データを抽出してもよい。このため、音素及び休止区間の配列にバラつきが発生するような音声データを取得した場合においても、認識精度の低下を抑制することができる。これにより、認識精度のさらなる向上が可能となる。
また、本実施形態における音声認識システム100によれば、算出手段S140は、センテンスを複数生成してもよい。すなわち、候補データを組み合わせるパターンが複数存在する場合においても、全てのパターンに対応するセンテンスを生成することができる。このため、例えばパターンマッチングの探索方法等に比べて、誤認識を低減させることができる。これにより、認識精度のさらなる向上が可能となる。
また、本実施形態における音声認識システム100によれば、比較手段S162は、信頼度と、第1閾値とを比較する。このため、複数の候補データから相対的に選択された評価データに対し、閾値による判定も行うことで、誤認識をさらに低減させることができる。これにより、認識精度のさらなる向上が可能となる。
また、本実施形態における音声認識システム100によれば、反映手段S180は、評価結果を閾値に反映させてもよい。このため、認識情報が、利用者の認識と乖離している場合、容易に改善を実施することができる。これにより、持続的な認識精度の向上を実現することができる。
また、本実施形態における音声認識システム100によれば、出力手段S170は、認識情報を出力してもよい。上記の通り、本実施形態における音声認識システム100は、従来のシステムに比べて精度の高い認識情報を生成することができる。このため、認識情報に基づいて制御装置3等の制御を実施する場合、制御装置3等の誤作動を大幅に抑制することができる。例えば車両のブレーキを制御するために音声認識システム100を用いた場合においても、通常の走行に支障を与えない程度の精度を実現し得る。すなわち、認識精度の向上に伴い、利用者の運転補助等として用いることができる。これにより、幅広い用途への応用が可能となる。
また、本実施形態における音声認識システム100によれば、休止区間は、呼吸音及びリップノイズの少なくとも何れかを含んでもよい。このため、音素のみでは判断し難い音声データの差異に対しても容易に判断でき、認識対象データを抽出することができる。これにより、認識精度のさらなる向上を図ることが可能となる。
また、本実施形態における音声認識システム100によれば、第1出力手段S171は、第1発話情報を出力してもよい。このため、第1発話情報に対する利用者から発せられた音声を、認識情報として生成することができる。これにより、発話情報に対する利用者の認識力を高精度に評価することが可能となる。
また、本実施形態における音声認識システム100によれば、第2出力手段S172は、認識情報に基づき、第2発話情報、又は第1発話情報を出力してもよい。このため、利用者の認識力を評価した結果を、発話として報知することができる。これにより、対話形式による音声認識を実現することが可能となる。
また、本実施形態における音声認識システム100によれば、第2出力手段S172は、認識情報に対し、第1返答情報と同等であると判定した場合に、第2発話情報を出力してもよい。このため、第1発話情報に対して利用者が発した音声が、所望の内容である場合、第1発話情報とは異なる第2発話情報を報知することができる。これにより、対話形式のバリエーションを増やすことが可能となる。
また、本実施形態における音声認識システム100によれば、第2出力手段S172は、認識情報に対し、第1返答情報と同等ではないと判定した場合に、第1発話情報を出力してもよい。このため、第1発話情報に対して利用者が発した音声が所望の内容ではない場合、第1発話情報を再度報知することができる。これにより、発話練習等のような正確な発話情報を復唱する必要がある場合や、暗号認識(セキュリティチェック)等のような正確な認識を得る必要がある場合にも利用することが可能となる。
本実施形態における音声認識装置1によれば、抽出部12は、音素及び休止区間の配列を認識対象データとして抽出してもよい。また、検出部14は、認識対象データの有する配列に対応する音素情報を選択し、候補データを検出してもよい。このため、認識対象データにおける音素のみを考慮した配列に対して候補データを検出する場合に比べ、誤認識を低減させることができる。これにより、認識精度の向上を図ることが可能となる。
また、本実施形態における音声認識装置1によれば、文字列データベースには、音素と休止区間との配列に対応する音素情報、及び音素情報に紐づく文字列情報が記憶されてもよい。このため、音素全体に対してパターンマッチングするために記憶するデータに比べて、データ容量の削減や、データ蓄積の簡易化を実現することができる。
また、本実施形態における音声認識装置1によれば、音素情報は、簡易音素情報を含んでもよい。このため、子音を発することが困難な利用者を対象とする場合や、子音を聞き取り難い環境で利用する場合等においても、認識精度の低下を抑制することができる。これにより、文字列情報に対応する基本的な音素情報のみを用いて音素認識を実施する場合に比べて、利用条件の幅を拡大させることが可能となる。
また、本実施形態における音声認識装置1によれば、音素情報は、1つの文字列に紐づく2以上の音素候補情報を含んでもよい。このため、1つの文字列情報に対応する複数の音素の配列が存在する場合においても、認識することができる。これにより、文字列情報に対応する基本的な音素情報のみを用いて音素認識を実施する場合に比べて、利用条件の幅をさらに拡大させることが可能となる。
(音声認識システム100の構成の第1変形例)
次に、本実施形態における音声認識システム100の第1変形例について説明する。上述した実施形態と、第1変形例との違いは、生成部17が更新部17cを有する点である。なお、上述した構成と同様の構成については、説明を省略する。
生成部17の有する更新部17cは、例えば図8に示すように、候補データ及び信頼度に基づき、参照データベースに記憶された閾値を更新する。すなわち、候補データ及び信頼度の内容に応じた値に、閾値を更新することができる。
更新部17cは、例えば各クラスIDに紐づく複数の信頼度の平均値を算出する。更新部17cは、算出した平均値に基づき閾値を更新する。
閾値を更新する場合、算出された平均値が閾値として用いられるほか、予め設定された係数を平均値にかけ合わせた値が、更新後の閾値として用いられてもよい。また、更新前の閾値に対して、係数を平均値にかけ合わせた値を四則演算した結果の値を更新後の閾値として用いられてもよい。
候補データ及び信頼度の内容に基づき閾値を更新することで、例えば音声データにノイズ等が含まれ易い場合においても、音声データの品質に応じた閾値を設定することができる。また、1つのクラスIDに紐づく文字列情報が多数検出され、各文字列情報の信頼度が低い場合においても、全ての信頼度が閾値未満になることを防ぐことができる。
更新部17cは、例えば各クラスIDに紐づく複数の信頼度のうち、最も低い信頼度を除いた平均値を算出してもよい。この場合、更新後の閾値は、更新前の閾値に比べて高くなる傾向を示す。これにより、誤認識を低減させることが可能となる。
更新部17cは、例えば各クラスIDに紐づく複数の信頼度のうち、最も低い信頼度及び最も高い信頼度を除いた平均値を算出してもよい。この場合、更新後の閾値は、更新前の閾値に比べて低くなる傾向を示す。これにより、認識率を向上させることができる。また、更新前後における閾値の変動を抑制することができる。
(音声認識システム100の動作の第1変形例)
次に本実施形態における音声認識システム100の第1変形例について説明する。図7(b)は、第1変形例における更新手段S163の一例を示すフローチャートである。
図7(b)に示すように、上述した選択手段S150を実施したあと、複数の候補データ、及び複数の信頼度に基づき、参照データベースに記憶された閾値を更新する(更新手段S163)。更新部17cは、例えば記憶部13を介して保存部104から候補データ、信頼度、及び参照データベースを取出す。
更新部17cは、例えば図8に示すように、ランク1、2、4に含まれるクラスID「1」に紐づく複数の信頼度「0.982」、「0.942」、「0.897」の平均値「0.940」を算出する。その後、更新部17cは、例えば算出した平均値に係数(例えば0.9)をかけ合わせた値「0.846」を、更新後の閾値として用いる。
その後、上述した指定手段S161等を実施し、本実施形態における音声認識システム100の動作が終了する。
本変形例によれば、更新手段S163における更新部17cは、候補データ及び信頼度に基づき、閾値を更新する。このため、予め設定された閾値を常に用いる場合に比べて、取得する音声データにおける品質に応じた認識情報を生成することができる。これにより、利用できる環境の幅を広げることが可能となる。
(音声認識システム100の動作の第2変形例)
次に本実施形態における音声認識システム100の第2変形例について説明する。上述した実施形態と、第2変形例との違いは、設定手段S190を備える点である。なお、上述した構成と同様の構成については、説明を省略する。
設定手段S190は、例えば図7(c)に示すように、生成手段S160の後に実施される。設定手段S190は、認識情報に基づき、検出手段S130、算出手段S140、及び指定手段S161の少なくとも何れかにおいて、参照する各データベースの内容を選択する。設定手段S190の実施後、上述した出力手段S170や、取得手段S110等が適宜実施される。例えば生成手段S160において、生成部17は、生成した認識情報に基づき、検出部14が参照する文字列データベースの内容を選択する。文字列データベースの内容が選択されることで、特定の状況に応じた音声のみを認識することができる。これにより、認識精度をさらに向上させることが可能となる。
ここで、「文字列データベースの内容」とは、文字列データベースに記憶された文字列情報、クラスID、及び音素情報を示す。また、「内容を選択」とは、認識情報に基づいて、文字列データベースに記憶された文字列情報、クラスID、及び音素情報のうち、一部を選択することを示す。他のデータベースの内容についても同様である。
なお、「特定の状況」とは、例えば音楽を再生するための音声データを認識する状況(例えば、曲名や曲番号等のみを認識するミュージックモード)等を示す。例えばミュージックモードでは、曲名や曲番号等のような特定の音声を認識する必要があり、他の音声を認識する必要がない。このため、通常の文字列データベースを用いた場合では、特定の音声が他の音声と同様に評価されるため、認識できる可能性が著しく低下する事情がある。これに対し、本実施形態によれば、設定手段S190において文字列データベース等の内容を選択することができ、特定の音声に対する認識精度を向上させることが可能となる。
また、「特定の状況」とは、例えば音声を認識する順序が必要な状況(例えば起動モード)等を示す。例えば起動モードでは、音声を認識する順序によって、音声認識装置1から得られる情報を変える必要がある。このため、通常の文字列データベースを用いた場合では、順序を認識できない、又は、順序を含む長い文字列等を記憶させる必要があり、汎用的な利用に向かない事情がある。これに対し、本実施形態によれば、設定手段S190において、認識した音声の順序に応じて文字列データベース等の内容を選択することができる。このため、文字列データベースに記憶させるデータ容量を最小限に抑えることができ、汎用的な利用を実現することが可能となる。
文字列データベースには、文字列情報、音素情報、及びクラスIDが、認識情報の内容に応じて選択できる状態で記憶される。また、文法データベースには、文法情報が、認識情報の内容に応じて選択できる状態で記憶される。例えば認識情報の内容が「ミュージックモードの設定」に関する情報の場合、文字列データベースに記憶された情報のうち、曲名や曲番号に限定した文字列情報等が選択されるようにでき、文法データベースに記憶された情報のうち、文字列データベースにおいて選択されたクラスIDの配列順序を示す文法情報が選択されるようにできる。また、選択された文字列データベース及び文法データベースに応じて、参照データベースに記憶された内容が選択されるようにできる。
例えば設定手段S190において、生成部17は、評価データに基づき生成された認識情報(例えばミュージックモードに関する情報)に基づき、検出部14が参照する文字列データベースの内容を選択する。その後、取得手段S110及び抽出手段S120を実施して認識対象データを抽出した後、検出手段S130において、検出部14は、文字列データベースのうち、「ミュージックモード」に特化した音素情報、文字列情報、及びクラスIDを選択して参照する。このため、設定手段S190を実施しない場合に比べて、特定の内容に対する音素情報等に限定することができる。これにより、認識精度を飛躍的に向上させることが可能となる。
例えば設定手段S190では、認識情報の内容毎に異なるクラスIDを選択してもよい。文字列データベースには、例えばクラスID「1〜10」、各クラスIDが付与された文字列情報、及び文字列情報に紐づく音素情報が記憶され、そのうち曲名や曲番号に関する文字列情報には、クラスID「5〜10」を付与して記憶される。この場合、設定手段S190において、「ミュージックモードの設定」に関する認識情報が生成された場合、設定手段S190においてクラスID「5〜10」を選択することで、クラスID「5〜10」が付与された曲名に関する文字列情報のみを、検出手段S130で検出することができる。
なお、例えば設定手段S190において、生成部17は、認識情報に基づき、算出部15が参照する文法データベースの内容、及び、指定部17aが参照する参照データベースの内容を選択してもよい。この場合、上述した検出手段S130と同様に、算出手段S140において、算出部15は、文法データベースのうち、「ミュージックモード」に特化したセンテンスの生成、及びセンテンスに含まれる候補データ毎に対応する信頼度を算出することができる。また、指定手段S161において、指定部17aは、参照データベースのうち、「ミュージックモード」に特化した第1参照センテンスを指定することができる。これにより、特定の状態に応じた音声のみを認識することができ、認識精度を飛躍的に向上させることが可能となる。
例えば図9に示すように、本実施形態における音声認識システム100において、特定の音声データ(起動ワード)を予めデータベースに記憶させ、起動ワードを認識したときに、設定手段S190が実施されるようにしてもよい。例えば特定の音声データ(図9では起動ワードA)を認識した場合、設定手段S190において、生成部17は、認識情報に基づき、文字列データベースに含まれる文字列データベースAを選択する。これにより、検出手段S130において、検出部14は、文字列データベースAを参照して候補データを検出する。このため、設定手段S190を実施する前に比べて、認識する音声データの種類を限定することができる。
なお、例えば図9の文字列データベースAに示すように、文字列データベースが特定の音声データを複数記憶してもよい(図9では起動ワードB−1、起動ワードB−2)。この場合、認識した特定の音声データに応じて、選択される文字列データベースの内容を変えることができる。また、例えば図10に示すように、起動ワードに応じて、制御装置3等から出力する音声を変更してもよい。この場合、出力手段S170では、起動ワードを認識したときの認識情報に基づき、適切な発話情報が選択されるように予め設定する。
例えば図9では、文字列データベースAを参照して起動ワードB−1を認識した場合、設定手段S190において、生成部17は、認識情報に基づき、文字列データベースに含まれる文字列データベースB−1を選択する。また、起動ワードB−2を認識した場合、設定手段S190において、生成部17は、認識情報に基づき、文字列データベースに含まれる文字列データベースB−2を選択する。このように、複数の起動ワードを用いることにより、認識精度の低下を抑制した状態で、認識できる音声の種類を増加させることが可能となる。
また、例えば設定手段S190において文字列データベースを選択したあと、一定期間に取得手段S110が実施されない場合、文字列データベースの選択を解除してもよい。この場合、一定期間経過後に取得手段S110が実施される際、選択前の文字列データベースを参照して検出手段S130が実施される。このため、誤って発した音声を認識した場合や、誤認識した場合におけるやり直しを円滑に実施することができる。なお、文字列データベースの選択を解除する起動ワードを設定し、予め文字列データベースに記憶してもよい。
なお、設定手段S190において各データベースの内容を選択したあと、例えば出力手段S170において、出力部18が各データベースの内容を選択(変更)した旨の情報(例えば後述する報知情報)を出力するようにしてもよい。
本実施形態における音声認識システム100において、例えば図11に示すように、設定手段S190は、選択された文字列データベースの内容に基づく報知情報を生成してもよい。この場合、出力手段S170により報知情報を出力する。報知情報は、例えば各データベース又は保存部104に保存された報知用の定型文字列等のデータに基づき生成される。
報知情報は、例えば認識した内容の成否判断をする内容を示し、例えばテキスト形式により出力部分109に出力される。このとき、設定手段S190により選択された文字列データベースには、報知情報に対して利用者等が返答する内容(例えば「はい」又は「いいえ」)を認識できる程度の内容が記憶されている。即ち、文字列データベースのうち、認証に特化した内容で構築されたデータベースを用いることができる。このため、音声認識システム100の誤認識に伴う誤作動を抑制できる。また、誤作動を抑制するために用いられる文字列データベースのデータ容量を最小限に抑えることもできる。なお、報知情報として、例えば発話データベースに記憶された発話情報が用いられてもよい。
例えば図11(a)に示すように、音声データとして「コマンドA」が入力され、各手段S110〜S160が実施される。その後、設定手段S190において、例えば生成部17は、図9に示した文字列データベースAを選択し、報知情報として「Aを確認しました 実行しますか?」(報知情報A)を生成する。その後、出力手段S170において、例えば出力部18を介して、報知情報Aが出力部分109に出力される。
その後、例えば利用者等が、「はい」(確定コマンド)と発した場合、音声データとして確定コマンドが入力され、各手段S110〜S160が実施される。その後、設定手段S190において、例えば生成部17は、報知情報として「Aを実行します」(報知情報A−E)を生成する。その後、出力手段S170において、例えば出力部18を介して、報知情報A−Eが出力部分109に出力される。これにより、音声認識システム100の誤認識に伴う誤作動を抑制できる。
また、例えば図11(b)に示すように、音声データとして「コマンドA」が入力され、出力部分109に「Aを確認しました 実行しますか?」(報知情報A)が出力された後、例えば利用者等が確定コマンド以外の内容(例えばコマンドB)を発してもよい。この場合、報知情報Aの代わりに「Bを確認しました Bを実行しますか?」(報知情報B)を出力部分109に出力してもよい。即ち、報知情報に対応するコマンド以外の音声に対しても認識できるように、文字列データベースを構築してもよい。このため、誤って発した音声を認識した場合や、誤認識した場合におけるやり直しを円滑に実施することができる。
本変形例によれば、設定手段S190は、認識情報に基づき、参照する文字列データベースの内容を選択する。このため、特定の状況に応じた音声のみを認識することができる。これにより、認識精度のさらなる向上を図ることが可能となる。
また、本変形例によれば、設定手段S190は、選択された文字列データベースの内容に基づく報知情報を生成する。このため、報知情報を利用者等に報知することで、誤認識に伴う誤動作を抑制することができる。また、誤作動を抑制するために用いられる文字列データベースのデータ容量を最小限に抑えることもできる。
(取得手段S110の変形例)
次に、本実施形態における取得手段S110の変形例について説明する。上述した実施形態と、本変形例との違いは、取得部11が条件情報を取得する点である。なお、上述した構成と同様の構成については、説明を省略する。
取得手段S110において取得部11は、音声データが生成された条件を示す条件情報を取得する。条件情報は、例えば図12に示すように、環境情報と、雑音情報と、収音装置情報と、利用者情報と、音特性情報とを有する。なお、上述した設定手段S190と同様に、例えば検出部14は、条件情報に基づき、参照する文字列データベース及び文法データベースの少なくとも何れかの内容を選択してもよい。また、例えば出力部18は、条件情報に基づき、参照する発話データベースから発話情報を選択してもよく、また、選択される発話情報の選択範囲を設定してもよい。また、例えば反映部19は、参照データベースの閾値の更新に、条件情報を用いてもよい。
条件情報は、例えば収音装置2により生成されるほか、例えば利用者等が予め生成してもよい。例えば取得部11は、音声データの一部を条件情報として取得してもよい。例えば取得部11は、入力部分108等から入力された情報に基づき、条件情報を取得してもよい。この場合、例えば最初に取得手段S110が実施されたあと、上述した第1出力手段S171等が実施されてもよい。これにより、音声認識システム100において実施する各手段に、条件情報を反映させることができる。
環境情報は、収音装置2の設置された環境に関する情報を有し、例えば屋外、屋内の広さ等を示す。環境情報を用いることで、例えば屋内における音声の反射条件等を考慮することができ、抽出される認識対象データ等の精度を高めることができる。
雑音情報は、収音装置2が収音し得る雑音に関する情報を有し、例えば利用者等以外の音声、空調音等を示す。雑音情報を用いることで、音声データに含まれる不要なデータを予め除去でき、抽出される認識対象データ等の精度を高めることができる。
収音装置情報は、収音装置2の種類、性能等に関する情報を有し、例えばマイクの数、マイクの種類等も含まれる。収音装置情報を用いることで、音声データが生成された状況に対応したデータベースの選択等ができ、音声認識の精度を高めることができる。
利用者情報は、利用者等の人数、国籍、性別等に関する情報を有する。音特性情報は、音声の声量、音圧、癖、活舌の状態等に関する情報を有する。利用者情報を用いることで、音声データの特徴を予め限定することができ、音声認識の精度を高めることができる。
利用者情報は、例えば利用者の趣味や興味のあることに関する情報や、利用者を識別できる公知の情報を有してもよい。例えば出力部18が、利用者情報に基づき、選択する発話情報の選択範囲を設定した場合、利用者の趣味等にあわせた音声を出力することができる。この場合、第1出力手段S171〜第2出力手段S172等を繰り返すことで、利用者毎に適した音声を明確に出力することができる。
本変形例によれば、取得手段S110は、条件情報を取得する。すなわち、取得手段S110は、音声データを取得する際の周辺環境、音声データに含まれる雑音、音声を採取する収音装置2の種類等の各種条件を、条件情報として取得する。このため、条件情報に応じた各手段や各データベースの設定を実施することができる。これにより、利用される環境等に関わらず、認識精度の向上を図ることが可能となる。
また、本変形例によれば、検出手段S130は、条件情報に基づき、参照する文字列データベースの内容を選択する。このため、文字列データベースには、条件情報毎に異なる文字列情報等を記憶させておくことで、条件情報毎に適した候補データを検出することができる。これにより、条件情報毎における認識精度の向上を図ることが可能となる。
また、本変形例によれば、第1出力手段S171及び第2出力手段S172の少なくとも何れかは、条件情報に基づき、選択する発話情報の選択範囲を設定する。このため、利用者毎に適した音声を出力することができる。これにより、用途の拡大を実現することが可能となる。なお、条件情報を生成する取得手段S110を、上述した設定手段S190と組み合わせることで、利用者に適した音声を出力する精度をさらに向上させることができる。
また、本変形例によれば、条件情報を取得する取得手段S110を実施したあと、第1出力手段S171〜第2出力手段S172等を繰り返すことで、利用者が興味のある質問等を積み重ねることができ、利用者毎に適した内容の発話情報が選択されるようにすることができる。
(文字列データベースの変形例)
次に、本実施形態における文字列データベースの変形例について説明する。上述した実施形態と、本変形例との違いは、類似文字列情報等が文字列データベースに記憶される点である。なお、上述した構成と同様の構成については、説明を省略する。
文字列データベースには、例えば図13に示すように、予め取得された類似文字列情報(図13では類似文字列情報A〜C)と、類似クラスID(図13では類似クラスID−A〜C)とが記憶される。類似文字列情報には、上述した文字列情報と同様に、音素情報が紐づけられる。類似クラスIDは、類似文字列情報に付与される。
類似文字列情報は、音声認識の対象として設定された文字列情報に対して誤認識する可能性のある文字列情報を示し、利用者等が予め設定する。類似文字列情報は、文字列情報に近い音素情報を有し、例えば検出手段S130において、誤認識し易い文字列情報を示す。例えば文字列情報として「こうないかんきょう」が文字列データベースに記憶されている場合、類似文字列情報として「こうないえん」、「こうさてん」「こうとくてん」等の「こうないかんきょう」として誤認識する可能性のある文字列情報が記憶される。
類似クラスIDは、文字列情報に付与されるクラスIDとは異なるIDが付与され、図13では、文字列情報に付与されたクラスIDが「1」に対して、類似文字列情報に付与された類似クラスIDは「9999」である。
文字列データベースに類似文字列情報及び類似クラスIDが記憶されることで、例えば類似文字列情報が候補データに含まれた場合においても、容易に排除することが可能となる。これにより、誤認識に伴う認識情報の生成を抑制することが可能となる。
類似文字列情報が候補データに含まれる場合、例えば比較手段S162において排除することができる。例えば図13に示すように、参照データベースに記憶された類似文字列には、信頼度の上限を超える閾値(>1.000)が予め付与される。このため、評価データに類似文字列情報が含まれる場合においても、確実に排除することができる。
なお、上述した閾値の設定は一例であり、類似文字列情報を排除できる値であれば任意である。また、例えば算出手段S140、選択手段S150等において、類似クラスIDを排除するように予め設定してもよい。
上記のほか、例えば方言、数字、又は類語等のように、認識したい内容に対して複数の表現が存在する場合がある。この場合、類似文字列情報を、認識したい文字列情報と同等の閾値を設定することで、複数の文字列に対して等しい認識情報を生成することができる。
本変形例によれば、文字列データベースには、類似文字列情報と、類似クラスIDとが記憶される。このため、類似文字列情報が候補データに含まれた場合においても、容易に排除することができる。また、方言や数字等の僅かに異なる音声であっても、同一の内容として認識させることができる。これらにより、認識精度のさらなる向上を図ることが可能となる。
(参照データベースの変形例)
次に、本実施形態における参照データベースの変形例について説明する。上述した実施形態と、本変形例との違いは、参照データベースに記憶された情報の内容が異なる点である。なお、上述した構成と同様の構成については、説明を省略する。
参照データベースには、例えば図14に示すように、予め取得された過去の評価データ、過去の評価データに紐づく参照センテンス、及び過去の評価データと参照センテンスとの間における連関度が記憶される。
生成部17は、例えば参照データベースを参照し、過去の評価データのうち、評価データに対応する第1評価データ(図14の「過去の評価データ」内の破線枠)を選択する。その後、生成部17は、参照センテンスのうち、第1評価データに対応する第1参照センテンス(図14の「参照センテンス」内の破線枠)、を取得する。また、生成部17は、連関度のうち、第1評価データと第1参照センテンスとの間における第1連関度(図14の「65%」等)を取得する。なお、第1評価データ及び第1参照センテンスは、複数のデータを含んでもよい。
生成部17は、第1連関度の値に基づき、認識情報を生成する。生成部17は、例えば第1連関度と、予め取得された閾値と比較し、閾値を上回る第1連関度に紐づく第1参照センテンスを参考に、認識情報を生成する。
過去の評価データとして、評価データと一部一致又は完全一致する情報が選択されるほか、例えば類似(同一概念等を含む)する情報が用いられる。評価データ及び過去の評価データが複数の文字列間の組み合わせで示される場合、例えば、名詞−動詞、名詞−形容詞、形容詞−動詞、名詞−名詞の何れかの組み合わせが用いられる。
連関度(第1連関度)は、例えば百分率等の3段階以上で示される。例えば参照データベースがニューラルネットワークで構成される場合、第1連関度は、選択された過去の評価対象情報に紐づく重み変数を示す。
上述した参照データベースを用いる場合、3段階以上に設定されている連関度に基づいて、音声認識を実現できる点に特徴がある。連関度等は、例えば0〜100%までの数値で記述することができるが、これに限定されるものではなく3段階以上の数値で記述できればいかなる段階で構成されていてもよい。
このような連関度等に基づいて、評価データに対する認識情報の候補として選ばれる第1参照センテンスにおいて、連関度等の高い又は低い順に第1参照センテンスを選択することが可能となる。このように連関度の順に選択することで、状況に見合う可能性の高い第1参照センテンスを優先的に選択することができる。他方、状況に見合う可能性の低い第1参照センテンスも除外せずに選択できるため、廃棄対象とせずに認識情報の候補として選択することが可能となる。
上記に加え、例えば連関度等が1%のような極めて低い評価も見逃すことなく選択することができる。すなわち、連関度等が極めて低い値であっても、僅かな兆候として繋がっていることを示しており、過度の廃棄対象の選択や誤認を抑制することが可能となる。
(第2実施形態:音声認識システム100の構成)
次に、図15〜図17を参照して、第2実施形態における音声認識システム100の構成の一例について説明する。図15は、本実施形態における音声認識システム100の全体の構成を示す模式図である。図16は、本実施形態における音声認識機能付き本200の一例を示す模式図である。図17は、物語データベースの一例を示す模式図である。
音声認識システム100は、例えば図15に示すように、主に本等の朗読や読み聞かせに用いることができる。音声認識システム100では、例えば文字を読めない子供(利用者)が発した音声(例えば「本を読んで」)に対応する認識情報を生成する。生成した認識情報に基づき、予め設定された本等の物語の内容に関する音声(例えば「昔々あるところに・・・」)等を出力する。これにより、利用者が本等の文字を読むことなく、物語を理解することができる。
音声認識システム100は、利用者の用途に応じて構築された物語データベースを参照し、認識情報に基づく音声等を出力する。物語データベースには、物語の内容に関する音を示す物語情報が記憶される。物語情報は、対象とする物語を朗読した音声の情報を含むほか、例えば物語に適した効果音や音楽等の情報を含んでもよい。物語情報は、音声等の情報を複数有し、認識情報に基づき適宜選択される。このため、利用者の発した音声に応じて適切な物語情報が選択され、本の物語に関する音声等を出力することができる。
本実施形態における音声認識システム100は、例えば図16に示すように、音声認識機能付き本200として具現化することもできる。音声認識機能付き本200は、上述した音声認識装置1と、収音装置2と、制御装置3と、電源部7と、収納部201と、本部202とを備え、例えば駆動部8を備えてもよい。音声認識装置1は、収音装置2、制御装置3、電源部7、及び駆動部8と接続され、電源部7から電源が供給される。このように、音声認識装置1は、本等に搭載させることもできる。このため、形が定められた物に搭載された場合においても、従来の音声認識装置等を搭載した場合に比べて、音声認識の精度の低下を抑制した機能付き本を実現することが可能となる。
収納部201は、例えば本部202の最終頁後に取り付けられる。本部202には、音声認識装置1に記憶された物語情報に対応する物語(文章)や絵等が記載される。本部202として、例えば公知(市販)の本が用いられる。このため、公知の本に収納部201を取り付けるだけで、音声認識機能付き本200を形成することができる。
なお、音声認識システム100では、例えば音声認識機能付き本200の音声認識装置1が、無線通信等を介してサーバ5等と接続されてもよい。これにより、音声認識機能付き本200の各データベースの更新等が、容易に実現できる。
音声認識装置1を音声認識機能付き本200に搭載する場合、例えば図16に示すように、音声認識装置1は、収納部201内に設けられる。音声認識装置1は、例えばシングルボードコンピュータを用いることで、本の形状や重さへの影響を低減させることが可能となる。また、音声認識装置1を音声認識機能付き本200に搭載する場合には、予め各種情報等を音声認識装置1に記憶させたあと、入力部分108及び出力部分109を取り外し、更新等が必要なときに、再度取り付けることができる。
物語データベースには、例えば図17に示すように、予め取得された物語情報が記憶され、例えば判定情報が記憶されてもよい。物語情報は、物語の内容等の用途に応じて記憶させることができる。物語情報は、PCM等の音声データ形式で記憶されるほか、例えば文字列、数値、音素等の公知のデータ形式で記憶されてもよい。
判定情報は、物語情報に紐づく情報を示す。判定情報は、生成された認識情報から、物語情報の有する情報(例えば第1物語情報)を選択するために用いられ、例えば認識情報と等しいデータ形式で記憶される。判定情報は、例えば文字列、数値等の公知のデータ形式で記憶される。
例えば物語情報として「昔々、あるところにおじいさんと・・・」(第1物語情報)という内容に対し、判定情報「本を読んで」(第1判定情報)という文字列が紐づいている。この場合、認識情報と、第1判定情報とを比較し、比較結果として対応すると判定したときに、第1物語情報が選択され、出力される。
なお、認識情報と、判定情報との比較結果が、例えば完全一致のほか、一部一致、類似等の場合においても、対応すると判定してもよく、判定方法及び基準は、任意に設定できる。また、判定情報として、例えば閾値等の数値を含んでもよい。この場合、判定情報の数値(閾値)を用いて、認識情報に含まれる数値を評価し、認識情報が判定情報に対応するか否かを判定してもよい。
本実施形態における音声認識システム100では、出力部18は、認識情報に基づき、物語情報(例えば物語情報に含まれる第1物語情報)を出力する。出力部18は、生成された認識情報と、物語データベースに記憶された判定情報とを比較する。出力部18は、比較結果に基づき、認識情報に対応する判定情報(例えば第1判定情報)を判断し、第1判定情報に紐づく第1物語情報を選択する。
出力部18は、公知の技術を用いて、認識情報と判定情報とを比較する。比較方法として、例えば認識情報と、判定情報とが完全一致するか否かを比較するほか、一部一致、又は類似するか否かを比較してもよい。また、認識情報が数値の場合は、判定情報を閾値として、認識情報と判定情報との比較が行われてもよい。
制御装置3は、例えば物語情報に紐づく音声データが記憶されたデータベースを備えてもよく、データベースが記憶された記憶部を備える。この場合、物語データベースに記憶された物語情報と、音声データとの紐づけが、予め設定される。制御装置3は、例えば認識情報に基づき、音声を出力してもよい。この場合、制御装置3は、例えば上述した物語データベースが記憶された記憶部を備えてもよい。
制御装置3を音声認識機能付き本200に搭載する場合、制御装置3は、収納部201内に設けられる。制御装置3は、例えば複数設けられてもよい。
利用者等は、例えばユーザ端末6を介して音声認識装置1から認識情報や物語情報を取得してもよい。ユーザ端末6は、例えば音声認識装置1、収音装置2、及び制御装置3の少なくとも何れかの機能を備えてもよい。この場合、例えば収音装置2の代わりにユーザ端末6を用いて音声を収音させてもよい。ユーザ端末6にダウンロード可能なアプリケーション等を用いて、音声認識装置1等の機能を実現してもよい。
<電源部7>
電源部7は、例えば図2に示すように、音声認識機能付き本200における収納部201内に設けられる。電源部7として、例えばリチウムイオン二次電池や、太陽電池等の電池が用いられる。
<駆動部8>
駆動部8は、音声認識機能付き本200における本部202内に設けられ、例えば収納部201の表面に設けられてもよい。駆動部8は、音声認識装置1から送信される認識情報に基づき、駆動する。駆動部8として、LED(Light Emitting Diode)が用いられるほか、電子ペーパー、液晶ディスプレイ、有機EL(Electro Luminescence)ディスプレイ等の表示装置が用いられてもよい。
駆動部8としてLEDが用いられた場合、認識情報に基づき発光するか否かの制御が行われる。また、駆動部8として電子ペーパー、液晶ディスプレイ、又は有機ELディスプレイが用いられた場合、認識情報に基づき文字列や画像等を表示するか否かの制御が行われる。これらを駆動部8として用いることで、物語の内容に応じて適した演出を展開させることができ、物語の内容を利用者に印象付けることができる。
本実施形態における音声認識システム100によれば、上述した実施形態の効果に加え、出力部18は、認識情報に基づき第1物語情報を出力する。このため、利用者の発した音声に対して高精度に出力の情報を設定することができる。これにより、例えば本等の物語の内容に適した情報を提供することが可能となる。
また、本実施形態における音声認識システム100によれば、物語情報は、対象とする物語を朗読した音声を含む。このため、利用者が本等の文字を読むことなく、物語を理解することができる。これにより、利用者が求める内容に適した朗読を、容易に提供することが可能となる。
(機能例)
上述した各実施形態における音声認識システム100及び音声認識装置1は、例えば以下の機能を有してもよい。
<音節毎に認識、辞書登録機能>
音声認識システム100及び音声認識装置1は、例えば音節(単音節)毎に認識情報を生成してもよい。この場合、例えば複数の認識情報を組み合わせた複数の音節(すなわち文字列)を、文字列データベース又は参照データベースに登録してもよい。これにより、認識が難しい文字列に対しても、認識精度を向上させることができる。これにより、例えば認識が難しい文字列を、各データベースに登録することが可能となる。
例えば図18(a)に示すように、参照データベースには、音声データに含まれる最初及び最後の音節を特定するための2つの文字列情報を組み合わせた参照センテンスと、2つの文字列情報に付与された閾値とが記憶され、例えば文字列情報に紐づく音素情報が記憶されてもよい。
上記参照データベースを用いる場合、生成部17(例えば指定部17a)は、例えば評価データとして「た/1」、「行の/2」、「て/3」が選択された場合、図18(a)に示す第22参照センテンス(「た」、「て」の組み合わせ)を指定する。その後、生成部17(例えば比較部17b)は、評価データに対応する信頼度と、選択された文字列情報に付与された閾値とを比較し、比較結果に基づいて認識情報「て」を生成する。このため、取得した音声データのうち、最初及び最後の音節に絞った認識を行うことができる。これにより、認識が難しい音節に対し、精度の高い認識情報の生成を実現することが可能となる。
例えば図18(b)に示すように、音声認識装置1では、音声データ「あ行のあ」を取得した場合、生成部17は、認識情報「あ」を生成する。その後、音声データ「た行のた」、「ら行のら」、「さ行のし」、及び「あ行のい」を取得した場合、生成部17は、認識情報「た」、「ら」、「し」、「い」をそれぞれ生成する。次に、音声データ「登録」を取得した場合、生成部17は、これまでに生成した認識情報の組み合わせ「あたらしい」を認識情報として生成することができる。
その後、生成部17は、例えば記憶部13を介して、生成された認識情報「あたらしい」を文字列データベース又は参照データベースに登録することができる。なお、各データベースに登録する場合や、各認識情報の組み合わせを実行するために用いられる音声データの内容は、任意に設定できる。
上述した機能を有する音声認識システム100及び音声認識装置1は、取得した音声データのうち、最初及び最後の音節に絞った認識を行うことができる。これにより、認識が難しい音節に対し、精度の高い認識情報の生成を実現することが可能となる。また、認識情報を単音節で生成し、各認識情報を組み合わせることができる。これにより、認識が難しい文字列に対しても、各データベースに登録することを容易に実現することが可能となる。
<一部の評価データに基づく推定認識機能>
音声認識システム100及び音声認識装置1は、例えば一部の評価データに基づき、推定される認識情報を生成してもよい。この場合、取得した音声データのうち、一部に認識できない内容が含まれたときにおいても、音声データに適した認識情報を生成することができる。
例えば図19に示すように、参照データベースには、参照センテンスに紐づく推定認識情報が記憶される。参照センテンスは、複数の文字列情報の組み合わせに対応するほか、1つの文字列情報に対応してもよい。
生成部17は、例えば参照データベースの第30参照センテンスを指定し、評価データ「おやすみ/1」、「なさい/2」のうち、一部の評価データ「なさい/2」における信頼度が閾値未満と判断し、その他の評価データ「おやすみ/1」における信頼度が閾値以上と判断する場合がある。この場合、生成部17は、第31参照センテンスを指定し、評価データ「おやすみ/1」における信頼度が閾値以上と判断することで、推定認識情報「おやすみなさい」を認識情報として生成することができる。
上述した機能を有する音声認識システム100及び音声認識装置1は、取得した音声データに対する一部の評価データに基づき、推定認識情報を用いて認識情報を生成する。このため、取得した音声データのうち、一部に認識できない内容が含まれたときにおいても、音声データに適した認識情報を生成することができる。これにより、周辺環境等に起因するノイズを含む音声データを取得した場合においても、認識精度の低下を抑制することが可能となる。
<自発的に発話機能>
音声認識システム100及び音声認識装置1は、例えば自発的に発話する機能を有してもよい。この場合、例えば一定期間音声認識装置1が利用されない場合に、利用者等へ利用を促すことができる。
例えば音声認識装置1の取得部11は、一定期間内に音声データを取得できない場合、制御装置3を介して音声を出力してもよい。また、音声認識装置1は、例えば上述した環境情報又は雑音情報に基づき、制御装置3を介して音声を出力してもよい。
<スケジュール設定機能>
音声認識システム100及び音声認識装置1は、例えばスケジュール設定機能を有してもよい。この場合、例えば出力部18は、予め利用者等により設定された日時に基づき、例えば制御装置3を介して音声を出力する。これにより、音声認識システム100及び音声認識装置1の用途を拡大することが可能となる。
(用途例)
上述した各実施形態における音声認識システム100及び音声認識装置1は、例えば以下の用途に用いることができる。
<介護、リハビリ>
音声認識システム100及び音声認識装置1は、例えば介護、リハビリの分野に用いられてもよい。
<<認知症リハビリ、脳活性トレーニング>>
例えば、上述した出力手段S170(出力部18)を備えることで、認知症リハビリや、脳活性トレーニング等に用いることができる。例えば、発話データベースに認知症リハビリや、脳活性トレーニング等に適した発話情報を記憶させることで、認知症患者や脳活性トレーニングを対象者とした音声認識システム100及び音声認識装置1の利用が可能となる。
<<介護器具>>
例えば、制御装置3として、ベッドや車椅子等の介護器具が用いられる。この場合、例えば取得手段S110において、取得部11は、利用者が発した「ベッドを傾けて」等の音声に基づく音声データ取得する。その後、出力手段S170において、出力部18は、音声データに基づき生成された認識情報を、制御装置3に出力する。これにより、制御装置3の制御を実現することができる。従って、利用者は、リモコン等のような手で制御する道具を用いずに、制御装置3を駆動させることが可能となる。
<<存在確認>>
例えば、音声認識装置1及び収音装置2を、一人暮らしの高齢者等(被観測者)の居住空間に設置する。被観測者には、例えば定期的に収音装置2に向かって音声を発してもらうようにすることで、収音装置2により収音された音声に対応する認識情報を生成し、親族や介護者等(観測者)の保有するユーザ端末6に送信する。これにより、観測者が被観測者の存在確認を容易に実現することができる。音声認識システム100及び音声認識装置1を用いることで、定点カメラ等の撮像装置を用いる場合に比べて、プライバシーの保護も図ることが可能となる。
<<緊急時の報知>>
例えば、音声認識装置1及び収音装置2を、トイレや浴室等の空間に設置してもよい。この場合、トイレや浴室等を利用する利用者に、緊急事態が発生したときの救援要請装置として用いることができる。これにより、救援者等に対して緊急事態を即座に報知することが可能となる。
<メディカルチェック>
音声認識システム100及び音声認識装置1は、例えばメディカルチェックの分野に用いられてもよい。
<<精神状態チェック>>
例えば、車両等の運転者に対して、運転前の精神状態チェックに用いることができる。運転前において、運転者の音声に対応する認識情報を生成し、通常の精神状態時に生成された認識情報と比較する。これにより、運転に適した精神状態か否かの評価を、定量的に実施することができる。特に、上述した出力手段S170(出力部18)を備えることで、対話形式や質問形式の精神状態チェックを実現することが可能となる。なお、運転前以外にも、勤務時間前や、病院等において用いてもよい。
<<観測装置との連動>>
例えば、音声認識システム100は、気温センサや気圧センサ等の観測装置を備え、定期的に気温や気圧を条件情報として一定期間毎に取得してもよい。この場合、環境を踏まえた利用者の音声に対応する認識情報を生成することができる。これにより、認識精度をさらに向上させることが可能となる。
<生活補助、付加価値>
音声認識システム100及び音声認識装置1は、例えば生活補助等の分野に用いられてもよい。
<<発声認識補助>>
例えば、利用者が喉頭の全摘出手術を受けた喉頭摘出者の場合、食道発声に対応する認識情報を生成し、利用者以外の人に発声内容を報知することができる。
<<電車の乗り過ごし防止>>
例えば、電車の駅名、車掌アナウンスの内容を文字列データベースに記憶させることで、電車の乗り過ごし防止に用いることができる。この場合、予め設定された駅名のアナウンス等が電車内に流れることで、認識情報に基づき利用者に報知させることが可能となる。
<<音声リラクゼーション>>
例えば、利用者の音声に対応する認識情報に基づき、音楽を流してもよい。
<<電子機器制御>>
例えば、音声認識装置1を電子機器と接続することで、電子機器制御として用いることができる。特に、音声認識装置1を自動車のカーナビゲーション、オーディオシステム、照明等の電子機器と接続させることで、運転中に手を使わずに、利用者の音声に対応する認識情報に基づき、電子機器を制御することが可能となる。
<<セキュリティチェック>>
例えば、上述した出力手段S170(出力部18)を備えることで、銀行ATMやマンションのオートロック等のセキュリティチェックに用いることができる。特に、上述した利用者情報と組み合わせて用いることで、セキュリティレベルを大幅に向上させることが可能となる。
<<ゲーム>>
例えば、上述した出力手段S170(出力部18)を備えることで、ゲームと連動した利用が可能となる。例えば音声認識装置1を、利用者がゲームに使用するコントローラ等に接続させることで、認識情報に基づきコントローラ等の振動や発光等を容易に実現することができる。特に、ゲーム内又は利用者が発する音声を、ゲームの進行に対応して取得できるようにすることで、タイミングを考慮したコントローラ等の駆動を実現することができる。これにより、利用者の没入感を高めることが可能となる。
<<教育補助>>
例えば、上述した出力手段S170(出力部18)を備えることで、発声練習、クイズ、演算練習等の教育補助として用いることができる。特に、利用者との対話形式で用いることで、利用者の認識力やコミュニケーション能力を養うことが可能となる。
<接客現場>
音声認識システム100及び音声認識装置1は、例えば接客現場に用いられてもよい。
<<挨拶の評価>>
例えば、接客業に必要とされる挨拶の評価に用いることができる。例えば模範的な挨拶に対する乖離度を、認識情報として生成することが可能となる。特に、上述した出力手段S170(出力部18)を備えることで、接客のシミュレーション等を実現することが可能となり、接客態度等を定量的に評価することが可能となる。
<<注文確認>>
例えば、飲食店等における注文確認に用いることができる。客席等に収音装置2を設置することで、顧客が注文した内容を認識情報として生成し、店員等に報知することができる。特に、上述した出力手段S170(出力部18)を備えることで、顧客に追加の注文を提案したり、お勧め商品を紹介したりすることができる。これにより、売上向上に繋げることが可能となる。
<業務効率化>
音声認識システム100及び音声認識装置1は、例えば業務効率化を図るために用いられてもよい。
<<環境ノイズ対策>>
例えば、工事現場や、人混み等の環境ノイズ対策として用いることができる。例えば上述した雑音情報等の環境情報を取得することで、環境ノイズを容易に除去することが可能となる。
<<報告書作成>>
例えば、生成された認識情報に基づく任意の報告書形式のデータを生成して出力することで、報告書等の文書作成を容易に実現することが可能となる。この場合、例えば変換されたテキストデータを、ユーザ端末6等に送信してもよい。また、複数の認識情報をまとめてテキストデータとして変換して出力してもよい。この場合、例えばフィールドワーク本来の業務をしながらハンズフリーの操作ができるとともに、容易に報告書等を作成することができる。これにより、フィールドワーカーの負担となる報告書業務の効率化や、報告内容の品質向上を図ることが可能となる。
例えば、上述した出力手段S170(出力部18)を備えることで、報告書の内容を誘導することもできる。例えば第1出力手段S171において、出力部18は、任意の報告書の入力フォーマットに基づく第1発話情報を出力し、利用者に報告すべき内容(例えば「現在の場所は?」、「担当者は?」、「報告内容は?」等)を報知する。その後、取得手段S110において、取得部11は、報知された内容に対応する利用者の回答内容を含む音声(例えば「東京都」、「○山〇男」、「トンネルの点検」等)に基づく音声データを取得する。その後、生成手段S160において、音声に対応して生成された認識情報に基づき、文字列(文章)を含む報告書のデータ(例えばワード、エクセル等)を生成する。生成された報告書のデータは、例えば監督者等の有するユーザ端末6等に送信されてもよい。
なお、第1出力手段S171〜生成手段S160を複数繰り返し、複数の文字列を含む1つの報告書のデータが生成されてもよい。また、報告書のデータには、例えば利用者が有するユーザ端末6、又は音声認識装置1に搭載された公知の撮像装置(カメラ)等を用いて撮像された画像データが含まれてもよい。この場合、例えば出力手段S170により、利用者に対して対象物等の撮像を誘導する内容(例えば「修繕前(後)の写真を撮影してください」等)を、利用者に報知できるようにしてもよい。
上記に加え、例えば最初に取得手段S110を実施し、取得部11が上述した条件情報を取得するようにしてもよい。この場合、例えば工事現場等の騒音環境に関する環境情報を予め取得することができ、音声認識精度の低下を抑制することが可能となる。なお、例えば公知のノイズキャンセリング機能を備えた収音装置2等を用いて、騒音環境の影響を低減させてもよい。
<<指差喚呼補助>>
例えば、作業現場等の指差喚呼補助として用いられてもよい。特に、指差喚呼の音声に対応する認識情報が生成されるため、適切な指差喚呼を行ったか否かを判定することができる。これにより、指差喚呼の怠りによる事故等の発生を抑制することが可能となる。また、指差喚呼の音声に対応する認識情報を生成し、保存することができるため、事故等が発生した場合における原因究明や、再発防止の検討を容易に実現することが可能となる。
<<無人搬送車の制御>>
例えば、無人搬送車(AGV:Automated Guided Vehicle)の制御に用いられてもよい。この場合、上述した制御装置3をとして、無人搬送車が用いられる。これにより、パソコン等による手入力操作を行うことなく、無人搬送車の制御ができ、作業効率の向上を図ることが可能となる。特に、上述した出力手段S170(出力部18)を備える場合、例えば無人搬送車への指示確認を復唱させることで、誤動作を防ぐことができる。これにより、誤動作に伴う作業効率の低下を抑制することが可能となる。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
1 :音声認識装置
2 :収音装置
3 :制御装置
4 :公衆通信網
5 :サーバ
6 :ユーザ端末
7 :電源部
8 :駆動部
10 :筐体
11 :取得部
12 :抽出部
13 :記憶部
14 :検出部
15 :算出部
16 :選択部
17 :生成部
17a :指定部
17b :比較部
17c :更新部
18 :出力部
19 :反映部
100 :音声認識システム
101 :CPU
102 :ROM
103 :RAM
104 :保存部
105 :I/F
106 :I/F
107 :I/F
108 :入力部分
109 :出力部分
110 :内部バス
200 :音声認識機能付き本
201 :収納部
202 :本部
S110 :取得手段
S120 :抽出手段
S130 :検出手段
S140 :算出手段
S150 :選択手段
S160 :生成手段
S161 :指定手段
S162 :比較手段
S163 :更新手段
S170 :出力手段
S180 :反映手段
S190 :設定手段

Claims (4)

  1. 音声に対応する認識情報を生成する音声認識システムであって、
    前記音声に基づき、音声データを取得する取得手段と、
    音素認識により、前記音声データに含まれる開始無音区間及び終了無音区間を抽出し、前記開始無音区間と前記終了無音区間との間に挟まれた音素及び休止区間の配列を、前記音素認識により認識対象データとして抽出する抽出手段と、
    予め取得された文字列情報と、前記文字列情報に紐づく音素情報と、前記文字列情報に付与されたクラスIDとが記憶された文字列データベースと、
    前記文字列データベースを参照し、前記認識対象データの有する前記配列に対応する前記音素情報を選択し、選択された前記音素情報に紐づく前記文字列情報及び前記クラスIDを、候補データとして複数検出する検出手段と、
    予め取得された前記クラスIDの配列順序を示す文法情報が記憶された文法データベースと、
    前記文法データベースを参照し、複数の前記候補データを前記文法情報に基づき組み合あわせたセンテンスを生成し、前記センテンスに含まれる前記候補データ毎の前記文字列情報に対する信頼度を、前記文法データベースを用いて算出する算出手段と、
    前記信頼度に基づき、複数の前記候補データから評価データを選択する選択手段と、
    前記評価データに基づき、前記認識情報を生成する生成手段と
    を備えることを特徴とする音声認識システム。
  2. 予め取得された前記文字列情報と、前記文字列情報を組み合わせた参照センテンスと、前記文字列情報毎に付与された閾値とが記憶された参照データベースをさらに備え、
    前記生成手段は、
    前記参照データベースを参照し、前記参照センテンスのうち、前記評価データに対応する第1参照センテンスを指定する指定手段と、
    前記評価データに対応する前記信頼度と、前記第1参照センテンスに含まれる第1文字列情報に付与された第1閾値とを比較する比較手段と、
    を有し、前記比較手段の比較結果に基づき、前記認識情報を生成すること
    を特徴とする請求項1記載の音声認識システム。
  3. 音声に対応する認識情報を生成する音声認識装置であって、
    前記音声に基づき、音声データを取得する取得部と、
    音素認識により、前記音声データに含まれる開始無音区間及び終了無音区間を抽出し、前記開始無音区間と前記終了無音区間との間に挟まれた音素及び休止区間の配列を、前記音素認識により認識対象データとして抽出する抽出部と、
    予め取得された文字列情報と、前記文字列情報に紐づく音素情報と、前記文字列情報に付与されたクラスIDとが記憶された文字列データベースと、
    前記文字列データベースを参照し、前記認識対象データの有する前記配列に対応する前記音素情報を選択し、選択された前記音素情報に紐づく前記文字列情報及び前記クラスIDを、候補データとして複数検出する検出部と、
    予め取得された前記クラスIDの配列順序を示す文法情報が記憶された文法データベースと、
    前記文法データベースを参照し、複数の前記候補データを前記文法情報に基づき組み合あわせたセンテンスを生成し、前記センテンスに含まれる前記候補データ毎の前記文字列情報に対する信頼度を、前記文法データベースを用いて算出する算出部と、
    前記信頼度に基づき、複数の前記候補データから評価データを選択する選択部と、
    前記評価データに基づき、前記認識情報を生成する生成部と
    を備えること
    を特徴とする音声認識装置。
  4. 請求項3に記載の音声認識装置を備える音声認識機能付き本。
JP2020000093A 2019-01-22 2020-01-06 音声認識システム、音声認識装置、及び音声認識機能付き本 Pending JP2020118962A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019008681 2019-01-22
JP2019008681 2019-01-22

Publications (1)

Publication Number Publication Date
JP2020118962A true JP2020118962A (ja) 2020-08-06

Family

ID=71890734

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020000093A Pending JP2020118962A (ja) 2019-01-22 2020-01-06 音声認識システム、音声認識装置、及び音声認識機能付き本

Country Status (1)

Country Link
JP (1) JP2020118962A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024009465A1 (ja) * 2022-07-07 2024-01-11 パイオニア株式会社 音声認識装置、プログラム、音声認識方法、及び音声認識システム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024009465A1 (ja) * 2022-07-07 2024-01-11 パイオニア株式会社 音声認識装置、プログラム、音声認識方法、及び音声認識システム

Similar Documents

Publication Publication Date Title
US11990127B2 (en) User recognition for speech processing systems
US11270685B2 (en) Speech based user recognition
Jing et al. Prominence features: Effective emotional features for speech emotion recognition
Lefter et al. Automatic stress detection in emergency (telephone) calls
US11705105B2 (en) Speech synthesizer for evaluating quality of synthesized speech using artificial intelligence and method of operating the same
CN112750465A (zh) 一种云端语言能力评测系统及可穿戴录音终端
US10832668B1 (en) Dynamic speech processing
US7624013B2 (en) Word competition models in voice recognition
JP2011018327A (ja) 質問応答データベース拡張装置および質問応答データベース拡張方法
Pittermann et al. Handling emotions in human-computer dialogues
US11935523B2 (en) Detection of correctness of pronunciation
JP6462936B1 (ja) 音声認識システム、及び音声認識装置
JP5105943B2 (ja) 発話評価装置及び発話評価プログラム
JP2018159788A (ja) 情報処理装置、方法及びプログラム
KR102444012B1 (ko) 말 장애 평가 장치, 방법 및 프로그램
López-Cózar et al. Enhancement of emotion detection in spoken dialogue systems by combining several information sources
JP2020118962A (ja) 音声認識システム、音声認識装置、及び音声認識機能付き本
Hassan On automatic emotion classification using acoustic features
JP7178890B2 (ja) 音声認識システム、及び音声認識装置
CN111078937B (zh) 语音信息检索方法、装置、设备和计算机可读存储介质
ES2965480T3 (es) Procesamiento y evaluación de señales del habla
JP2020118803A (ja) 音声認識システム、及び音声認識装置
JP7195947B2 (ja) 音声認識システム、及び音声認識装置
KR20200095668A (ko) Ai 스피커를 이용한 노인 케어 시스템 및 방법
Othman Analyzing Acoustic Markers of Emotion in Arabic Speech

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200114