JP2018055022A

JP2018055022A - 音声認識システム、情報処理装置、プログラム

Info

Publication number: JP2018055022A
Application number: JP2016193855A
Authority: JP
Inventors: 香川　正明; Masaaki Kagawa; 正明香川; 頼史石山; Yorichika Ishiyama; 金原　弘幸; Hiroyuki Kanehara; 弘幸金原; 貴弘山本; Takahiro Yamamoto; 鈴木　剛; Takeshi Suzuki; 鈴木　　剛
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2016-09-30
Filing date: 2016-09-30
Publication date: 2018-04-05
Anticipated expiration: 2036-09-30
Also published as: JP6922178B2

Abstract

【課題】ユーザ等の違いによる音声の認識精度の低下を抑制できる情報処理装置を提供すること。【解決手段】本発明は、音声データに対し音声認識を行う第一の情報処理装置５０と、前記第一の情報処理装置に音声データを送信する第二の情報処理装置２とを有する音声認識システム１００であって、前記第二の情報処理装置は、ユーザに関するユーザ情報を前記第一の情報処理装置に送信するユーザ情報送信手段２６を有し、前記第一の情報処理装置は、前記ユーザ情報を受信するユーザ情報受信手段５１と、前記ユーザ情報に対応付けられた辞書データを使用して、前記第二の情報処理装置から送信された音声データに音声認識を施す音声認識手段５４と、音声データの認識結果を前記第二の情報処理装置に送信する認識結果送信手段５２と、を有する。【選択図】図１

Description

本発明は、音声認識システム、情報処理装置、及びプログラムに関する。

人が発声する音声をマイクから取得し、音声認識を行うことでテキストデータに変換する音声認識技術が知られている。音声認識技術が適用された装置やシステムは音声を集音することで、例えば会議の議事録を作成したり、電話の内容を記録したりすることができる。テキストデータに変換されていればキーワードなどで簡単に検索することもできるようになる。

ところで、会議などで電子黒板が利用されるようになっている。電子黒板には他の拠点の電子黒板と通信できるものがあり、一方の拠点の電子黒板が表示している情報を他の拠点の電子情報が表示でき、他拠点間で会議することができる（例えば、特許文献１参照。）。

音声認識技術をこの電子黒板に適用すれば、会議をしながら音声をテキストデータに変換できるようになり、発声内容を字幕のように表示したり議事録の作成に利用したりできるようになる。

しかしながら、従来の音声認識技術では、ユーザが不特定である場合に音声の認識精度が大きく低下する場合があるという問題があった。これは主にユーザによってよく使う単語が異なるためである。このため、従来の音声認識技術では、ユーザを予め限定しておく必要があるか、又は、不特定多数で利用する場合は一般的な用語（認識対象の単語が制限されている）しか認識できない場合があった。

本発明は、上記課題に鑑み、ユーザ等の違いによる音声の認識精度の低下を抑制できる情報処理装置を提供することを目的とする。

本発明は、音声データに対し音声認識を行う第一の情報処理装置と、前記第一の情報処理装置に音声データを送信する第二の情報処理装置とを有する音声認識システムであって、前記第二の情報処理装置は、ユーザに関するユーザ情報を前記第一の情報処理装置に送信するユーザ情報送信手段を有し、前記第一の情報処理装置は、前記ユーザ情報を受信するユーザ情報受信手段と、前記ユーザ情報に対応付けられた辞書データを使用して、前記第二の情報処理装置から送信された音声データに音声認識を施す音声認識手段と、音声データの認識結果を前記第二の情報処理装置に送信する認識結果送信手段と、を有する。

ユーザ等の違いによる音声の認識精度の低下を抑制できる情報処理装置を提供することができる。

本実施形態の音声認識システムの動作の概略を説明する図の一例である。本実施形態の音声認識システムの概略構成図の一例である。電子黒板のハードウェア構成図の一例である。クラウドサーバの概略的なハードウェア構成図の一例である。電子黒板、クラウドサーバ及び認証装置の機能をブロック状に示す機能ブロック図の一例である。音声認識部の音声認識に関する機能をブロック状に示す機能ブロック図の一例である。音声認識システムの動作手順を示すシーケンス図の一例である。

以下、本発明を実施する音声認識システムと音声認識システムが行う音声認識方法について、図面を参照しながら実施例を挙げて説明する。

＜概略的な動作＞
図１は、本実施形態の音声認識システム１００の動作の概略を説明する図の一例である。電子黒板２は音声認識サービス１１及び認証サービス１２を利用することができる。また、電子黒板２はＩＣカード８を読み取るカードリーダ１１７を有する。
（１）電子黒板２のユーザは自分の携帯するＩＣカード８をカードリーダ１１７に近づける。
（２）電子黒板２はカードリーダ１１７から読み込んだカード情報（カードを特定する情報）を、認証サービス１２に送信し、ユーザ情報（ユーザを特定する情報) を取得する。
（３）会議が開催されユーザが近くの参加者又は他の拠点の参加者と会話する。電子黒板２はユーザが発声した音声データを取得して、ユーザ情報と共に音声データを音声認識サービス１１に送信する。
（４）音声認識サービス１１は、ユーザ情報によりユーザごとに管理する辞書データを特定する。辞書データには、ユーザの発声内容（単語など）の意図が登録されている。
（５）音声認識サービス１１はユーザの辞書データを利用して音声データを解析し、ユーザの意図に沿って作成した認識結果（テキストデータやバイナリデータ）を電子黒板２に送信する。
（６）電子黒板２は受信したテキストデータをディスプレイ３に表示したり、バイナリデータを自機の操作などに使用したりする。

このように、本実施形態の音声認識システム１００では、不特定多数のユーザが１つの電子黒板を利用する場合でもユーザが特定されるので、特定したユーザに専用の辞書データを利用してユーザの意図に沿った音声認識が可能になる。音声の認識精度も向上するので、不特定のユーザが利用しても認識精度の低下を抑制できる。

＜システム構成例＞
図２は、本実施形態の音声認識システム１００の概略構成図の一例である。音声認識システム１００は、ネットワークＮを介して通信する電子黒板２、クラウドサーバ５０及び認証装置４０を有する。

クラウドサーバ５０は、音声をテキストデータに変換するサービスを行う情報処理装置の一例である。上記の音声認識サービス１１を提供する。クラウドサーバ５０はサーバ装置と呼ばれる場合がある。クラウドサーバ５０はクラウドベースの人口知能を利用しているため（つまり、多くの人が使う単語を学習しているため）、専門的な単語や造語、又は、使用頻度が極めて少ない単語を認識できない、又は認識しにくい。そこで、ユーザごとの辞書データが有効になる。

また、クラウドサーバ５０のクラウドとは、サーバがクラウドコンピューティングに対応していることを意図している。クラウドとは特定ハードウェア資源を意識しないでネットワーク上のリソースを利用する利用形態である。この場合、クラウドサーバ５０は、１つの筐体に収納されていたり、又は、一台の装置として備えられていたりする必要はない。例えば、負荷に応じてハード的なリソースが動的に接続・切断されることで構成されてよい。また、一台の情報処理装置の中の仮想化環境に構築されていたり、複数台の情報処理装置に跨って構築されたりしてもよい。

また、本実施形態ではクラウドサーバ５０はインターネット上に存在するものとして説明するが、ネットワークに接続されていればどこに存在してもよい。オンプレミスに存在してもよい。また、クラウドサーバ５０はリソースの所在が明らかになっている通常のサーバであっても本実施形態に適用可能である。また、音声認識サービス１１が電子黒板２の中に構築されていてもよい。

認証装置４０はユーザを認証する装置であり、具体的には情報処理装置を実体とする。認証装置４０は上記の認証サービス１２を提供する。認証装置４０はカード情報とユーザ情報を対応付けて保持しており、カード情報が送信されるとユーザ情報を返す。認証装置４０はネットワークに接続されていればどこに存在してもよく、クラウド上に存在してもオンプレミスに存在してもよい。また、認証サービス１２が電子黒板２の中に構築されていてもよい。また、音声認識サービス１１と認証サービス１２を同じ装置が提供してもよい。

電子黒板２は、文字や図、イラストなど、ユーザがディスプレイ３に書き込んだ内容を電子変換してディスプレイ３に表示する装置である。ユーザは電子ペン又は手指をディスプレイ３上で移動させ、電子黒板２は電子ペン又は手指の接触位置を座標に変換し、座標を連結することでディスプレイ３に文字等を表示する。なお、電子黒板２は、他の拠点の電子黒板２と通信してユーザの手書き内容等を共有できる。

電子黒板２は内部に情報処理装置としての機能を有する。音声認識を行うためには電子黒板２はマイク１１８を備えた情報処理装置であればよく、電子黒板２は、ＰＣ（Personal Computer）、テレビ会議端末、ＭＦＰ（Multi-Function Peripheral）、プロジェクタ、デジタルサイネージなどでもよい。また、スマートフォン、タブレット端末、ゲーム機、ＰＤＡ（Personal Digital Assistant）、デジタルカメラ、携帯電話、ウェアラブルＰＣ（Personal Computer）などでもよい。

ネットワークＮは、電子黒板２が設置されている施設などに構築されているＬＡＮ、ＬＡＮをインターネットに接続するプロバイダのプロバイダネットワーク、及び、回線事業者が提供する回線等により構築されている。ネットワークＮが複数のＬＡＮを有する場合、ネットワークＮはＷＡＮやインターネットと呼ばれる。ネットワークＮは有線又は無線のどちらで構築されてもよく、また、有線と無線が組み合わされていてもよい。また、電子黒板２が３Ｇ、ＬＴＥ、４Ｇなどで直接、公衆回線網に接続する場合は、ＬＡＮを介さずにプロバイダネットワークに接続することができる。

上記のように、ユーザが発声した音声データが電子黒板２からネットワーク経由でクラウドサーバ５０に送信される。この時の音声データの形式は問わない。ストリームデータ（データの生成と送信がリアルタイムに行われるデータ）でもよいし、ストリームではないファイルなどの固まりのデータでもよい。

また、クラウドサーバ５０は音声データに音声認識処理を行って認識結果を作成する際、単語ごとに認識の信頼度を算出する。認識の信頼度は、認識結果をどれだけ「信頼」してよいかを表す尺度である（１に近いほど信頼度が高い）。また、変換候補が複数ある場合は、１つの単語に複数の候補とそれぞれの信頼度が作成される。

＜ハードウェア構成＞
<<電子黒板のハードウェア構成図例>>
図３は、電子黒板２のハードウェア構成図の一例である。図３に示されているように、電子黒板２は、電子黒板２全体の動作を制御するＣＰＵ１０１、ＩＰＬ等のＣＰＵの駆動に用いられるプログラムを記憶したＲＯＭ１０２、ＣＰＵ１０１のワークエリアとして使用されるＲＡＭ１０３、ネットワークＮとの通信を制御するネットワークコントローラ１０５、及び、ＵＳＢメモリ５との通信を制御する外部記憶コントローラ１０６を備えている。

また、電子黒板２は、ＰＣ６がＰＣ６のディスプレイに表示している静止画又は動画を取り込む外部ビデオインタフェース１１１を有する。また、グラフィクス（ディスプレイ３に表示する画面の画像処理）を専門に扱うＧＰＵ１１２、及び、ＧＰＵ１１２からの映像又はテレビ会議端末７からの映像をディスプレイ３へ出力するために画面表示の制御及び管理を行うディスプレイコントローラ１１３を備えている。

更に、電子黒板２は、タッチパネルの処理を制御するセンサコントローラ１１４、ディスプレイ３に電子ペン又は手指が接触したことを検知するタッチパネル１１５を備えている。また、電子黒板２は、電子ペンコントローラ１１６を備えている。電子ペンコントローラ１１６は、電子ペン９と通信することで、ディスプレイ３への電子ペン９のペン先のタッチやペン尻のタッチの有無を判断する。なお、電子ペンコントローラ１１６が、ペン先及びペン尻だけでなく、電子ペン９のユーザが握る部分や、その他の電子ペン９の部分のタッチの有無や圧力を判断するようにしてもよい。

更に、電子黒板２は、ＩＣカード８を非接触又は接触させて読み取るカードリーダ１１７を備える。カードリーダ１１７は、ＮＦＣ（Near Field Communication)に準拠しておりＮＦＣの下位規格であるFeliCa（登録商標）やMifare等に準拠したＩＣカード８を読み取ることができる。

更に、電子黒板２は、ユーザの音声を集音しＡ／Ｄ変換してデジタルの音声データを取得するマイク１１８を有している。

なお、カードリーダ１１７とマイク１１８は、電子黒板２が内蔵していてもよいし、ＵＳＢケーブルやBluetooth（登録商標）などで外付けされていてもよい。

更に、電子黒板２は、ＣＰＵ１０１、ＲＯＭ１０２、ＲＡＭ１０３、ネットワークコントローラ１０５、外部記憶コントローラ１０６、外部ビデオインタフェース１１１、ＧＰＵ１１２、センサコントローラ１１４、電子ペンコントローラ１１６、マイク１１８、及びカードリーダ１１７を図２に示されているように電気的に接続するためのアドレスバスやデータバス等のバスライン１２０を備えている。

<<クラウドサーバのハードウェア構成例>>
図４は、クラウドサーバ５０の概略的なハードウェア構成図の一例である。クラウドサーバ５０は、ＣＰＵ２０１と、ＣＰＵ２０１が使用するデータの高速アクセスを可能とするメモリ２０２とを備える。ＣＰＵ２０１及びメモリ２０２は、システム・バス２０３を介して、クラウドサーバ５０の他のデバイス又はドライバ、例えば、グラフィクス・ドライバ２０４及びネットワーク・ドライバ（ＮＩＣ）２０５へと接続されている。

グラフィクス・ドライバ２０４は、バスを介してＬＣＤ（ディスプレイ装置）２０６に接続されて、ＣＰＵ２０１による処理結果をモニタする。また、ネットワーク・ドライバ２０５は、トランスポート層レベル及び物理層レベルでクラウドサーバ５０をネットワークＮへと接続して、電子黒板２とのセッションを確立させている。
システム・バス２０３には、更にＩ／Ｏバス・ブリッジ２０７が接続されている。Ｉ／Ｏバス・ブリッジ２０７の下流側には、ＰＣＩなどのＩ／Ｏバス２０８を介して、ＩＤＥ、ＡＴＡ、ＡＴＡＰＩ、シリアルＡＴＡ、ＳＣＳＩ、ＵＳＢなどにより、ＨＤＤ（ハードディスクドライブ）２０９などの記憶装置が接続されている。ＨＤＤ２０９はクラウドサーバ５０の全体を制御するプログラム２０９ｐを記憶している。ＨＤＤ２０９はＳＳＤ（Solid State Drive）でもよい。

また、Ｉ／Ｏバス２０８には、ＵＳＢなどのバスを介して、キーボード及びマウス（ポインティング・デバイスと呼ばれる）などの入力装置２１０が接続され、システム管理者などのオペレータによる入力及び指令を受け付けている。

なお、図示したクラウドサーバ５０のハードウェア構成は、１つの筐体に収納されていたりひとまとまりの装置として備えられていたりする必要はなく、クラウドサーバ５０が備えていることが好ましいハード的な要素を示す。また、クラウドコンピューティングに対応するため、本実施例のクラウドサーバ５０の物理的な構成は固定的でなくてもよく、負荷に応じてハード的なリソースが動的に接続・切断されることで構成されてよい。

なお、認証装置４０のハードウェア構成図は、クラウドサーバ５０と同様であるか、又は、異なるとしても本実施形態の音声認識システム１００の説明の上で支障はないものとする。

＜機能について＞
図５は、電子黒板２、クラウドサーバ５０及び認証装置４０の機能を示すブロック状に示す機能ブロック図の一例である。

<<電子黒板２>>
電子黒板２は、カード情報読取部２１、カード情報送信部２２、音声取得部２３、ユーザ情報受信部２４、情報表示部２５、認証・音声送信部２６、機器操作部２７、及び、情報受信部２８の各機能を有する。

カード情報読取部２１は、ＣＰＵ１０１がＲＡＭ１０３に記憶されたプログラムを実行しカードリーダ１１７を制御すること等により実現され、ユーザが携帯するＩＣカード８からカード情報を取得する。カード情報は、ＩＣカード８に記憶されているＩＣカード８を特定するための情報である。すなわち、カード情報はＩＣカード８の識別子や識別情報である。識別子又は識別情報は複数の対象から、ある特定の対象を一意的に区別するために用いられる名称、符号、文字列、数値又はこれらのうち１つ以上の組み合わせをいう。具体的にはカードリーダ１１７の種類などに関係なくＩＣカード８から読取可能なＩＤｍ（FeliCaの場合）やＵＩＤ（Mifareの場合）を使用してもよいし、暗号化領域の情報を利用してもよい。

なお、カードリーダ１１７でカード情報を読み取る他、ユーザがキーボードからユーザを特定する情報を入力してもよいし、生体認証に用いられる情報（顔、指紋、虹彩、掌紋、静脈紋など）を入力してもよい。
カード情報送信部２２は、ＣＰＵ１０１がＲＡＭ１０３に記憶されたプログラムを実行しネットワークコントローラ１０５を制御すること等により実現され、読み取ったカード情報を認証装置４０に送信する。

ユーザ情報受信部２４は、ＣＰＵ１０１がＲＡＭ１０３に記憶されたプログラムを実行しネットワークコントローラ１０５を制御すること等により実現され、認証装置４０からユーザ情報を取得する。ユーザ情報はユーザを特定するための情報であり、例えば、ユーザＩＤ、ユーザ名、メールアドレス、生体情報又は電話番号などである。これらに限られずユーザを特定できる情報であればよい。

音声取得部２３は、ＣＰＵ１０１がＲＡＭ１０３に記憶されたプログラムを実行しマイク１１８を制御すること等により実現され、マイク１１８がＡ／Ｄ変換したユーザの音声データを取得する。
認証・音声送信部２６は、ＣＰＵ１０１がＲＡＭ１０３に記憶されたプログラムを実行しネットワークコントローラ１０５を制御すること等により実現され、ユーザ情報と音声データをクラウドサーバ５０に送信する。ユーザ情報と音声データは同時に送信される必要はなく、別々に送信されてよい。この場合、クラウドサーバ５０は、一度、ユーザ情報を受信すると次にユーザ情報を受信するまで、最後に受信したユーザ情報に対応付けられた音声データであると判断する。

情報受信部２８は、ＣＰＵ１０１がＲＡＭ１０３に記憶されたプログラムを実行しネットワークコントローラ１０５を制御すること等により実現され、クラウドサーバ５０から認識結果を受信する。認識結果は、テキストデータ又はバイナリデータのどちらでもよい。認識結果はディスプレイ３への表示、電子黒板２の操作、又は他の装置への送信などに使用される。

情報表示部２５は、情報受信部２８が受信した認識結果をディスプレイ３に表示する。電子黒板２以外の任意の装置に表示してもよい。

機器操作部２７は、ＣＰＵ１０１がＲＡＭ１０３に記憶されたプログラムを実行し機器操作の内容に応じたハードウェアを制御すること等により実現され、電子黒板２を認識結果に応じて制御する。例えば、認識結果であるテキストデータをディスプレイ３に表示したり、電子黒板２を制御したりする。電子黒板２の制御としては、例えば電子黒板２の電源のＯＮ（カードリーダ１１７、音声データの送信及び認識結果の受信に必要な電源は供給されている状態でメインの電源をＯＮにする）、電源のＯＦＦ、手書きされたストロークデータの削除などを行う。あるいは、検索エンジンにテキストデータを送信し、検索結果をディスプレイ３に表示する。あるいは、クラウドサーバ５０からの認識結果を電子黒板２などが音声合成し音声として出力してもよい。あるいは、スケジュールシステムに認識結果を送信し、ユーザの予定を登録する。

<<認証装置４０>>
まず、認証装置４０は認証ＤＢ４４（データベース）を有している。認証ＤＢ４４は、図４に示したＨＤＤ２０９やメモリ２０２に構築され、予めカード情報とユーザ情報の組が記憶されている。表１に認証ＤＢ４４に記憶されているカード情報とユーザ情報を示す。

表１は認証ＤＢ４４に記憶されている情報をテーブル状に示す。カード情報とユーザ情報が対応付けられているため、認証装置４０がカード情報を取得するとユーザ情報を特定できる。

続いて、認証装置４０の機能について説明する。認証装置４０は、カード情報受信部４１、ユーザ情報取得部４２及びユーザ情報送信部４３を有する。

カード情報受信部４１は、図４に示したＣＰＵ２０１がプログラム２０９ｐを実行しネットワーク・ドライバ２０５を制御すること等により実現され、電子黒板２からカード情報を受信する。カード情報はユーザ情報取得部４２に送出される。

ユーザ情報取得部４２は、図４に示したＣＰＵ２０１がプログラム２０９ｐを実行すること等により実現され、カード情報に対応付けられているユーザ情報を認証ＤＢ４４から取得する。送信されたカード情報が認証ＤＢ４４に含まれていない場合、ユーザ情報取得部４２はユーザ情報送信部４３を介してエラーを電子黒板２に返す。更に、ユーザ情報の送信を電子黒板２に要求して、ユーザがカード情報とユーザ情報の登録を行えるようにしてもよい。

ユーザ情報送信部４３は、図４に示したＣＰＵ２０１がプログラム２０９ｐを実行しネットワーク・ドライバ２０５を制御すること等により実現され、ユーザ情報を電子黒板２に送信する。

<<クラウドサーバ５０>>
まず、クラウドサーバ５０は辞書ＤＢ４５を有している。辞書ＤＢ４５は、図４に示したＨＤＤ２０９やメモリ２０２に構築され、予めユーザごとに辞書データが記憶されている。表２に辞書ＤＢ４５に記憶されているユーザごとの辞書データを示す。

表２（ａ）は辞書ＤＢ４５に記憶されている情報をテーブル状に示す。ユーザ情報と辞書データが対応付けられているため、クラウドサーバ５０がユーザ情報を取得すると辞書データを特定できる。辞書データの具体例を表２（ｂ）に示す。辞書データには、ユーザの発声内容がどのような意図であるか、より具体的には発声内容を何に変換するかがユーザごとに登録されている。

なお、辞書ＤＢ４５にはユーザごとに辞書データが登録される他、ユーザが属する組織、グループ、又はプロジェクトなど、ユーザが属するグループ別に辞書データが登録されていてもよい。この場合、ユーザは発声の際に自分の属性をクラウドサーバ５０に通知し、クラウドサーバ５０は属性に応じて辞書データを切り替える。同じ属性のユーザは似たような単語を発する場合が多く、その単語に込められた意図も同じ場合が多いためである。

表２（ｂ）は辞書データの一例を示す。辞書データには発声内容、ユーザ意図及び処理方法が対応付けられている。例えば、「ネット」という発声内容には「インターネット」というユーザ意図が対応付けられている。このように、ユーザの発声内容がユーザの意図に変換されるため、ユーザに固有の音声認識が可能になる。また、処理方法は、電子黒板２が発声内容をどのように処理するかを意味する。例えば、「表示」はユーザの発声内容を電子黒板２が表示することを意味する。「操作」はユーザの発声内容を用いて電子黒板２が自機（又は他機）を操作することを意味する。「他の装置に送信」はユーザの発声内容に基づく認識結果（表示用のテキストデータでも他機を操作するコマンドでもよい）を他の装置に送信することをいう。

また、辞書データにはユーザが属する組織、グループ、又はプロジェクトなどに対し、符丁と適切な単語が対応付けて登録されていることが好ましい。符丁とは隠語やジャーゴン等と呼ばれ、仲間内だけで通じる言葉、言い回し又は専門用語のことである。例えば、「３Ｇ」が「開発第三グループ」を意味するような場合に有効である。辞書データにより、音声データに符丁が含まれていても音声認識部５４は正しい認識結果を取得できる。

続いて、クラウドサーバ５０の機能について説明する。クラウドサーバ５０は、認証・音声受信部５１、情報送信部５２、辞書取得部５３、及び音声認識部５４を有する。

認証・音声受信部５１は、図４に示したＣＰＵ２０１がプログラム２０９ｐを実行しネットワーク・ドライバ２０５を制御すること等により実現され、電子黒板２からユーザ情報及び音声データを受信する。

辞書取得部５３は、図４に示したＣＰＵ２０１がプログラム２０９ｐを実行すること等により実現され、ユーザ情報に対応付けられた辞書データを辞書ＤＢ４５から取得する。ユーザの属性ごとに辞書データが登録されている場合、ユーザは属性をクラウドサーバ５０に通知することにし、辞書取得部５３はユーザの属性に対応付けられた辞書データを取得する。

音声認識部５４は、図４に示したＣＰＵ２０１がプログラム２０９ｐを実行すること等により実現され、音声データを解析し辞書データを参照して認識結果を作成する。辞書データがユーザごとに用意されているので、ユーザの発声をユーザの意図を汲んで解析できる。表２（ｂ）を参照して説明する。例えば、「ネット」という単語はこのユーザの場合「インターネット」を意味する。すなわち、「ネット」という単語に対し変換後の単語として「インターネット」が登録されている。音声認識部５４は、音声の認識結果に「ネット」という単語が含まれる場合、「インターネット」という言葉に変換する。クラウドサーバ５０は「インターネット」という認識結果を「表示」という処理方法に対応付けて送信する。

また、「イントラ、検索」という単語はこのユーザの場合「社内ＬＡＮ及びＶＰＮ」を検索範囲にして検索することを意味する。すなわち、「イントラ」という単語に対し変換後の単語として「社内ＬＡＮ及びＶＰＮ」が登録されている。音声認識部５４は、音声の認識結果に「イントラ、検索」という単語が含まれる場合、社内の検索サーバのＩＰアドレスを宛先としキーワードを含む検索要求に操作という処理方法を対応付けて電子黒板２に送信する。例えば、検索要求は「http://192.168.1.100/#q=キーワード」であり、これに操作という処理方法が対応付けられる。社内の検索サーバにはＶＰＮのキャッシュも登録されていると思われるが、必要であれば、ＩＰｓｅｃ等を利用してＶＰＮの検索サーバのＩＰアドレスを宛先とする検索要求を電子黒板２に送信する。なお、検索のキーワードは「イントラ、検索」の前又は後にユーザが発声した単語が使用される。

また、「電源ＯＮ」という単語はこのユーザの場合「電子黒板を電源ＯＮするコマンドを生成」することを意味する。音声認識部５４は、音声の認識結果に「電源ＯＮ」という単語が含まれる場合、電子黒板２の電源をＯＮするコマンド（主にバイナリデータ）を生成し、操作という処理方法を対応付けて電子黒板２に送信する。電源ＯＦＦの場合も同様である。

また、「日時（例えば9月30日15時）、登録」という単語はこのユーザの場合「スケジュールシステムへの予定の登録」であることを意味する。音声認識部５４は、音声の認識結果に「具体的な"日時"、登録」という単語が含まれる場合、認識結果としてスケジュールシステムへの登録要求（送信情報の一例）を生成し、「他の機器に送信」という処理方法を対応付けて電子黒板２に送信する。登録要求にはユーザが発声したスケジュールの内容及びユーザ情報が含まれる。

情報送信部５２は、図４に示したＣＰＵ２０１がプログラム２０９ｐを実行しネットワーク・ドライバ２０５を制御すること等により実現され、音声認識部５４が認識した認識結果を電子黒板２に送信する。なお、電子黒板２に送信することなく、クラウドサーバ５０が他の機器やサービスへ直接、認識結果を送信してもよい。この場合、辞書データには認識結果を直接、送信する旨と送信先が登録されている。例えば、「クラウドフォルダ、登録」などのように認識結果に特定の単語が含まれる場合、他の機器に認識結果を送信する。

<<音声認識部５４について>>
図６は音声認識部５４の音声認識に関する機能をブロック状に示す機能ブロック図の一例である。クラウドサーバ５０は、前処理部５４ａ、特徴抽出部５４ｂ、及び識別演算部５４ｃを有し、識別演算部５４ｃは更に音響モデル５４ｄと言語モデル５４ｅを使用する。これら各機能は、図４に示したＨＤＤ２０９からメモリ２０２に展開されたプログラム２０９ｐをＣＰＵ２０１が実行することにより実現されている。

前処理部５４ａは音声データに特徴抽出しやすくするための処理を施す。例えば、音声データを決まった段階に量子化する。また、前処理部５４ａは音声データを周波数スペクトルに変換して雑音に相当する周波数部分を除去するなどの処理を行う。特徴抽出部５４ｂは音声データからパターンの認識に役立つ情報を取り出す。音声データは連続データなので例えば２０ミリ秒などの所定時間ごとに音声データを区切って、この所定時間ごとに特徴を抽出する。音声データの場合、例えば、周波数スペクトルに変換してフォルマント又はＭＦＣＣ（Mel Frequency Cepstral Coefficient）を抽出する。フォルマントやＭＦＣＣの求め方は公知なので説明を省略する。これにより、音声データから数十次元の特徴ベクトルが得られる。

識別演算部５４ｃは音響モデル５４ｄと言語モデル５４ｅを使って、音声データをテキストデータに変換する。音響モデル５４ｄは音声の波形とその時の音声のテキストデータを紐付けたものである。音声の波形は一例としてトライフォンと呼ばれる３つの音素が組み合わされた組音素で表される。言語モデル５４ｅはテキストデータから作成された単語と単語のつながり方を確率で表現したデータである。たとえば、「特許を」に続いて「取る」「取得する」「放棄する」などの単語がそれぞれどのくらいの確率で出現するかというデータを有する。識別演算部５４ｃは入力された音声データの特徴ベクトルと音響データを比較しトライフォンを推定する。これを連続して行い言語モデル５４ｅを参照しながら最も出現確率が高い単語を推定していく。音声データが音響データとどのくらい類似しているか、及び、言語データの出現確率によっては単語が一意に定まらないため、入力された音声データの単語に対し複数の単語が推定される場合も多い。また、出現確率に基づいて信頼度が算出される。

なお、ここで説明した音声認識方法は一例に過ぎず、クラウドサーバ５０に特有の方法で音声認識されてよい。本実施形態のユーザの意図の推定はクラウドサーバ５０の音声認識方法に関係なく適用できる。

＜動作手順＞
図７は、音声認識システム１００の動作手順を示すシーケンス図の一例である。以下、ステップに沿って説明する。

S1：まず、ユーザは自分が携帯しているＩＣカード８を電子黒板２のカードリーダ１１７に近づける。カード情報読取部２１はＩＣカード８からカード情報を読み取る。

S2：カード情報読取部２１はカード情報をカード情報送信部２２に送出する。

S3：カード情報送信部２２はカード情報を認証装置４０に送信する。認証装置４０のカード情報受信部４１はカード情報を受信する。

S4：カード情報受信部４１はカード情報をユーザ情報取得部４２に送出する。

S5：ユーザ情報取得部４２は、カード情報に対応付けられたユーザ情報を認証ＤＢ４４から取得する。

S6：ユーザ情報取得部４２はユーザ情報をユーザ情報送信部４３に送出する。

S7：ユーザ情報送信部４３は、ユーザ情報を電子黒板２に送信する。電子黒板２のユーザ情報受信部２４はユーザ情報を受信する。

S8：認証ＤＢ４４にカード情報が登録されている場合、ユーザの認証が成立したことになる。ユーザ情報を取得すると電子黒板２は音声認識の準備ができた旨をディスプレイ３に表示したり音声出力したりするなどして、ユーザに発声を促す。これに対しユーザは発声する。なお、認証ＤＢ４４にカード情報が登録されていない場合、ユーザ情報受信部２４はエラーメッセージなどをディスプレイ３に表示する。

S9：音声取得部２３はユーザの音声データを取得すると、音声データを認証・音声送信部２６に送出する。

S10：また、ユーザ情報受信部２４が受信しておいたユーザ情報を認証・音声送信部２６に送出する。

S11：認証・音声送信部２６はユーザ情報と音声データをクラウドサーバ５０に送信する。クラウドサーバ５０の認証・音声受信部５１はユーザ情報と音声データを受信する。

S12：認証・音声受信部５１はユーザ情報を辞書取得部５３に送出する。

S13：辞書取得部５３は、ユーザ情報に対応付けられた辞書データを辞書ＤＢ４５から読み出して認証・音声受信部５１に送出する。

S14：認証・音声受信部５１は、音声データと辞書データを音声認識部５４に送出する。

S15：音声認識部５４はユーザの辞書データを使ってユーザの意図を判断し、認識結果を作成する。認識結果を情報送信部５２に送出する。

S16：情報送信部５２は認識結果を電子黒板２に送信する。電子黒板２の情報受信部２８は認識結果を受信する。

S17：情報受信部２８は認識結果に表示情報があればこれを情報表示部２５に送出する。情報受信部２８は認識結果に含まれる処理方法を参照して、認識結果を表示するか否かを判断する。

S18：処理方法が表示の場合、情報表示部２５は指示された表示情報をディスプレイ３に表示する。ユーザは発声した内容を視覚的に確認できる。

S19：また、情報受信部２８は処理方法を参照して、認識結果が操作であるか否かを判断する。操作である場合、機器操作部２７に送出する。

S20：機器操作部２７は、認識結果に基づいて電子黒板２又は他の装置を操作する。あるいは、他の装置に認識結果を送信する。

以上説明したように、本実施形態の音声認識システム１００では、ユーザに専用の辞書データを利用することでユーザの意図に沿った音声認識が可能になる。したがって、音声の認識精度が向上し、不特定のユーザが利用しても認識精度の低下を抑制できる。

＜その他の適用例＞
以上、本発明を実施するための最良の形態について実施例を用いて説明したが、本発明はこうした実施例に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。

例えば、図５の構成例は、電子黒板２、認証装置４０及びクラウドサーバ５０の処理の理解を容易にするために、主な機能に応じて分割したものである。処理単位の分割の仕方や名称によって本願発明が制限されることはない。また、電子黒板２、認証装置４０及びクラウドサーバ５０の処理は、処理内容に応じて更に多くの処理単位に分割することもできる。また、１つの処理単位が更に多くの処理を含むように分割することもできる。

なお、認証・音声送信部２６はユーザ情報送信手段の一例であり、認証・音声受信部５１はユーザ情報受信手段の一例であり、音声認識部５４は音声認識手段の一例であり、情報送信部５２は認識結果送信手段の一例である。クラウドサーバ５０は第一の情報処理装置の一例であり、電子黒板２は第二の情報処理装置の一例である。

２電子黒板
２３音声取得部
２４ユーザ情報受信部
２５情報表示部
２６音声送信部
２７機器操作部
４０認証装置
５０クラウドサーバ
５１音声受信部
５２情報送信部
５４音声認識部
１００音声認識システム

特許第5644266号公報

Claims

音声データに対し音声認識を行う第一の情報処理装置と、前記第一の情報処理装置に音声データを送信する第二の情報処理装置とを有する音声認識システムであって、
前記第二の情報処理装置は、
ユーザに関するユーザ情報を前記第一の情報処理装置に送信するユーザ情報送信手段を有し、
前記第一の情報処理装置は、
前記ユーザ情報を受信するユーザ情報受信手段と、
前記ユーザ情報に対応付けられた辞書データを使用して、前記第二の情報処理装置から送信された音声データに音声認識を施す音声認識手段と、
音声データの認識結果を前記第二の情報処理装置に送信する認識結果送信手段と、
を有する音声認識システム。
前記辞書データには、ユーザの発声内容に対するユーザの意図が登録されており、
前記音声認識手段は、前記ユーザの意図に沿って前記認識結果を作成する請求項１に記載の音声認識システム。
前記辞書データにはユーザの発声内容と変換後の単語が対応付けて登録されており、
前記音声認識手段は、ユーザの発声内容を前記変換後の単語に変換して前記認識結果を作成する請求項１又は２に記載の音声認識システム。
前記辞書データにはユーザの発声内容と変換後の単語が対応付けて登録されており、
前記音声認識手段は、ユーザの発声内容が検索することを含む場合、前記変換後の単語に基づく検索範囲を検索する検索要求を前記認識結果として作成する請求項１又は２に記載の音声認識システム。
前記辞書データにはユーザの発声内容に装置のコマンドが対応付けられており、
前記音声認識手段は、ユーザの発声内容を前記コマンドに変換した前記認識結果を作成する請求項１又は２に記載の音声認識システム。
前記辞書データにはユーザの発声内容に、前記第一の情報処理装置及び前記第二の情報処理装置でない装置に発声内容を送信する旨が対応付けられており、
前記音声認識手段は、ユーザの発声内容を前記装置に送信する送信情報に変換した前記認識結果を作成する請求項１又は２に記載の音声認識システム。
前記辞書データにはユーザの発声内容ごとに、前記第一の情報処理装置による前記認識結果の処理方法が対応付けられており、
前記認識結果送信手段は、前記認識結果と共に前記処理方法を前記第二の情報処理装置に送信し、
前記第二の情報処理装置は、
前記処理方法に基づいて前記認識結果を処理する請求項１〜６のいずれか１項に記載の音声認識システム。
前記処理方法は、ユーザの発声内容の表示、ユーザの発声内容に応じた操作、又は、ユーザの発声内容の他の装置への送信であり、
前記第二の情報処理装置は、前記処理方法を参照して、ユーザの発声内容を表示するか、ユーザの発声内容に応じた操作を行うか、又は、ユーザの発声内容を他の装置に送信する請求項７に記載の音声認識システム。
第二の情報処理装置から送信された音声データに認識処理を施す情報処理装置であって、
前記第二の情報処理装置のユーザに関するユーザ情報を受信するユーザ情報受信手段と、
前記ユーザ情報に対応付けられた辞書データを使用して、前記第二の情報処理装置から送信された音声データに音声認識を施す音声認識手段と、
音声データの認識結果を前記第二の情報処理装置に送信する認識結果送信手段と、
を有する情報処理装置。
第二の情報処理装置から送信された音声データに認識処理を施す情報処理装置を、
前記第二の情報処理装置のユーザに関するユーザ情報を受信するユーザ情報受信手段と、
前記ユーザ情報に対応付けられた辞書データを使用して、前記第二の情報処理装置から送信された音声データに音声認識を施す音声認識手段と、
音声データの認識結果を前記第二の情報処理装置に送信する認識結果送信手段、
として機能させるためのプログラム。