JP2018055022A - 音声認識システム、情報処理装置、プログラム - Google Patents

音声認識システム、情報処理装置、プログラム Download PDF

Info

Publication number
JP2018055022A
JP2018055022A JP2016193855A JP2016193855A JP2018055022A JP 2018055022 A JP2018055022 A JP 2018055022A JP 2016193855 A JP2016193855 A JP 2016193855A JP 2016193855 A JP2016193855 A JP 2016193855A JP 2018055022 A JP2018055022 A JP 2018055022A
Authority
JP
Japan
Prior art keywords
user
information
information processing
voice
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016193855A
Other languages
English (en)
Other versions
JP6922178B2 (ja
Inventor
香川 正明
Masaaki Kagawa
正明 香川
頼史 石山
Yorichika Ishiyama
頼史 石山
金原 弘幸
Hiroyuki Kanehara
弘幸 金原
貴弘 山本
Takahiro Yamamoto
貴弘 山本
鈴木 剛
Takeshi Suzuki
鈴木  剛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2016193855A priority Critical patent/JP6922178B2/ja
Publication of JP2018055022A publication Critical patent/JP2018055022A/ja
Application granted granted Critical
Publication of JP6922178B2 publication Critical patent/JP6922178B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

【課題】ユーザ等の違いによる音声の認識精度の低下を抑制できる情報処理装置を提供すること。【解決手段】本発明は、音声データに対し音声認識を行う第一の情報処理装置50と、前記第一の情報処理装置に音声データを送信する第二の情報処理装置2とを有する音声認識システム100であって、前記第二の情報処理装置は、ユーザに関するユーザ情報を前記第一の情報処理装置に送信するユーザ情報送信手段26を有し、前記第一の情報処理装置は、前記ユーザ情報を受信するユーザ情報受信手段51と、前記ユーザ情報に対応付けられた辞書データを使用して、前記第二の情報処理装置から送信された音声データに音声認識を施す音声認識手段54と、音声データの認識結果を前記第二の情報処理装置に送信する認識結果送信手段52と、を有する。【選択図】図1

Description

本発明は、音声認識システム、情報処理装置、及びプログラムに関する。
人が発声する音声をマイクから取得し、音声認識を行うことでテキストデータに変換する音声認識技術が知られている。音声認識技術が適用された装置やシステムは音声を集音することで、例えば会議の議事録を作成したり、電話の内容を記録したりすることができる。テキストデータに変換されていればキーワードなどで簡単に検索することもできるようになる。
ところで、会議などで電子黒板が利用されるようになっている。電子黒板には他の拠点の電子黒板と通信できるものがあり、一方の拠点の電子黒板が表示している情報を他の拠点の電子情報が表示でき、他拠点間で会議することができる(例えば、特許文献1参照。)。
音声認識技術をこの電子黒板に適用すれば、会議をしながら音声をテキストデータに変換できるようになり、発声内容を字幕のように表示したり議事録の作成に利用したりできるようになる。
しかしながら、従来の音声認識技術では、ユーザが不特定である場合に音声の認識精度が大きく低下する場合があるという問題があった。これは主にユーザによってよく使う単語が異なるためである。このため、従来の音声認識技術では、ユーザを予め限定しておく必要があるか、又は、不特定多数で利用する場合は一般的な用語(認識対象の単語が制限されている)しか認識できない場合があった。
本発明は、上記課題に鑑み、ユーザ等の違いによる音声の認識精度の低下を抑制できる情報処理装置を提供することを目的とする。
本発明は、音声データに対し音声認識を行う第一の情報処理装置と、前記第一の情報処理装置に音声データを送信する第二の情報処理装置とを有する音声認識システムであって、前記第二の情報処理装置は、ユーザに関するユーザ情報を前記第一の情報処理装置に送信するユーザ情報送信手段を有し、前記第一の情報処理装置は、前記ユーザ情報を受信するユーザ情報受信手段と、前記ユーザ情報に対応付けられた辞書データを使用して、前記第二の情報処理装置から送信された音声データに音声認識を施す音声認識手段と、音声データの認識結果を前記第二の情報処理装置に送信する認識結果送信手段と、を有する。
ユーザ等の違いによる音声の認識精度の低下を抑制できる情報処理装置を提供することができる。
本実施形態の音声認識システムの動作の概略を説明する図の一例である。 本実施形態の音声認識システムの概略構成図の一例である。 電子黒板のハードウェア構成図の一例である。 クラウドサーバの概略的なハードウェア構成図の一例である。 電子黒板、クラウドサーバ及び認証装置の機能をブロック状に示す機能ブロック図の一例である。 音声認識部の音声認識に関する機能をブロック状に示す機能ブロック図の一例である。 音声認識システムの動作手順を示すシーケンス図の一例である。
以下、本発明を実施する音声認識システムと音声認識システムが行う音声認識方法について、図面を参照しながら実施例を挙げて説明する。
<概略的な動作>
図1は、本実施形態の音声認識システム100の動作の概略を説明する図の一例である。電子黒板2は音声認識サービス11及び認証サービス12を利用することができる。また、電子黒板2はICカード8を読み取るカードリーダ117を有する。
(1)電子黒板2のユーザは自分の携帯するICカード8をカードリーダ117に近づける。
(2)電子黒板2はカードリーダ117から読み込んだカード情報(カードを特定する情報)を、認証サービス12に送信し、ユーザ情報(ユーザを特定する情報) を取得する。
(3)会議が開催されユーザが近くの参加者又は他の拠点の参加者と会話する。電子黒板2はユーザが発声した音声データを取得して、ユーザ情報と共に音声データを音声認識サービス11に送信する。
(4)音声認識サービス11は、ユーザ情報によりユーザごとに管理する辞書データを特定する。辞書データには、ユーザの発声内容(単語など)の意図が登録されている。
(5)音声認識サービス11はユーザの辞書データを利用して音声データを解析し、ユーザの意図に沿って作成した認識結果(テキストデータやバイナリデータ)を電子黒板2に送信する。
(6)電子黒板2は受信したテキストデータをディスプレイ3に表示したり、バイナリデータを自機の操作などに使用したりする。
このように、本実施形態の音声認識システム100では、不特定多数のユーザが1つの電子黒板を利用する場合でもユーザが特定されるので、特定したユーザに専用の辞書データを利用してユーザの意図に沿った音声認識が可能になる。音声の認識精度も向上するので、不特定のユーザが利用しても認識精度の低下を抑制できる。
<システム構成例>
図2は、本実施形態の音声認識システム100の概略構成図の一例である。音声認識システム100は、ネットワークNを介して通信する電子黒板2、クラウドサーバ50及び認証装置40を有する。
クラウドサーバ50は、音声をテキストデータに変換するサービスを行う情報処理装置の一例である。上記の音声認識サービス11を提供する。クラウドサーバ50はサーバ装置と呼ばれる場合がある。クラウドサーバ50はクラウドベースの人口知能を利用しているため(つまり、多くの人が使う単語を学習しているため)、専門的な単語や造語、又は、使用頻度が極めて少ない単語を認識できない、又は認識しにくい。そこで、ユーザごとの辞書データが有効になる。
また、クラウドサーバ50のクラウドとは、サーバがクラウドコンピューティングに対応していることを意図している。クラウドとは特定ハードウェア資源を意識しないでネットワーク上のリソースを利用する利用形態である。この場合、クラウドサーバ50は、1つの筐体に収納されていたり、又は、一台の装置として備えられていたりする必要はない。例えば、負荷に応じてハード的なリソースが動的に接続・切断されることで構成されてよい。また、一台の情報処理装置の中の仮想化環境に構築されていたり、複数台の情報処理装置に跨って構築されたりしてもよい。
また、本実施形態ではクラウドサーバ50はインターネット上に存在するものとして説明するが、ネットワークに接続されていればどこに存在してもよい。オンプレミスに存在してもよい。また、クラウドサーバ50はリソースの所在が明らかになっている通常のサーバであっても本実施形態に適用可能である。また、音声認識サービス11が電子黒板2の中に構築されていてもよい。
認証装置40はユーザを認証する装置であり、具体的には情報処理装置を実体とする。認証装置40は上記の認証サービス12を提供する。認証装置40はカード情報とユーザ情報を対応付けて保持しており、カード情報が送信されるとユーザ情報を返す。認証装置40はネットワークに接続されていればどこに存在してもよく、クラウド上に存在してもオンプレミスに存在してもよい。また、認証サービス12が電子黒板2の中に構築されていてもよい。また、音声認識サービス11と認証サービス12を同じ装置が提供してもよい。
電子黒板2は、文字や図、イラストなど、ユーザがディスプレイ3に書き込んだ内容を電子変換してディスプレイ3に表示する装置である。ユーザは電子ペン又は手指をディスプレイ3上で移動させ、電子黒板2は電子ペン又は手指の接触位置を座標に変換し、座標を連結することでディスプレイ3に文字等を表示する。なお、電子黒板2は、他の拠点の電子黒板2と通信してユーザの手書き内容等を共有できる。
電子黒板2は内部に情報処理装置としての機能を有する。音声認識を行うためには電子黒板2はマイク118を備えた情報処理装置であればよく、電子黒板2は、PC(Personal Computer)、テレビ会議端末、MFP(Multi-Function Peripheral)、プロジェクタ、デジタルサイネージなどでもよい。また、スマートフォン、タブレット端末、ゲーム機、PDA(Personal Digital Assistant)、デジタルカメラ、携帯電話、ウェアラブルPC(Personal Computer)などでもよい。
ネットワークNは、電子黒板2が設置されている施設などに構築されているLAN、LANをインターネットに接続するプロバイダのプロバイダネットワーク、及び、回線事業者が提供する回線等により構築されている。ネットワークNが複数のLANを有する場合、ネットワークNはWANやインターネットと呼ばれる。ネットワークNは有線又は無線のどちらで構築されてもよく、また、有線と無線が組み合わされていてもよい。また、電子黒板2が3G、LTE、4Gなどで直接、公衆回線網に接続する場合は、LANを介さずにプロバイダネットワークに接続することができる。
上記のように、ユーザが発声した音声データが電子黒板2からネットワーク経由でクラウドサーバ50に送信される。この時の音声データの形式は問わない。ストリームデータ(データの生成と送信がリアルタイムに行われるデータ)でもよいし、ストリームではないファイルなどの固まりのデータでもよい。
また、クラウドサーバ50は音声データに音声認識処理を行って認識結果を作成する際、単語ごとに認識の信頼度を算出する。認識の信頼度は、認識結果をどれだけ「信頼」してよいかを表す尺度である(1に近いほど信頼度が高い)。また、変換候補が複数ある場合は、1つの単語に複数の候補とそれぞれの信頼度が作成される。
<ハードウェア構成>
<<電子黒板のハードウェア構成図例>>
図3は、電子黒板2のハードウェア構成図の一例である。図3に示されているように、電子黒板2は、電子黒板2全体の動作を制御するCPU101、IPL等のCPUの駆動に用いられるプログラムを記憶したROM102、CPU101のワークエリアとして使用されるRAM103、ネットワークNとの通信を制御するネットワークコントローラ105、及び、USBメモリ5との通信を制御する外部記憶コントローラ106を備えている。
また、電子黒板2は、PC6がPC6のディスプレイに表示している静止画又は動画を取り込む外部ビデオインタフェース111を有する。また、グラフィクス(ディスプレイ3に表示する画面の画像処理)を専門に扱うGPU112、及び、GPU112からの映像又はテレビ会議端末7からの映像をディスプレイ3へ出力するために画面表示の制御及び管理を行うディスプレイコントローラ113を備えている。
更に、電子黒板2は、タッチパネルの処理を制御するセンサコントローラ114、ディスプレイ3に電子ペン又は手指が接触したことを検知するタッチパネル115を備えている。また、電子黒板2は、電子ペンコントローラ116を備えている。電子ペンコントローラ116は、電子ペン9と通信することで、ディスプレイ3への電子ペン9のペン先のタッチやペン尻のタッチの有無を判断する。なお、電子ペンコントローラ116が、ペン先及びペン尻だけでなく、電子ペン9のユーザが握る部分や、その他の電子ペン9の部分のタッチの有無や圧力を判断するようにしてもよい。
更に、電子黒板2は、ICカード8を非接触又は接触させて読み取るカードリーダ117を備える。カードリーダ117は、NFC(Near Field Communication)に準拠しておりNFCの下位規格であるFeliCa(登録商標)やMifare等に準拠したICカード8を読み取ることができる。
更に、電子黒板2は、ユーザの音声を集音しA/D変換してデジタルの音声データを取得するマイク118を有している。
なお、カードリーダ117とマイク118は、電子黒板2が内蔵していてもよいし、USBケーブルやBluetooth(登録商標)などで外付けされていてもよい。
更に、電子黒板2は、CPU101、ROM102、RAM103、ネットワークコントローラ105、外部記憶コントローラ106、外部ビデオインタフェース111、GPU112、センサコントローラ114、電子ペンコントローラ116、マイク118、及びカードリーダ117を図2に示されているように電気的に接続するためのアドレスバスやデータバス等のバスライン120を備えている。
<<クラウドサーバのハードウェア構成例>>
図4は、クラウドサーバ50の概略的なハードウェア構成図の一例である。クラウドサーバ50は、CPU201と、CPU201が使用するデータの高速アクセスを可能とするメモリ202とを備える。CPU201及びメモリ202は、システム・バス203を介して、クラウドサーバ50の他のデバイス又はドライバ、例えば、グラフィクス・ドライバ204及びネットワーク・ドライバ(NIC)205へと接続されている。
グラフィクス・ドライバ204は、バスを介してLCD(ディスプレイ装置)206に接続されて、CPU201による処理結果をモニタする。また、ネットワーク・ドライバ205は、トランスポート層レベル及び物理層レベルでクラウドサーバ50をネットワークNへと接続して、電子黒板2とのセッションを確立させている。
システム・バス203には、更にI/Oバス・ブリッジ207が接続されている。I/Oバス・ブリッジ207の下流側には、PCIなどのI/Oバス208を介して、IDE、ATA、ATAPI、シリアルATA、SCSI、USBなどにより、HDD(ハードディスクドライブ)209などの記憶装置が接続されている。HDD209はクラウドサーバ50の全体を制御するプログラム209pを記憶している。HDD209はSSD(Solid State Drive)でもよい。
また、I/Oバス208には、USBなどのバスを介して、キーボード及びマウス(ポインティング・デバイスと呼ばれる)などの入力装置210が接続され、システム管理者などのオペレータによる入力及び指令を受け付けている。
なお、図示したクラウドサーバ50のハードウェア構成は、1つの筐体に収納されていたりひとまとまりの装置として備えられていたりする必要はなく、クラウドサーバ50が備えていることが好ましいハード的な要素を示す。また、クラウドコンピューティングに対応するため、本実施例のクラウドサーバ50の物理的な構成は固定的でなくてもよく、負荷に応じてハード的なリソースが動的に接続・切断されることで構成されてよい。
なお、認証装置40のハードウェア構成図は、クラウドサーバ50と同様であるか、又は、異なるとしても本実施形態の音声認識システム100の説明の上で支障はないものとする。
<機能について>
図5は、電子黒板2、クラウドサーバ50及び認証装置40の機能を示すブロック状に示す機能ブロック図の一例である。
<<電子黒板2>>
電子黒板2は、カード情報読取部21、カード情報送信部22、音声取得部23、ユーザ情報受信部24、情報表示部25、認証・音声送信部26、機器操作部27、及び、情報受信部28の各機能を有する。
カード情報読取部21は、CPU101がRAM103に記憶されたプログラムを実行しカードリーダ117を制御すること等により実現され、ユーザが携帯するICカード8からカード情報を取得する。カード情報は、ICカード8に記憶されているICカード8を特定するための情報である。すなわち、カード情報はICカード8の識別子や識別情報である。識別子又は識別情報は複数の対象から、ある特定の対象を一意的に区別するために用いられる名称、符号、文字列、数値又はこれらのうち1つ以上の組み合わせをいう。具体的にはカードリーダ117の種類などに関係なくICカード8から読取可能なIDm(FeliCaの場合)やUID(Mifareの場合)を使用してもよいし、暗号化領域の情報を利用してもよい。
なお、カードリーダ117でカード情報を読み取る他、ユーザがキーボードからユーザを特定する情報を入力してもよいし、生体認証に用いられる情報(顔、指紋、虹彩、掌紋、静脈紋など)を入力してもよい。
カード情報送信部22は、CPU101がRAM103に記憶されたプログラムを実行しネットワークコントローラ105を制御すること等により実現され、読み取ったカード情報を認証装置40に送信する。
ユーザ情報受信部24は、CPU101がRAM103に記憶されたプログラムを実行しネットワークコントローラ105を制御すること等により実現され、認証装置40からユーザ情報を取得する。ユーザ情報はユーザを特定するための情報であり、例えば、ユーザID、ユーザ名、メールアドレス、生体情報又は電話番号などである。これらに限られずユーザを特定できる情報であればよい。
音声取得部23は、CPU101がRAM103に記憶されたプログラムを実行しマイク118を制御すること等により実現され、マイク118がA/D変換したユーザの音声データを取得する。
認証・音声送信部26は、CPU101がRAM103に記憶されたプログラムを実行しネットワークコントローラ105を制御すること等により実現され、ユーザ情報と音声データをクラウドサーバ50に送信する。ユーザ情報と音声データは同時に送信される必要はなく、別々に送信されてよい。この場合、クラウドサーバ50は、一度、ユーザ情報を受信すると次にユーザ情報を受信するまで、最後に受信したユーザ情報に対応付けられた音声データであると判断する。
情報受信部28は、CPU101がRAM103に記憶されたプログラムを実行しネットワークコントローラ105を制御すること等により実現され、クラウドサーバ50から認識結果を受信する。認識結果は、テキストデータ又はバイナリデータのどちらでもよい。認識結果はディスプレイ3への表示、電子黒板2の操作、又は他の装置への送信などに使用される。
情報表示部25は、情報受信部28が受信した認識結果をディスプレイ3に表示する。電子黒板2以外の任意の装置に表示してもよい。
機器操作部27は、CPU101がRAM103に記憶されたプログラムを実行し機器操作の内容に応じたハードウェアを制御すること等により実現され、電子黒板2を認識結果に応じて制御する。例えば、認識結果であるテキストデータをディスプレイ3に表示したり、電子黒板2を制御したりする。電子黒板2の制御としては、例えば電子黒板2の電源のON(カードリーダ117、音声データの送信及び認識結果の受信に必要な電源は供給されている状態でメインの電源をONにする)、電源のOFF、手書きされたストロークデータの削除などを行う。あるいは、検索エンジンにテキストデータを送信し、検索結果をディスプレイ3に表示する。あるいは、クラウドサーバ50からの認識結果を電子黒板2などが音声合成し音声として出力してもよい。あるいは、スケジュールシステムに認識結果を送信し、ユーザの予定を登録する。
<<認証装置40>>
まず、認証装置40は認証DB44(データベース)を有している。認証DB44は、図4に示したHDD209やメモリ202に構築され、予めカード情報とユーザ情報の組が記憶されている。表1に認証DB44に記憶されているカード情報とユーザ情報を示す。
Figure 2018055022
表1は認証DB44に記憶されている情報をテーブル状に示す。カード情報とユーザ情報が対応付けられているため、認証装置40がカード情報を取得するとユーザ情報を特定できる。
続いて、認証装置40の機能について説明する。認証装置40は、カード情報受信部41、ユーザ情報取得部42及びユーザ情報送信部43を有する。
カード情報受信部41は、図4に示したCPU201がプログラム209pを実行しネットワーク・ドライバ205を制御すること等により実現され、電子黒板2からカード情報を受信する。カード情報はユーザ情報取得部42に送出される。
ユーザ情報取得部42は、図4に示したCPU201がプログラム209pを実行すること等により実現され、カード情報に対応付けられているユーザ情報を認証DB44から取得する。送信されたカード情報が認証DB44に含まれていない場合、ユーザ情報取得部42はユーザ情報送信部43を介してエラーを電子黒板2に返す。更に、ユーザ情報の送信を電子黒板2に要求して、ユーザがカード情報とユーザ情報の登録を行えるようにしてもよい。
ユーザ情報送信部43は、図4に示したCPU201がプログラム209pを実行しネットワーク・ドライバ205を制御すること等により実現され、ユーザ情報を電子黒板2に送信する。
<<クラウドサーバ50>>
まず、クラウドサーバ50は辞書DB45を有している。辞書DB45は、図4に示したHDD209やメモリ202に構築され、予めユーザごとに辞書データが記憶されている。表2に辞書DB45に記憶されているユーザごとの辞書データを示す。
Figure 2018055022
表2(a)は辞書DB45に記憶されている情報をテーブル状に示す。ユーザ情報と辞書データが対応付けられているため、クラウドサーバ50がユーザ情報を取得すると辞書データを特定できる。辞書データの具体例を表2(b)に示す。辞書データには、ユーザの発声内容がどのような意図であるか、より具体的には発声内容を何に変換するかがユーザごとに登録されている。
なお、辞書DB45にはユーザごとに辞書データが登録される他、ユーザが属する組織、グループ、又はプロジェクトなど、ユーザが属するグループ別に辞書データが登録されていてもよい。この場合、ユーザは発声の際に自分の属性をクラウドサーバ50に通知し、クラウドサーバ50は属性に応じて辞書データを切り替える。同じ属性のユーザは似たような単語を発する場合が多く、その単語に込められた意図も同じ場合が多いためである。
表2(b)は辞書データの一例を示す。辞書データには発声内容、ユーザ意図及び処理方法が対応付けられている。例えば、「ネット」という発声内容には「インターネット」というユーザ意図が対応付けられている。このように、ユーザの発声内容がユーザの意図に変換されるため、ユーザに固有の音声認識が可能になる。また、処理方法は、電子黒板2が発声内容をどのように処理するかを意味する。例えば、「表示」はユーザの発声内容を電子黒板2が表示することを意味する。「操作」はユーザの発声内容を用いて電子黒板2が自機(又は他機)を操作することを意味する。「他の装置に送信」はユーザの発声内容に基づく認識結果(表示用のテキストデータでも他機を操作するコマンドでもよい)を他の装置に送信することをいう。
また、辞書データにはユーザが属する組織、グループ、又はプロジェクトなどに対し、符丁と適切な単語が対応付けて登録されていることが好ましい。符丁とは隠語やジャーゴン等と呼ばれ、仲間内だけで通じる言葉、言い回し又は専門用語のことである。例えば、「3G」が「開発第三グループ」を意味するような場合に有効である。辞書データにより、音声データに符丁が含まれていても音声認識部54は正しい認識結果を取得できる。
続いて、クラウドサーバ50の機能について説明する。クラウドサーバ50は、認証・音声受信部51、情報送信部52、辞書取得部53、及び音声認識部54を有する。
認証・音声受信部51は、図4に示したCPU201がプログラム209pを実行しネットワーク・ドライバ205を制御すること等により実現され、電子黒板2からユーザ情報及び音声データを受信する。
辞書取得部53は、図4に示したCPU201がプログラム209pを実行すること等により実現され、ユーザ情報に対応付けられた辞書データを辞書DB45から取得する。ユーザの属性ごとに辞書データが登録されている場合、ユーザは属性をクラウドサーバ50に通知することにし、辞書取得部53はユーザの属性に対応付けられた辞書データを取得する。
音声認識部54は、図4に示したCPU201がプログラム209pを実行すること等により実現され、音声データを解析し辞書データを参照して認識結果を作成する。辞書データがユーザごとに用意されているので、ユーザの発声をユーザの意図を汲んで解析できる。表2(b)を参照して説明する。例えば、「ネット」 という単語はこのユーザの場合「インターネット」 を意味する。すなわち、「ネット」 という単語に対し変換後の単語として「インターネット」 が登録されている。音声認識部54は、音声の認識結果に「ネット」という単語が含まれる場合、「インターネット」という言葉に変換する。クラウドサーバ50は「インターネット」という認識結果を「表示」という処理方法に対応付けて送信する。
また、「イントラ、検索」 という単語はこのユーザの場合「社内LAN及びVPN」を検索範囲にして検索することを意味する。すなわち、「イントラ」 という単語に対し変換後の単語として「社内LAN及びVPN」 が登録されている。音声認識部54は、音声の認識結果に「イントラ、検索」という単語が含まれる場合、社内の検索サーバのIPアドレスを宛先としキーワードを含む検索要求に操作という処理方法を対応付けて電子黒板2に送信する。例えば、検索要求は「http://192.168.1.100/#q=キーワード」であり、これに操作という処理方法が対応付けられる。社内の検索サーバにはVPNのキャッシュも登録されていると思われるが、必要であれば、IPsec等を利用してVPNの検索サーバのIPアドレスを宛先とする検索要求を電子黒板2に送信する。なお、検索のキーワードは「イントラ、検索」の前又は後にユーザが発声した単語が使用される。
また、「電源ON」 という単語はこのユーザの場合「電子黒板を電源ONするコマンドを生成」することを意味する。音声認識部54は、音声の認識結果に「電源ON」という単語が含まれる場合、電子黒板2の電源をONするコマンド(主にバイナリデータ)を生成し、操作という処理方法を対応付けて電子黒板2に送信する。電源OFFの場合も同様である。
また、「日時(例えば9月30日15時)、登録」 という単語はこのユーザの場合「スケジュールシステムへの予定の登録」であることを意味する。音声認識部54は、音声の認識結果に「具体的な"日時"、登録」という単語が含まれる場合、認識結果としてスケジュールシステムへの登録要求(送信情報の一例)を生成し、「他の機器に送信」という処理方法を対応付けて電子黒板2に送信する。登録要求にはユーザが発声したスケジュールの内容及びユーザ情報が含まれる。
情報送信部52は、図4に示したCPU201がプログラム209pを実行しネットワーク・ドライバ205を制御すること等により実現され、音声認識部54が認識した認識結果を電子黒板2に送信する。なお、電子黒板2に送信することなく、クラウドサーバ50が他の機器やサービスへ直接、認識結果を送信してもよい。この場合、辞書データには認識結果を直接、送信する旨と送信先が登録されている。例えば、「クラウドフォルダ、登録」などのように認識結果に特定の単語が含まれる場合、他の機器に認識結果を送信する。
<<音声認識部54について>>
図6は音声認識部54の音声認識に関する機能をブロック状に示す機能ブロック図の一例である。クラウドサーバ50は、前処理部54a、特徴抽出部54b、及び識別演算部54cを有し、識別演算部54cは更に音響モデル54dと言語モデル54eを使用する。これら各機能は、図4に示したHDD209からメモリ202に展開されたプログラム209pをCPU201が実行することにより実現されている。
前処理部54aは音声データに特徴抽出しやすくするための処理を施す。例えば、音声データを決まった段階に量子化する。また、前処理部54aは音声データを周波数スペクトルに変換して雑音に相当する周波数部分を除去するなどの処理を行う。特徴抽出部54bは音声データからパターンの認識に役立つ情報を取り出す。音声データは連続データなので例えば20ミリ秒などの所定時間ごとに音声データを区切って、この所定時間ごとに特徴を抽出する。音声データの場合、例えば、周波数スペクトルに変換してフォルマント又はMFCC(Mel Frequency Cepstral Coefficient)を抽出する。フォルマントやMFCCの求め方は公知なので説明を省略する。これにより、音声データから数十次元の特徴ベクトルが得られる。
識別演算部54cは音響モデル54dと言語モデル54eを使って、音声データをテキストデータに変換する。音響モデル54dは音声の波形とその時の音声のテキストデータを紐付けたものである。音声の波形は一例としてトライフォンと呼ばれる3つの音素が組み合わされた組音素で表される。言語モデル54eはテキストデータから作成された単語と単語のつながり方を確率で表現したデータである。たとえば、「特許を」に続いて「取る」「取得する」「放棄する」などの単語がそれぞれどのくらいの確率で出現するかというデータを有する。識別演算部54cは入力された音声データの特徴ベクトルと音響データを比較しトライフォンを推定する。これを連続して行い言語モデル54eを参照しながら最も出現確率が高い単語を推定していく。音声データが音響データとどのくらい類似しているか、及び、言語データの出現確率によっては単語が一意に定まらないため、入力された音声データの単語に対し複数の単語が推定される場合も多い。また、出現確率に基づいて信頼度が算出される。
なお、ここで説明した音声認識方法は一例に過ぎず、クラウドサーバ50に特有の方法で音声認識されてよい。本実施形態のユーザの意図の推定はクラウドサーバ50の音声認識方法に関係なく適用できる。
<動作手順>
図7は、音声認識システム100の動作手順を示すシーケンス図の一例である。以下、ステップに沿って説明する。
S1:まず、ユーザは自分が携帯しているICカード8を電子黒板2のカードリーダ117に近づける。カード情報読取部21はICカード8からカード情報を読み取る。
S2:カード情報読取部21はカード情報をカード情報送信部22に送出する。
S3:カード情報送信部22はカード情報を認証装置40に送信する。認証装置40のカード情報受信部41はカード情報を受信する。
S4:カード情報受信部41はカード情報をユーザ情報取得部42に送出する。
S5:ユーザ情報取得部42は、カード情報に対応付けられたユーザ情報を認証DB44から取得する。
S6:ユーザ情報取得部42はユーザ情報をユーザ情報送信部43に送出する。
S7:ユーザ情報送信部43は、ユーザ情報を電子黒板2に送信する。電子黒板2のユーザ情報受信部24はユーザ情報を受信する。
S8:認証DB44にカード情報が登録されている場合、ユーザの認証が成立したことになる。ユーザ情報を取得すると電子黒板2は音声認識の準備ができた旨をディスプレイ3に表示したり音声出力したりするなどして、ユーザに発声を促す。これに対しユーザは発声する。なお、認証DB44にカード情報が登録されていない場合、ユーザ情報受信部24はエラーメッセージなどをディスプレイ3に表示する。
S9:音声取得部23はユーザの音声データを取得すると、音声データを認証・音声送信部26に送出する。
S10:また、ユーザ情報受信部24が受信しておいたユーザ情報を認証・音声送信部26に送出する。
S11:認証・音声送信部26はユーザ情報と音声データをクラウドサーバ50に送信する。クラウドサーバ50の認証・音声受信部51はユーザ情報と音声データを受信する。
S12:認証・音声受信部51はユーザ情報を辞書取得部53に送出する。
S13:辞書取得部53は、ユーザ情報に対応付けられた辞書データを辞書DB45から読み出して認証・音声受信部51に送出する。
S14:認証・音声受信部51は、音声データと辞書データを音声認識部54に送出する。
S15:音声認識部54はユーザの辞書データを使ってユーザの意図を判断し、認識結果を作成する。認識結果を情報送信部52に送出する。
S16:情報送信部52は認識結果を電子黒板2に送信する。電子黒板2の情報受信部28は認識結果を受信する。
S17:情報受信部28は認識結果に表示情報があればこれを情報表示部25に送出する。情報受信部28は認識結果に含まれる処理方法を参照して、認識結果を表示するか否かを判断する。
S18:処理方法が表示の場合、情報表示部25は指示された表示情報をディスプレイ3に表示する。ユーザは発声した内容を視覚的に確認できる。
S19:また、情報受信部28は処理方法を参照して、認識結果が操作であるか否かを判断する。操作である場合、機器操作部27に送出する。
S20:機器操作部27は、認識結果に基づいて電子黒板2又は他の装置を操作する。あるいは、他の装置に認識結果を送信する。
以上説明したように、本実施形態の音声認識システム100では、ユーザに専用の辞書データを利用することでユーザの意図に沿った音声認識が可能になる。したがって、音声の認識精度が向上し、不特定のユーザが利用しても認識精度の低下を抑制できる。
<その他の適用例>
以上、本発明を実施するための最良の形態について実施例を用いて説明したが、本発明はこうした実施例に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。
例えば、図5の構成例は、電子黒板2、認証装置40及びクラウドサーバ50の処理の理解を容易にするために、主な機能に応じて分割したものである。処理単位の分割の仕方や名称によって本願発明が制限されることはない。また、電子黒板2、認証装置40及びクラウドサーバ50の処理は、処理内容に応じて更に多くの処理単位に分割することもできる。また、1つの処理単位が更に多くの処理を含むように分割することもできる。
なお、認証・音声送信部26はユーザ情報送信手段の一例であり、認証・音声受信部51はユーザ情報受信手段の一例であり、音声認識部54は音声認識手段の一例であり、情報送信部52は認識結果送信手段の一例である。クラウドサーバ50は第一の情報処理装置の一例であり、電子黒板2は第二の情報処理装置の一例である。
2 電子黒板
23 音声取得部
24 ユーザ情報受信部
25 情報表示部
26 音声送信部
27 機器操作部
40 認証装置
50 クラウドサーバ
51 音声受信部
52 情報送信部
54 音声認識部
100 音声認識システム
特許第5644266号公報

Claims (10)

  1. 音声データに対し音声認識を行う第一の情報処理装置と、前記第一の情報処理装置に音声データを送信する第二の情報処理装置とを有する音声認識システムであって、
    前記第二の情報処理装置は、
    ユーザに関するユーザ情報を前記第一の情報処理装置に送信するユーザ情報送信手段を有し、
    前記第一の情報処理装置は、
    前記ユーザ情報を受信するユーザ情報受信手段と、
    前記ユーザ情報に対応付けられた辞書データを使用して、前記第二の情報処理装置から送信された音声データに音声認識を施す音声認識手段と、
    音声データの認識結果を前記第二の情報処理装置に送信する認識結果送信手段と、
    を有する音声認識システム。
  2. 前記辞書データには、ユーザの発声内容に対するユーザの意図が登録されており、
    前記音声認識手段は、前記ユーザの意図に沿って前記認識結果を作成する請求項1に記載の音声認識システム。
  3. 前記辞書データにはユーザの発声内容と変換後の単語が対応付けて登録されており、
    前記音声認識手段は、ユーザの発声内容を前記変換後の単語に変換して前記認識結果を作成する請求項1又は2に記載の音声認識システム。
  4. 前記辞書データにはユーザの発声内容と変換後の単語が対応付けて登録されており、
    前記音声認識手段は、ユーザの発声内容が検索することを含む場合、前記変換後の単語に基づく検索範囲を検索する検索要求を前記認識結果として作成する請求項1又は2に記載の音声認識システム。
  5. 前記辞書データにはユーザの発声内容に装置のコマンドが対応付けられており、
    前記音声認識手段は、ユーザの発声内容を前記コマンドに変換した前記認識結果を作成する請求項1又は2に記載の音声認識システム。
  6. 前記辞書データにはユーザの発声内容に、前記第一の情報処理装置及び前記第二の情報処理装置でない装置に発声内容を送信する旨が対応付けられており、
    前記音声認識手段は、ユーザの発声内容を前記装置に送信する送信情報に変換した前記認識結果を作成する請求項1又は2に記載の音声認識システム。
  7. 前記辞書データにはユーザの発声内容ごとに、前記第一の情報処理装置による前記認識結果の処理方法が対応付けられており、
    前記認識結果送信手段は、前記認識結果と共に前記処理方法を前記第二の情報処理装置に送信し、
    前記第二の情報処理装置は、
    前記処理方法に基づいて前記認識結果を処理する請求項1〜6のいずれか1項に記載の音声認識システム。
  8. 前記処理方法は、ユーザの発声内容の表示、ユーザの発声内容に応じた操作、又は、ユーザの発声内容の他の装置への送信であり、
    前記第二の情報処理装置は、前記処理方法を参照して、ユーザの発声内容を表示するか、ユーザの発声内容に応じた操作を行うか、又は、ユーザの発声内容を他の装置に送信する請求項7に記載の音声認識システム。
  9. 第二の情報処理装置から送信された音声データに認識処理を施す情報処理装置であって、
    前記第二の情報処理装置のユーザに関するユーザ情報を受信するユーザ情報受信手段と、
    前記ユーザ情報に対応付けられた辞書データを使用して、前記第二の情報処理装置から送信された音声データに音声認識を施す音声認識手段と、
    音声データの認識結果を前記第二の情報処理装置に送信する認識結果送信手段と、
    を有する情報処理装置。
  10. 第二の情報処理装置から送信された音声データに認識処理を施す情報処理装置を、
    前記第二の情報処理装置のユーザに関するユーザ情報を受信するユーザ情報受信手段と、
    前記ユーザ情報に対応付けられた辞書データを使用して、前記第二の情報処理装置から送信された音声データに音声認識を施す音声認識手段と、
    音声データの認識結果を前記第二の情報処理装置に送信する認識結果送信手段、
    として機能させるためのプログラム。
JP2016193855A 2016-09-30 2016-09-30 音声認識システム、情報処理装置、プログラム Active JP6922178B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016193855A JP6922178B2 (ja) 2016-09-30 2016-09-30 音声認識システム、情報処理装置、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016193855A JP6922178B2 (ja) 2016-09-30 2016-09-30 音声認識システム、情報処理装置、プログラム

Publications (2)

Publication Number Publication Date
JP2018055022A true JP2018055022A (ja) 2018-04-05
JP6922178B2 JP6922178B2 (ja) 2021-08-18

Family

ID=61835810

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016193855A Active JP6922178B2 (ja) 2016-09-30 2016-09-30 音声認識システム、情報処理装置、プログラム

Country Status (1)

Country Link
JP (1) JP6922178B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108735211A (zh) * 2018-05-16 2018-11-02 智车优行科技(北京)有限公司 语音处理方法、装置、车辆、电子设备、程序及介质
JP2020077020A (ja) * 2018-11-05 2020-05-21 コニカミノルタ株式会社 画像形成装置及び画像形成システム
JP7468003B2 (ja) 2020-03-10 2024-04-16 株式会社リコー 音声処理装置、音声処理システム、音声処理方法およびプログラム

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000331002A (ja) * 1999-05-14 2000-11-30 Sony Corp 検索装置、検索方法、検索制御プログラムを記録した記録媒体
JP2002101203A (ja) * 2000-09-20 2002-04-05 Ricoh Co Ltd 音声処理システム、音声処理方法およびその方法を記憶した記憶媒体
JP2003005781A (ja) * 2001-06-20 2003-01-08 Denso Corp 音声認識機能付き制御装置及びプログラム
JP2003177782A (ja) * 2001-12-10 2003-06-27 Ricoh Co Ltd 音声認識装置、プログラムおよび記録媒体
JP2005227510A (ja) * 2004-02-12 2005-08-25 Ntt Docomo Inc 音声認識装置及び音声認識方法
JP2009047865A (ja) * 2007-08-17 2009-03-05 Mobi Techno:Kk 音声認識を用いた情報提供システム
JP2009075582A (ja) * 2007-08-29 2009-04-09 Advanced Media Inc 端末装置、言語モデル作成装置、および分散型音声認識システム
KR20090131716A (ko) * 2008-06-19 2009-12-30 권오중 인터넷을 이용한 수준별 다자간 그룹 외국어 회화 학습방법 및 그 시스템
JP2013088535A (ja) * 2011-10-14 2013-05-13 Vri Inc 音声制御システム及びプログラム
JP2014170185A (ja) * 2013-03-05 2014-09-18 Nec Corp 発話コマンド認識システム
JP2015081971A (ja) * 2013-10-22 2015-04-27 株式会社Nttドコモ 機能実行指示システム及び機能実行指示方法
JP2016153225A (ja) * 2015-02-16 2016-08-25 株式会社リコー 情報処理装置、制御方法、及びプログラム

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000331002A (ja) * 1999-05-14 2000-11-30 Sony Corp 検索装置、検索方法、検索制御プログラムを記録した記録媒体
JP2002101203A (ja) * 2000-09-20 2002-04-05 Ricoh Co Ltd 音声処理システム、音声処理方法およびその方法を記憶した記憶媒体
JP2003005781A (ja) * 2001-06-20 2003-01-08 Denso Corp 音声認識機能付き制御装置及びプログラム
JP2003177782A (ja) * 2001-12-10 2003-06-27 Ricoh Co Ltd 音声認識装置、プログラムおよび記録媒体
JP2005227510A (ja) * 2004-02-12 2005-08-25 Ntt Docomo Inc 音声認識装置及び音声認識方法
JP2009047865A (ja) * 2007-08-17 2009-03-05 Mobi Techno:Kk 音声認識を用いた情報提供システム
JP2009075582A (ja) * 2007-08-29 2009-04-09 Advanced Media Inc 端末装置、言語モデル作成装置、および分散型音声認識システム
KR20090131716A (ko) * 2008-06-19 2009-12-30 권오중 인터넷을 이용한 수준별 다자간 그룹 외국어 회화 학습방법 및 그 시스템
JP2013088535A (ja) * 2011-10-14 2013-05-13 Vri Inc 音声制御システム及びプログラム
JP2014170185A (ja) * 2013-03-05 2014-09-18 Nec Corp 発話コマンド認識システム
JP2015081971A (ja) * 2013-10-22 2015-04-27 株式会社Nttドコモ 機能実行指示システム及び機能実行指示方法
JP2016153225A (ja) * 2015-02-16 2016-08-25 株式会社リコー 情報処理装置、制御方法、及びプログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108735211A (zh) * 2018-05-16 2018-11-02 智车优行科技(北京)有限公司 语音处理方法、装置、车辆、电子设备、程序及介质
JP2020077020A (ja) * 2018-11-05 2020-05-21 コニカミノルタ株式会社 画像形成装置及び画像形成システム
JP7107174B2 (ja) 2018-11-05 2022-07-27 コニカミノルタ株式会社 画像形成装置及び画像形成システム
JP7468003B2 (ja) 2020-03-10 2024-04-16 株式会社リコー 音声処理装置、音声処理システム、音声処理方法およびプログラム

Also Published As

Publication number Publication date
JP6922178B2 (ja) 2021-08-18

Similar Documents

Publication Publication Date Title
RU2349969C2 (ru) Синхронное понимание семантических объектов, реализованное с помощью тэгов речевого приложения
US8903726B2 (en) Voice entry of sensitive information
US20160372110A1 (en) Adapting voice input processing based on voice input characteristics
US10741172B2 (en) Conference system, conference system control method, and program
JP2018045001A (ja) 音声認識システム、情報処理装置、プログラム、音声認識方法
WO2020238045A1 (zh) 智能语音识别方法、装置及计算机可读存储介质
JP2018040906A (ja) 辞書更新装置およびプログラム
JPWO2018055983A1 (ja) 翻訳装置、翻訳システム、および評価サーバ
CN114787814A (zh) 指代解析
JP6922178B2 (ja) 音声認識システム、情報処理装置、プログラム
KR20150041592A (ko) 피호출자의 전자 디바이스에서 연락처 정보를 업데이트하는 방법 및 전자 디바이스
CN111063355A (zh) 会议记录的生成方法及记录终端
US11900931B2 (en) Information processing apparatus and information processing method
CN109686359B (zh) 语音输出方法、终端及计算机可读存储介质
CN109510844B (zh) 一种基于声纹的对话交流式的账号注册方法及装置
JP2010026686A (ja) 統合的インタフェースを有する対話型コミュニケーション端末及びそれを用いたコミュニケーションシステム
JP2017146672A (ja) 画像表示装置、画像表示方法、画像表示プログラム及び画像表示システム
US20190066676A1 (en) Information processing apparatus
KR102433964B1 (ko) 관계 설정을 이용한 실감형 인공지능기반 음성 비서시스템
KR20210042520A (ko) 전자 장치 및 이의 제어 방법
CN114708849A (zh) 语音处理方法、装置、计算机设备及计算机可读存储介质
JP2013250490A (ja) 処理装置、処理システム、音声認識方法及びプログラム
US20200243092A1 (en) Information processing device, information processing system, and computer program product
JP2016024378A (ja) 情報処理装置、その制御方法及びプログラム
JP2013238986A (ja) 処理装置、処理システム、出力方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190703

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200323

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200331

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200527

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200811

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201008

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20210105

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210401

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20210401

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20210412

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20210413

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210629

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210712

R151 Written notification of patent or utility model registration

Ref document number: 6922178

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151