JP2023007960A - 情報処理装置、情報処理システム、情報処理方法及びプログラム - Google Patents
情報処理装置、情報処理システム、情報処理方法及びプログラム Download PDFInfo
- Publication number
- JP2023007960A JP2023007960A JP2021111146A JP2021111146A JP2023007960A JP 2023007960 A JP2023007960 A JP 2023007960A JP 2021111146 A JP2021111146 A JP 2021111146A JP 2021111146 A JP2021111146 A JP 2021111146A JP 2023007960 A JP2023007960 A JP 2023007960A
- Authority
- JP
- Japan
- Prior art keywords
- speech recognition
- input
- processing
- result
- information processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 206
- 238000003672 processing method Methods 0.000 title claims description 10
- 238000012545 processing Methods 0.000 claims abstract description 339
- 238000000034 method Methods 0.000 claims abstract description 230
- 230000008569 process Effects 0.000 claims abstract description 224
- 230000006870 function Effects 0.000 claims description 63
- 238000004458 analytical method Methods 0.000 claims description 25
- 238000000605 extraction Methods 0.000 claims description 25
- 238000010276 construction Methods 0.000 claims description 13
- 238000003860 storage Methods 0.000 claims description 12
- 238000013500 data storage Methods 0.000 claims description 9
- 238000012905 input function Methods 0.000 claims 2
- 238000013215 result calculation Methods 0.000 description 39
- 238000010586 diagram Methods 0.000 description 24
- 238000007781 pre-processing Methods 0.000 description 19
- 230000007704 transition Effects 0.000 description 15
- 238000004364 calculation method Methods 0.000 description 11
- 239000000284 extract Substances 0.000 description 8
- 210000004185 liver Anatomy 0.000 description 8
- 238000003384 imaging method Methods 0.000 description 6
- 102220475064 HSPB1-associated protein 1_S64A_mutation Human genes 0.000 description 5
- 230000008859 change Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 230000015654 memory Effects 0.000 description 5
- 230000004044 response Effects 0.000 description 5
- 206010028980 Neoplasm Diseases 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 102220039281 rs199473357 Human genes 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000013479 data entry Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007717 exclusion Effects 0.000 description 2
- 238000003825 pressing Methods 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 210000000709 aorta Anatomy 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000010923 batch production Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 210000002603 extrahepatic bile duct Anatomy 0.000 description 1
- 239000000945 filler Substances 0.000 description 1
- 210000000232 gallbladder Anatomy 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 210000003228 intrahepatic bile duct Anatomy 0.000 description 1
- 210000003734 kidney Anatomy 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 210000000496 pancreas Anatomy 0.000 description 1
- 210000003240 portal vein Anatomy 0.000 description 1
- 238000004801 process automation Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 210000000952 spleen Anatomy 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
Description
例えば、特許文献1には、N個の音声認識エンジンを並列で動作させ、それぞれの音声認識結果をM個の言語理解処理部に入力して、M×N個のアウトプットを統合処理部で統合して、音声入力の結果を得る技術が開示されている。
このような手順を経ることによって入力結果を得る場合、言語処理に相当な時間を要するために、リアルタイムな音声入力に支障を生じる等、充分な処理速度を得ることが困難となる。
また、言語処理の結果が目的とする精度を充足するものでない場合、適切な音声入力結果を得ることができない。
このように、従来の技術においては、音声認識を用いて情報を入力する際に、迅速かつ適切に音声入力結果を得ることが困難であった。
複数の音声認識処理を並列的に実行することにより、複数の音声認識結果を取得する音声認識手段と、
前記音声認識手段によって取得された複数の音声認識結果において、第1の音声認識結果と第2の音声認識結果とを論理演算することにより、文字列のデータを取得する論理演算手段と、
を備えることを特徴とする。
ユーザの制御対象装置に対する指示の発話を音声認識する音声認識手段と、
前記音声認識手段によって取得された音声認識結果を解析することにより、前記指示に対応する処理内容を取得する解析手段と、
前記音声認識手段によって取得された音声認識結果を蓄積し、設定されたタイミングで、前記解析手段によって取得された前記処理内容を自動的に実行する自動実行手段と、
を備えることを特徴とする。
アプリケーションの入力インターフェースに対する操作のための音声を認識する音声認識手段と、
前記アプリケーションの入力インターフェースに対する操作を表す1または複数のプロセスによって構成される操作内容データを記憶する操作内容データ記憶手段と、
前記音声認識手段によって、前記操作内容データを識別する発話が認識された場合に、当該発話によって識別される前記操作内容データを前記操作内容データ記憶手段から読み出し、前記操作内容データを構成する前記1または複数のプロセスに対応する操作を前記入力インターフェースに対して実行する操作実行手段と、
を備えることを特徴とする。
1つの音声認識処理による音声認識結果に対して、異なる機能を有する複数の処理を並列的に実行することにより、複数の処理結果を取得する処理結果取得手段と、
前記処理結果取得手段によって取得された複数の処理結果において、第1の処理結果と第2の処理結果とを論理演算することにより、文字列のデータを取得する論理演算手段と、
を備えることを特徴とする。
複数の情報処理装置を含む情報処理システムであって、
前記複数の情報処理装置のいずれかに入力された音声を音声認識処理する音声認識手段と、
前記音声認識処理による音声認識結果の構文を解析する構文解析手段と、
前記構文解析手段の解析結果に基づいて、アプリケーションに対する情報の入力を制御する情報入力手段と、
前記情報入力手段による前記アプリケーションに対する情報の入力に従って、当該アプリケーションを実行するアプリケーション実行手段と、
を備えることを特徴とする。
[第1実施形態]
本実施形態に係る情報処理装置は、入力された音声のデータを複数の音声認識エンジンを用いて並列的に音声認識処理し、複数の音声認識結果を組み合わせて利用することにより、複数の音声認識結果それぞれを集合させた情報よりも有用な情報を取得する。例えば、本実施形態に係る情報処理装置は、音声認識結果における時間情報を参照しながら、複数の音声認識結果それぞれに含まれる情報を論理演算(除外や置換等)することにより、1つの音声認識処理における音声認識結果のみからは抽出することが困難な情報をさらに取得する。
これにより、本実施形態に係る情報処理装置では、音声認識を用いて情報を入力する際に、より迅速かつ適切な音声入力結果を得ることを可能としている。
以下、本実施形態に係る情報処理装置を具体的に説明する。
図1は、情報処理装置1のハードウェア構成を示す模式図である。
図1に示すように、情報処理装置1は、CPU(Central Processing Unit)11と、ROM(Read Only Memory)12と、RAM(Random Access Memory)13と、バス14と、入力部15と、出力部16と、記憶部17と、通信部18と、ドライブ19と、撮像部20と、を備えている。
RAM13には、CPU11が各種の処理を実行する上において必要なデータ等も適宜記憶される。
出力部16は、ディスプレイやスピーカ等で構成され、画像や音声を出力する。
記憶部17は、ハードディスクあるいはDRAM(Dynamic Random Access Memory)等で構成され、各サーバで管理される各種データを記憶する。
通信部18は、ネットワークを介して他の装置との間で行う通信を制御する。
撮像部20は、レンズ及び撮像素子等を備えた撮像装置によって構成され、被写体のデジタル画像を撮像する。
なお、上記ハードウェア構成は、情報処理装置1の基本的構成であり、一部のハードウェアを備えない構成としたり、付加的なハードウェアを備えたり、ハードウェアの実装形態を変更したりすることができる。例えば、情報処理装置1は、撮像部20を備えない構成としたり、音声認識処理を高速に実行するためのDSP(Digital Signal Processor)を備えたりすることができる。また、情報処理装置1は、入力部15をタッチセンサによって構成し、出力部16のディスプレイに重ねて配置することにより、タッチパネルを備える構成とすることも可能である。
次に、情報処理装置1の機能的構成について説明する。
図2は、情報処理装置1の機能的構成を示すブロック図である。
図2に示すように、情報処理装置1のCPU11においては、音声データ受付部51と、前処理部52と、音声認識処理部53と、認識結果演算部54と、アプリケーション実行部55と、が機能する。また、情報処理装置1の記憶部17には、音声認識辞書データベース(音声認識辞書DB)71と、単語辞書データベース(単語辞書DB)72と、音声認識結果データベース(音声認識結果DB)73と、が形成される。
なお、本実施形態においては、音声認識処理を実行する音声認識エンジンとして、入力された音声データ全体をテキストデータに変換するディクテーションを目的としたものと、音声データに含まれる特定の単語を抽出してテキストデータに変換する単語抽出の音声認識処理を目的としたものが用いられる。
音声認識結果DB73には、音声認識結果(後述する最終認識結果を含む。)のデータが、入力された音声データ及びそれに含まれる単語の発話開始時刻及び発話終了時刻と対応付けて記憶されている。
前処理部52は、音声データ受付部51によって受け付けられた音声データに対し、雑音除去等の前処理を実行する。
なお、音声認識処理部53は、フィラー除去等の補助的な処理を適宜実行することとしてもよい。
図3は、音声認識処理部53がディクテーション及び単語抽出の音声認識処理を行う場合の情報処理装置1の機能構成例を示す模式図である。
図3に示すように、音声認識処理部53がディクテーション及び単語抽出の音声認識処理を行う場合、音声認識処理部53において、第1音声認識部53-1と、第2音声認識部53-2とが形成される。
ディクテーション音声認識部501は、ディクテーションを行うための音声認識エンジンにより音声データを処理し、入力された音声データ全体をテキストデータに変換する。
第1認識結果特定部502は、ディクテーション音声認識部501の処理結果から、音声認識結果を一意に特定する。例えば、第1認識結果特定部502は、ディクテーション音声認識部501によって取得された音声認識結果の候補の中から、音声認識処理の過程で付与されるスコアに基づいて、最も確度が高いものを音声認識結果として特定する。
第1認識結果出力部503は、第1認識結果特定部502によって特定された音声認識結果を認識結果演算部54に出力する。
単語抽出音声認識部511は、単語抽出の音声認識処理(ここでは、ルールグラマーの音声認識処理またはDNN(Deep Neural Network)を用いた音声認識処理とする。)を行うための音声認識エンジンにより音声データを処理し、音声データに含まれる特定の単語を抽出してテキストデータに変換する。
第2認識結果特定部512は、単語抽出音声認識部511の処理結果から、音声認識結果を一意に特定する。例えば、第2認識結果特定部512は、単語抽出音声認識部511によって取得された音声認識結果の候補において、同音異字語の中から、単語辞書DB72に登録されている単語を音声認識結果として特定する。
第2認識結果出力部513は、第2認識結果特定部512によって特定された音声認識結果を認識結果演算部54に出力する。
次に、情報処理装置1の動作を説明する。
[音声認識・演算処理]
図4は、情報処理装置1が実行する音声認識・演算処理の流れを示すフローチャートである。
音声認識・演算処理は、情報処理装置1において、音声認識・演算処理の実行を指示する操作が行われることに対応して開始される。
ステップS2において、前処理部52は、音声データ受付部51によって受け付けられた音声データに対し、雑音除去等の前処理を実行する。
ステップS3において、音声認識処理部53は、前処理が実行された後の音声データに対し、複数の音声認識エンジンによって、並列的に音声認識処理を実行する。具体的には、ステップS3において、音声認識処理部53は、並列音声認識処理(図5参照)を実行する。
ステップS4において、認識結果演算部54は、第1音声認識部53-1~第n音声認識部53-nの音声認識結果に基づいて(例えば、論理演算する等)、音声認識処理の目的となる最終認識結果を取得する。
ステップS6において、音声認識処理部53は、処理対象となる音声データの入力が終了したか否かの判定を行う。
処理対象となる音声データの入力が終了していない場合、ステップS6において、NOと判定されて、処理はステップS1に移行する。
一方、処理対象となる音声データの入力が終了した場合、ステップS6において、YESと判定されて、音声認識・演算処理は終了する。
次に、音声認識・演算処理のステップS3においてサブフローとして実行される並列音声認識処理について説明する。
図5は、音声認識・演算処理のステップS3において実行される並列音声認識処理の流れを示すフローチャートである。
並列音声認識処理が開始されると、ステップS31-1~S31-nにおいて、第1音声認識部53-1~第n音声認識部53-nは、それぞれの音声認識エンジンによって、第1の音声認識処理~第nの音声認識処理を並列的に実行する。
ステップS33-1~S33-nにおいて、第1音声認識部53-1~第n音声認識部53-nは、特定された第1の音声認識処理~第nの音声認識処理の音声認識結果を認識結果演算部54に出力する。
ステップS33-1~S33-nの後、処理は音声認識・演算処理に戻る。
図6は、情報処理装置1による処理が適用されるアプリケーションの具体例を示す模式図である。
図6に示すように、情報処理装置1による処理は、電子カルテのアプリケーションに対する画面入力に適用することが可能である。
これに対し、音声認識・演算処理によって、図6に示す電子カルテの画面入力を行う場合、操作者は、例えば、入力を行うフィールド名、そのフィールドに入力するデータの発話を繰り返し行うことで、目的とするフィールドにデータを入力することができる。
情報処理装置1において、音声認識・演算処理の結果を用いてアプリケーションを実行(電子カルテの画面入力等)する場合、操作者の発話をディクテーションした音声認識結果と、操作者の発話から特定の単語を抽出する単語抽出の音声認識結果とを組み合わせた最終認識結果が、アプリケーションの実行に適用される。
図7に示す例では、第1音声認識部53-1がディクテーションによる音声認識処理を行い、第2音声認識部53-2~第n音声認識部53-nが単語抽出の音声認識処理を行った状態が示されている。
図7に示す例では、第2音声認識部53-2が、時刻t1~t2において単語W2-1を抽出し、時刻t3~t4において単語W2-2を抽出している。また、第n音声認識部53-nが、時刻t5~t6において単語Wn-1を抽出し、時刻t7~t8において単語Wn-2を抽出し、時刻t9~t10において単語Wn-3を抽出している。
即ち、第2音声認識部53-2~第n音声認識部53-nによって単語が抽出されている場合、第1音声認識部53-1の音声認識結果に含まれる同時間帯のディクテーション結果よりも、第2音声認識部53-2~第n音声認識部53-nによって抽出された単語の方が、高精度の音声認識結果となる可能性が高い。
これにより、ディクテーションによる音声認識結果が用いられる範囲を限定することが可能となる。
これにより、第1音声認識部53-1のディクテーション結果の一部が、第2音声認識部53-2~第n音声認識部53-nによる確度の高い音声認識結果に置換され、入力された音声データのディクテーション結果をより高精度なものに再構成することが可能となる。
そのため、言語処理によって音声認識結果の精度を高める場合に比べ、より迅速な処理が可能であると共に、より高精度な音声認識結果を用いて、最終認識結果を取得することができる。
したがって、音声認識を用いて情報を入力する際に、より迅速かつ適切に音声入力結果を得ることが可能となる。
次に、本発明の第2実施形態について説明する。
第1実施形態における情報処理装置1では、音声認識処理部53で並列的に実行される音声認識処理が予め決められている例について説明した。これに対し、本実施形態に係る情報処理装置1は、音声認識処理部53で並列的に実行される音声認識処理を選択することにより、音声認識処理部53の構成を動的に変化させたり、状況に応じて特定の音声認識処理を動作させたりすることが可能となっている。
以下、本実施形態に係る情報処理装置を具体的に説明する。
なお、以下の説明において、第1実施形態と同様の構成については、第1実施形態の説明を参照することとし、第1実施形態と異なる部分を主として説明する。
図8は、第2実施形態に係る情報処理装置1の機能的構成を示すブロック図である。
図8に示すように、情報処理装置1のCPU11においては、ユーザインターフェース制御部(UI制御部)151と、音声入力インターフェース構築部152と、音声認識エンジン選択部153と、音声データ受付部51と、前処理部52と、音声認識処理部53と、認識結果演算部54と、データ入力・プロセス実行部155と、アプリケーション実行部55と、が機能する。また、情報処理装置1の記憶部17には、音声認識エンジンデータベース(音声認識エンジンDB)171と、コマンド・プロパティデータベース(コマンド・プロパティDB)172と、音声認識辞書DB71と、単語辞書DB72と、音声認識結果DB73と、が形成される。
これらのうち、音声データ受付部51、前処理部52、認識結果演算部54、アプリケーション実行部55、音声認識辞書DB71、単語辞書DB72、及び、音声認識結果DB73の構成は、第1実施形態と同様である。
音声入力インターフェース構築部152は、後述する音声入力インターフェース構築処理を実行することにより、アプリケーションに対して音声による情報入力を行うための定義情報を生成する。即ち、音声入力インターフェース構築部152は、アプリケーションを利用する操作者の操作に応じて、その操作者が音声による情報入力を行うことを意図するコマンドやプロパティのデータ(定義情報)を生成する。音声入力インターフェース構築部152によって生成されたコマンド及びプロパティのデータは、コマンド・プロパティDB172に記憶される。
例えば、図7に示す音声認識結果の例において、単語W2-1がプロパティとして定義された「腫瘤大きさ」という単語である場合、時刻t2~t3のディクテーション結果において、「腫瘤大きさ」のデータ(一例として、「3mm×9mm」等)が取得される。また、単語Wn-1がコマンドとして定義された「備考入力」という単語である場合、備考入力のための音声認識エンジン(特定の音声認識エンジン)が起動され、時刻t6~t7において、備考入力のための音声認識エンジンによるディクテーション結果(「前回検査と比較しました・・・」)がデータとして取得される。なお、コマンドによって特定の音声認識エンジンを起動することの他、プロパティの定義において、特定の音声認識エンジンを起動することとしておき、プロパティに対応するデータの入力を特定の音声認識エンジンによる音声入力で行うことも可能である。
次に、情報処理装置1の動作を説明する。
[音声入力インターフェース構築処理]
図9は、情報処理装置1が実行する音声入力インターフェース構築処理の流れを示すフローチャートである。
音声入力インターフェース構築処理は、情報処理装置1において、音声入力インターフェース構築処理の実行を指示する操作が行われることに対応して開始される。
なお、本実施形態においては、音声入力インターフェース構築処理の実行に際し、デフォルトで設定される1または複数の音声認識エンジンがユーザによって指定される。
プロセスの生成を行わない場合、ステップS41においてNOと判定されて、処理はS53に移行する。
一方、プロセスの生成を行う場合、ステップS41においてYESと判定されて、処理はステップS42に移行する。
ステップS43において、音声入力インターフェース構築部152は、操作者の操作に応じて、操作内容の追跡機能をオンにする。これにより、以後の操作者の操作内容が記録される状態となる。なお、操作内容とは、操作者がコマンドあるいはプロパティを定義するために行った定義用操作の内容を表し、具体的には、画面における定義用操作の操作位置及び定義用操作の種類を表している。即ち、画面における特定の位置で、操作者が特定の定義用操作(例えば、左シングルクリック、左ダブルクリック、右シングルクリック等のマウス操作やEnterキー押下等のキーボード操作等)を行うと、定義用操作の種類に対応するアプリケーション上の動作(プロセス)が定義される。例えば、図6において、肝臓の所見を入力するための「辺縁」フィールド上で左シングルクリックを行った場合、「辺縁」フィールドに対して、音声入力によりデータを記入するプロパティが定義される。また、図6において、備考を特定の音声認識エンジンによりフリーテキスト入力するための「備考入力」フィールド上で左シングルクリックを行って、後述するように、使用される音声認識エンジンの設定を併せて行うことでコマンドが定義される。なお、音声入力を用いるプロセスで使用される音声認識エンジンは、音声入力を用いるプロセスが定義される毎に設定する他、一連のプロパティまたはコマンドの定義が終了した後に、別途設定することとしてもよい。ただし、プロセスで使用される音声認識エンジンが、デフォルトの音声認識エンジンである場合には、音声認識エンジンの設定を省略することができる。
ステップS45において、音声入力インターフェース構築部152は、ステップS44において受け付けた手動操作で定義されるプロセスが、特定の音声認識エンジンによる音声入力を行うプロセスであるか否かの判定を行う。特定の音声認識エンジンによる音声入力を行うプロセスとは、そのプロセスの実行に特定の音声認識エンジンによる音声認識処理を伴うプロセスであり、例えば、ディクテーションが行われるプロセス、1つのプロセスからなるプロパティまたはコマンドを表すプロセス、一連のクリック操作を表す複数のプロセスにおける先頭のクリック操作を表すプロセス(即ち、コマンド名の入力に対応して実行される最初のプロセス)等が該当する。
ステップS44において受け付けた手動操作で定義されるプロセスが、特定の音声認識エンジンによる音声入力を行うプロセスでない場合、ステップS45においてNOと判定されて、処理はステップS48に移行する。
一方、ステップS44において受け付けた手動操作で定義されるプロセスが、特定の音声認識エンジンによる音声入力を行うプロセスである場合、ステップS45においてYESと判定されて、処理はステップS46に移行する。
ステップS47において、音声入力インターフェース構築部152は、プロセスの実行に用いられる音声認識エンジンの候補を表すリストから、操作者による特定の音声認識エンジンの選択を受け付ける。
ステップS48において、音声入力インターフェース構築部152は、画面において操作が行われる位置(手動操作が行われた位置)と手動操作の内容(例えば、左シングルクリック、左ダブルクリック、右シングルクリック等のマウス操作やEnterキー押下等のキーボード操作等)を特定する。
操作内容の追跡機能をオフにする操作が行われていない場合、ステップS49においてNOと判定されて、処理はステップS51に移行する。
一方、操作内容の追跡機能をオフにする操作が行われた場合、ステップS49においてYESと判定されて、処理はステップS50に移行する。
ステップS50において、音声入力インターフェース構築部152は、操作内容の追跡機能をオフにする。
ステップS50の後、処理はステップS42に移行する。
プロセスの設定を終了する操作が行われていない場合、ステップS51においてNOと判定されて、処理はステップS44に移行する。
一方、プロセスの設定を終了する操作が行われた場合、ステップS51においてYESと判定されて、処理はステップS52に移行する。
ステップS53において、音声入力インターフェース構築部152は、コマンドまたはプロパティを登録するか否かの判定を行う。
コマンドまたはプロパティを登録しない場合、ステップS53においてNOと判定されて、処理はステップS55に移行する。
一方、コマンドまたはプロセスを登録する場合、ステップS53においてYESと判定されて、処理はステップS54に移行する。
ステップS55において、音声入力インターフェース構築部152は、音声入力インターフェース構築処理の終了が指示されたか否かの判定を行う。
音声入力インターフェース構築処理の終了が指示されていない場合、ステップS55においてNOと判定されて、処理はステップS42に移行する。
一方、音声入力インターフェース構築処理の終了が指示された場合、ステップS55においてYESと判定されて、音声入力インターフェース構築処理は終了する。
図10は、情報処理装置1が実行する情報入力処理の流れを示すフローチャートである。
情報入力処理は、情報処理装置1において、情報入力処理の実行を指示する操作が行われることに対応して開始される。なお、情報入力処理が実行される場合、情報入力が行われるアプリケーションが起動された状態とされる。また、情報入力処理において、入力されるべき音声(例えば、「プロパティ」あるいは「コマンド」の後の必要な「データ」の音声)が入力されない場合、入力を促すメッセージを出力したり、エラーとして情報入力処理を中止(または再実行)したりする等の予め設定された処理が実行される。
ステップS62において、音声認識エンジン選択部153は、取得した選択条件情報に基づいて、使用する音声認識エンジンの選択を行う。即ち、操作者の操作または情報入力処理で情報を入力する対象となるアプリケーションに応じた音声認識エンジンが選択される。
ステップS63において、音声認識エンジン選択部153は、選択した音声認識エンジンを音声認識エンジンDB171から読み出して、音声認識処理部53で音声認識処理を実行する音声認識エンジンとして設定する。これにより、要求に応じた音声認識処理部53の機能が構成され、選択された音声認識エンジンによって音声認識処理が行われる状態となる。
ステップS65において、前処理部52は、音声データ受付部51によって受け付けられた音声データに対し、雑音除去等の前処理を実行する。
ステップS66において、音声認識処理部53は、前処理が実行された後の音声データに対し、複数の音声認識エンジンによって、並列的に音声認識処理を実行する。
ステップS67において、認識結果演算部54は、第1音声認識部53-1~第n音声認識部53-nの音声認識結果に基づいて、音声認識処理の目的となる最終認識結果を取得する。
ステップS68において、データ入力・プロセス実行部155は、最終認識結果がプロパティの入力を行うものであるか否かの判定を行う。
最終認識結果がプロパティの入力を行うものでない場合、ステップS68においてNOと判定されて、処理はステップS70に移行する。
一方、最終認識結果がプロパティの入力を行うものである場合、ステップS68においてYESと判定されて、処理はステップS69に移行する。
ステップS69の後、処理はステップS79に移行する。
最終認識結果がコマンドの入力を行うものでない場合、ステップS70においてNOと判定されて、処理はステップS79に移行する。
一方、最終認識結果がコマンドの入力を行うものである場合、ステップS70においてYESと判定されて、処理はステップS71に移行する。
ステップS72において、データ入力・プロセス実行部155は、コマンドを構成するプロセスが特定の音声認識処理を行うものであるか否かの判定を行う。
コマンドを構成するプロセスが特定の音声認識処理を行うものでない場合、ステップS72においてNOと判定されて、処理はステップS79に移行する。
一方、コマンドを構成するプロセスが特定の音声認識処理を行うものである場合、ステップS72においてYESと判定されて、処理はステップS73に移行する。
ステップS74において、音声データ受付部51は、特定の音声認識処理を行うプロセスに対応するデータとして、音声データの入力を受け付ける。
ステップS75において、前処理部52は、音声データ受付部51によって受け付けられた音声データに対し、雑音除去等の前処理を実行する。
ステップS76において、特定音声認識部154は、特定の音声認識エンジンによって音声認識処理を実行する。
ステップS78において、特定音声認識部154は、特定の音声認識処理が終了したか否かの判定を行う。
特定の音声認識処理が終了していない場合、ステップS78においてNOと判定されて、処理はステップS74に移行する。
一方、特定の音声認識処理が終了した場合、ステップS78においてYESと判定されて、処理はステップS79に移行する。
コマンドに残りのプロセスが含まれていない場合、ステップS79においてNOと判定されて、処理はステップS80に移行する。
一方、コマンドに残りのプロセスが含まれている場合、ステップS79においてYESと判定されて、処理はステップS71に移行する。
最終認識結果に残りのプロパティ及びコマンドが含まれていない場合、ステップS80においてNOと判定されて、処理はステップS81に移行する。
一方、最終認識結果に残りのプロパティまたはコマンドが含まれている場合、ステップS80においてYESと判定されて、処理はステップS68に移行する。
ステップS81において、データ入力・プロセス実行部155は、現在選択されている音声認識エンジンによる並列音声認識の終了条件が充足されたか否かの判定を行う。なお、現在選択されている音声認識エンジンによる並列音声認識の終了条件としては、例えば、先行するステップにおいて実行されたコマンドの内容が、並列音声認識に用いる音声認識エンジンの変更を伴うものであった場合や、ユーザが現在選択されている音声認識エンジンによる並列音声認識の終了を指示する音声入力または操作を行った場合等を定義できる。
一方、現在選択されている音声認識エンジンによる並列音声認識の終了条件が充足された場合、ステップS81においてYESと判定されて、処理はステップS82に移行する。
音声認識エンジンの変更が必要である場合、ステップS82においてYESと判定されて、処理はステップS61に移行する。
一方、音声認識エンジンの変更が必要でない場合、ステップS82においてNOと判定されて、情報入力処理は終了する。
また、本実施形態における情報処理装置1は、入力された音声のデータを複数の音声認識エンジンを用いて並列的に音声認識処理し、複数の音声認識結果を組み合わせる(論理演算する等)ことにより、複数の音声認識結果それぞれを集合させた情報よりも有用な情報となる最終認識結果を取得する。
そのため、言語処理によって音声認識結果の精度を高める場合に比べ、より迅速な処理が可能であると共に、より高精度な音声認識結果を得ることができる。また、このように取得されたより高精度な音声認識結果を用いて、複数の音声認識結果それぞれを集合させた情報よりも有用な情報となる最終認識結果を取得することができる。
そのため、処理対象となる音声に対し、より適切な音声認識処理を実行することができるため、より高精度な音声認識結果を取得することができる。
そのため、操作者は、アプリケーションの画面における操作位置を都度探索し、マウスやキーボード等を操作して画面の所定位置を操作する場合に比べ、迅速かつ簡単に情報を入力することができる。
即ち、本実施形態における情報処理装置1は、アプリケーションに変更を加えることなく、任意のアプリケーションとユーザとの間で機能し、アプリケーションに対する音声による情報の入力を支援することができる。
このように、本実施形態における情報処理装置1によれば、音声認識を用いて情報を入力する際に、より迅速かつ適切に情報を入力することが可能となる。
次に、本発明の第3実施形態について説明する。
本実施形態においては、第2実施形態の情報処理装置1を具体的なアプリケーションの入力に適用する状況を想定し、情報の入力が行われる実践的な例について説明する。
なお、以下の説明において、第1実施形態の図6及び図7を適宜参照するものとする。
情報処理装置1は、図6に示すように、1画面における複数のフィールドに対し、音声入力による情報の入力を行うことができる。
図11は、図6に示すアプリケーションの入力画面において、操作者が「プロパティ」を音声入力する場合の動作を表す説明図である。
「プロパティ」を音声入力する場合、図6に示すアプリケーションの入力画面が表示され、情報入力処理を実行させた状態で、操作者は、例えば、「辺縁、鋭利」との発話を行う(ステップP1)。
なお、「辺縁」はプロパティとして登録されており、図6の「辺縁」フィールドの位置に情報を入力するよう定義されている。
ここでは、音声認識処理部53において、第1音声認識部53-1~第3音声認識部53-3が動作しているものとし、第1音声認識部53-1は、汎用のディクテーションを実行し、第2音声認識部53-2はプロパティとして登録された単語を抽出する単語抽出の音声認識処理、第3音声認識部53-3はコマンドとして登録された単語を抽出する単語抽出の音声認識処理を実行しているものとする。
第1音声認識部53-1の音声認識結果:「へんえん」(開始時刻:0、終了時刻:500)、「鋭利」(開始時刻:501、終了時刻:1000)
第2音声認識部53-2の音声認識結果:「辺縁」(開始時刻:0、終了時刻:500)
第3音声認識部53-3の音声認識結果:エラー(認識失敗)
この結果、最終認識結果として、プロパティ「辺縁」、データ「鋭利」が取得される。
次いで、プロパティ「辺縁」の定義が参照され、入力画面における「辺縁」フィールドの位置をクリックする操作がアプリケーションに行われる(ステップP4)。
さらに、「辺縁」フィールドに対するデータとして、「鋭利」のテキストデータが入力される(ステップP5)。
図12は、図6に示すアプリケーションの入力画面において、操作者が「コマンド」を音声入力する場合の動作を表す説明図である。
「コマンド」を音声入力する場合、図6に示すアプリケーションの入力画面が表示され、情報入力処理を実行させた状態で、操作者は、例えば、「備考入力」との発話を行う(ステップQ1)。
なお、「備考入力」はコマンドとして登録されており、図6の「備考入力」フィールドの位置に情報を入力するよう定義されている。
ここでは、音声認識処理部53において、第1音声認識部53-1~第3音声認識部53-3が動作しているものとし、第1音声認識部53-1は、汎用のディクテーションを実行し、第2音声認識部53-2はプロパティとして登録された単語を抽出する単語抽出の音声認識処理、第3音声認識部53-3はコマンドとして登録された単語を抽出する単語抽出の音声認識処理を実行しているものとする。
第1音声認識部53-1の音声認識結果:「備考」(開始時刻:0、終了時刻:300)、「入力」(開始時刻:301、終了時刻:600)
第2音声認識部53-2の音声認識結果:エラー(認識失敗)
第3音声認識部53-3の音声認識結果:「備考入力」(開始時刻:0、終了時刻:600)
そして、備考入力が完了した場合、操作者は「備考入力終了」との発話を行う(ステップQ6)。
上述の例では、情報処理装置1において表示されている画面を操作者が視認しながら、表示されているフィールドに対して音声入力により情報を入力する場合について説明した。
これに対し、情報処理装置1において定義される「コマンド」及び「プロパティ」は、画面が表示されているか否かに関わらず、プロセスを定義することができる。
そして、操作者が音声入力によって情報を入力する場合、現在表示されている画面以外の画面におけるコマンドあるいはプロパティについても、連続的に発話を行って、情報を入力することができる。
図13に示すように、情報処理装置1で実行されるアプリケーションにおいては、画面V1の操作部を操作すると画面V2に遷移し、画面V2の操作部を操作すると画面V3に遷移し、画面V3の操作部を操作すると画面V4に遷移するものとする。また、画面V1には、データD1を入力するためのフィールドが含まれ、画面V3にはデータD2を入力するためのフィールドが含まれ、画面V4には特定の音声認識エンジンを使用したディクテーションによって入力を行うためのフィールドが含まれているものとする。
このようなアプリケーションに対して音声認識により情報を入力する場合、画面V1~V4に遷移する毎に、表示された画面の表示内容を確認した上で、表示された画面内におけるプロパティあるいはコマンドを発話することが可能である。
そこで、本実施形態における情報処理装置1は、操作者の連続的な発話(スピーチ)に含まれる複数のコマンドあるいはプロパティを受け付け、コマンドあるいはプロパティとして定義されたプロセスを順次実行すると共に、遷移後の画面におけるコマンドあるいはプロパティについては、画面の遷移を待って実行するものとする。
そして、データ入力・プロセス実行部155が、コマンドあるいはプロパティにおけるプロセスを1つずつ実行すると共に、画面遷移を伴うプロセスについては、画面遷移を待つためのウェイト処理を実行した後、次のプロセスを実行する。
特定単語K1:画面V1においてデータD1の入力フィールドにテキストを入力するためのプロパティ
データD1:データD1の入力フィールドに入力される発話のデータ
特定単語K2:画面V1において画面V2への遷移を伴うコマンド
特定単語K3:画面V2から画面V3に遷移を伴うコマンド
特定単語K4:画面V3においてデータD2の入力フィールドにテキストを入力するためのプロパティ
データD2:画面V3におけるデータD2の入力フィールドに入力される発話のデータ
特定単語K5:画面V3から画面V4への遷移を伴い、特定の音声認識エンジンによって発話T2のディクテーションを行うためのコマンド
このような発話T1が入力された場合、情報処理装置1は、発話T1の最終認識結果をバッファに記憶し、特定単語K1から順に処理する。
即ち、画面V1が表示された状態において、特定単語K1として定義されたプロパティにより、データD1の入力フィールドに情報を入力する状態となる。
次いで、特定単語K2として定義されたコマンドにより、画面V1における操作部を操作する入力が行われる。
ここで、特定単語K2として定義されたコマンドが実行されると、画面V1から画面V2への遷移が発生する。
この場合、特定単語K3として定義されたコマンドを直ちに実行すると、画面V1から画面V2への遷移が完了する前に、特定単語K3として定義されたコマンドの実行が開始される可能性がある。
同様に、特定単語K3として定義されたコマンドは、画面V2から画面V3への遷移を伴うため、情報処理装置1は、特定単語K3として定義されたコマンドを実行した後、所定時間のウェイト処理を挿入する。これにより、画面の遷移が完了した後、画面V3において、特定単語K4として定義されたプロパティにより、データD2の入力フィールドに情報を入力する状態となる。
次いで、特定単語K5として定義されたコマンドにより、画面V3における操作部を操作する入力が行われる。
この後、画面V3から画面V4に遷移し、発話T2を待つ状態となる。
このような処理により、現在表示されている画面以外の画面におけるコマンドあるいはプロパティについて、操作者が連続的に発話を行った場合でも、発話に含まれるコマンドあるいはプロパティを適切に実行しながら、音声による情報入力を行うことが可能となる。
即ち、本実施形態の情報処理装置1によれば、マウス操作やキーボード入力を前提とするインターフェースを有するアプリケーション(コンピュータプログラム)に対して、音声認識と、知識ベースの構築及び利用とに関する新たな仕組みを実現することで、既存のアプリケーションに変更を加えることなく、人間が行っていたマウス操作やキーボード入力等による情報入力プロセスをコンピュータに代替させることができる。
そのため、入力処理時間の削減及び入力精度の向上を図ることができる。
上述の実施形態において、複数の音声認識エンジンによる音声認識処理を並列的に実行する場合を例に挙げて説明したが、これに限られない。例えば、1つの音声認識エンジン(例えば、汎用のディクテーションを行う音声認識エンジン等)によって音声認識処理された結果を異なる機能を有する複数の処理部によって並列的に処理し、処理負荷の増大を抑制しつつ、単独の音声認識処理による処理結果よりも有用な情報を得ることができる。
図14に示す構成例では、第1実施形態の図3に示す機能構成例において、音声認識処理部53及び認識結果演算部54の構成が異なっている。
即ち、図14に示す情報処理装置1は、音声データ受付部51と、前処理部52と、音声認識処理部53Aと、並列処理部600と、処理結果演算部54Aと、アプリケーション実行部55と、を備えている。
これらのうち、音声データ受付部51、前処理部52及びアプリケーション実行部55の構成は、図3に示す情報処理装置1の構成と同様である。
並列処理部600は、音声認識処理部53Aによって取得された1つの音声認識結果(テキストデータ)に対し、異なる機能を有する複数の処理部によって並列的な処理を実行する。
具体的には、並列処理部600は、第1認識結果処理部601と、第2認識結果処理部602と、を備えている。
第1認識結果処理部601は、所定の言語処理(意味内容の解釈)を実行し、言語処理の結果を処理結果演算部54Aに出力する。
第2認識結果処理部602は、単語抽出処理(ターゲットとする単語の抽出)を実行し、単語抽出処理の結果を処理結果演算部54Aに出力する。
即ち、本変形例の情報処理装置1は、入力された音声を、ディクテーションを行う音声認識エンジンによって音声認識処理し、音声データがテキスト化されたテキストデータに対し、所定の言語処理(意味内容の解釈)と、単語抽出処理(ターゲットとする単語の抽出)とを並列的に実行することができる。そして、これらの並列的な処理結果に対する演算処理等を行うことにより、最終認識結果を得ることができる。
このような構成とすることによっても、音声認識を用いて情報を入力する際に、より迅速かつ適切な音声入力結果を得ることができる。
次に、本発明の第4実施形態について説明する。
上述の第2実施形態においては、発話を音声認識処理によりテキスト化し、発話のテキストデータにおける所定項目のデータを自動的に入力するプロパティと、手動操作を自動化すると共に、自動化された操作で起動された特定の音声認識エンジンによる音声認識によって次の発話をテキスト化してデータ入力するコマンドと、を実行する情報処理装置1について説明した。即ち、第3実施形態における情報処理装置1では、リアルタイムに入力される音声データを待ち受け、プロパティまたはコマンドとして逐次解釈しながら、発話によってデータ入力を行うものとした。
なお、本実施形態において、入力された音声データを蓄積しておくことの他、入力された音声データと、その音声認識結果であるテキストデータとを対応付けて蓄積しておき、これらを発話の履歴として、データ入力を自動的に行うことも可能である。以下の説明においては、入力された音声データを蓄積するものとして説明する。
本実施形態における情報処理装置1の機能的構成は、第2実施形態の図8に示す機能的構成とほぼ同様である。
また、本実施形態における情報処理装置1は、図10に示す情報入力処理に対し、一部の処理が異なる情報入力処理を実行する。
図15に示す情報入力処理は、蓄積された音声データに対し、バッチ処理として実行されることから、図10に示す情報入力処理のうち、ステップS64及びステップS74の処理が異なるものとなっている。なお、図15に示す情報入力処理に先立ち、情報処理装置1では、蓄積された音声データの構文解析(音声認識結果における「プロパティ」、「コマンド」、「データ」の判定)が実行され、音声データの各単語の属性が予め把握されるものとする。例えば、データ入力・プロセス実行部155が、コマンド・プロパティDB172を参照し、蓄積された音声データの音声認識結果が、コマンドまたはプロパティとして定義されたプロセスに該当するか否かを判定することにより、構文解析を実行することができる。そして、情報入力処理が実行される場合には、「プロパティ」あるいは「コマンド」と、これらに対応する「データ」とが、対応付けられた「区分データ」(後述)として取り扱われる。ただし、「プロパティ」あるいは「コマンド」と、これらに対応する「データ」とを対応付けられた「区分データ」として取り扱うことの他、処理対象となる区分データが「プロパティ」あるいは「コマンド」であると判定された場合に、逐次、後続の「データ」を取得することとしてもよい。
以下、ステップS64と異なる部分であるステップS64A及びステップS74と異なる部分であるステップS74Aについて説明する。
そして、コマンドを構成するプロセスが特定の音声認識処理を行うものである場合(ステップS72でYESの場合)、プロセスと対応付けられている特定の音声認識エンジンが起動される(ステップS73)。
ステップS74Aにおいて取得された区分データは、特定の音声認識エンジンによる音声認識処理(ステップS76)を経て、アプリケーションに対するデータとして入力される(ステップS77)。
この後、一連の音声データの処理が終了するまで、情報入力処理が繰り返される。
なお、上述したように、プロパティの定義において、特定の音声認識エンジンを起動することとしておき、プロパティに対応するデータの入力を特定の音声認識エンジンによる音声入力で行うことも可能である。この場合、蓄積された音声データの構文解析には、汎用のディクテーションを行う音声認識エンジンを使用し、プロパティに対応するデータの抽出時には、特定の音声認識エンジンを用いること等が可能である。
例えば、過去にアプリケーションに対する入力内容を発話した履歴(過去の音声データ)を基に、アプリケーションに対するデータの入力を任意のタイミングで実行することができる。
本実施形態に係る情報処理装置1の使用形態として、例えば、ユーザが1日の作業履歴を夕方までに音声データとして逐次記録しておき、深夜等に、情報処理装置1が作業履歴をまとめてアプリケーションに入力する作業を実行する形態が想定される、また、他の例として、ユーザが翌朝までにやっておきたいことを、深夜に取得可能となるデータ(深夜1時に配信されるデータ等)を使用する前提で音声によって記録しておき、早朝等に、ユーザが作業から離れている状況下で、情報処理装置1が音声データに基づく作業を自動的に実行する形態等が想定される。
次に、本発明の第5実施形態について説明する。
本実施形態における情報処理装置1は、情報処理装置1と他の装置とが連携することにより、多様な適用形態及び付加的な機能等を実現するものである。
即ち、本実施形態における情報処理装置1は、他の装置と共に情報処理システムSを構成し、情報処理システムSに入力される音声を情報処理システムSに含まれるいずれかの装置で音声認識処理すると共に、音声認識処理を行った装置または他の装置において、音声認識処理の結果(テキストデータ)に基づいて、アプリケーションに対する情報入力を実行する。また、蓄積された音声データの音声認識結果に基づき、アプリケーションに対する情報入力を行う場合、音声認識処理の結果に対して構文解析(「プロパティ」、「コマンド」あるいは「データ」の判定等)が行われるが、情報処理システムSに含まれるいずれかの装置において、構文解析を行うことができる。
したがって、本実施形態における情報処理システムSでは、(1)音声データの入力、(2)音声データに対する音声認識処理、(3)音声認識結果(テキストデータ)の構文解析、(4)音声認識結果の実行(アプリケーションへの情報入力)を情報処理システムSに含まれるいずれかの装置で自動的に実行することで、目的とする機能のためのシステムの自動実行を実現することができる。
このような機能を備えることにより、本実施形態における情報処理装置1及び情報処理システムSは、音声入力によって、コンピュータの自動運転(目的とする処理の自動実行)を可能とするものである。
なお、本実施形態において、情報処理システムSを構成する各装置には、1または複数のアプリケーションを実装することが可能であり、他の装置に対して、アプリケーションの出力データを送信することが可能となっている。
図16に示すように、情報処理装置1は、他の装置として、例えば、スマートフォン等の端末装置TとネットワークNを介して通信可能な情報処理システムSを構築することができる。
なお、図16に示す情報処理システムSにおいては、複数の端末装置Tが含まれると共に、端末装置Tとして複数種類の装置(スマートフォン、タブレット端末あるいはパーソナルコンピュータ等)を用いることができる。
このような構成とした場合、例えば、端末装置Tにおいて音声認識処理を行うことができ、音声認識処理の結果取得されるテキストデータは、音声データと対応付けられて、情報処理装置1に送信される。端末装置Tにおいて音声認識処理を実行することで、日常的に当該ユーザの発話を音声認識し、学習またはカスタマイズ等された音声認識機能によって、ユーザの発話をより正確にテキストデータに変換することができる。また、例えば、端末装置Tにおいて上述の各実施形態における情報入力処理を実行することができ、情報入力処理の結果取得されるアプリケーションの出力データは、情報処理装置1に送信される。なお、端末装置Tにおいてアプリケーションを実行することなく、端末装置Tから情報処理装置1に対して、入力された音声データをそのまま送信することとしてもよい。
また、情報処理装置1は、1つのアプリケーションまたは機能が異なる複数のアプリケーションを実装することができる。
情報処理装置1では、各端末装置Tから送信された音声データ、音声認識結果(テキストデータ)と音声データ、あるいは、アプリケーションの出力データを対象として、ユーザが指定した時刻あるいは情報処理装置1に設定された時刻等の所定のタイミングにおいて、音声認識結果(テキストデータ)の構文解析及び第4実施形態における情報入力処理を実行する。
ただし、音声認識結果(テキストデータ)に対して情報入力処理を実行する場合、端末装置Tにおいて音声認識処理が行われているため、情報処理装置1は、音声認識処理を実行することなく、テキストデータを順に取得しながら、コマンドあるいはプロパティを実行することができる。
即ち、情報処理システムSにおいては、端末装置Tがユーザの音声入力を受け付け、音声入力を受け付けた端末装置Tまたは他の端末装置T、あるいは、情報処理装置1が音声認識処理を実行し、音声認識処理の結果に基づいて、情報処理装置1が情報入力処理を実行する。また、このとき、いずれかの装置において、音声認識結果(テキストデータ)の構文解析を行うことができる。
また、本実施形態における情報処理装置1及び情報処理システムSは、事前に音声入力で指示を行うことによって、ユーザが予め設定した処理を自動実行する機能を有するため、操作者のリアルタイムでの操作を不要として、コンピュータの自動運転を実現することができる。
また、音声データまたは音声認識結果を取得する装置とは異なる装置によって、音声入力処理を実行することができるため、アプリケーションに対して音声により情報を入力するための機能を適切な形態で分散して実装することができる。
また、端末装置Tあるいは情報処理装置1に実装された1または複数のアプリケーションに対して、データ入力を自動的に行うことができる。
また、クラウドシステムとして情報処理システムSを構成することで、複数の装置が分担する処理を最適化すること等により、音声認識処理の高精度化、処理負荷に適応的に対応することによる処理速度の向上、音声認識処理あるいはアプリケーションの機能改良による利便性の向上、実行されるアプリケーションの数や種類の増加による目的とする処理の高速化・高機能化等を図ることができる。
図17は、複数ユーザの協業を支援する情報処理システムSの機能を示す模式図である。
図17に示す例では、情報処理システムSを用いて、複数の社員A,B・・・及びその管理職Xが、日常業務における業務報告及び資料の取りまとめを行う場合を示している。
図17に示すように、情報処理システムSのユーザである社員A,B・・・は、一日の業務が終了するタイミング等で、当日の業務内容を自身が使用する端末装置Tに音声入力する。図17に示す例では、社員Aが、「本日の実績は、売上実績、A1社n円及びA2社m円の2件、営業実績A3社、A4社、A5社の3件、そのうち、見込みが高いのはA4社でした。」と端末装置Tに音声入力することで、業務報告を行っている。
同様に、他の社員も、自身の業務報告を端末装置Tに音声入力し、業務報告を行っている。
これら社員A,B・・・の端末装置Tには、各社員が使用する1または複数のアプリケーションが実装されており、各社員は、自身が情報を入力する対象のアプリケーションを特定して音声入力する。図17に示す例では、各社員が端末装置Tに実装された業務報告用のアプリケーションに対して、業務報告の音声入力を行う例を示している。なお、業務報告用のアプリケーションを情報処理装置1に実装し、端末装置Tから情報処理装置1に音声データを送信して、業務報告用のアプリケーションに対する音声入力処理を実行することとしてもよい。
また、管理職Xは、各社員からの業務報告がアップロードされることを見越して、各社員の業務報告を取りまとめる旨のタスクを自身の端末装置Tに対して音声入力する。なお、図17に示す例では、管理職Xの端末装置Tでは、アプリケーションへの情報入力が行われず、音声認識処理のみが行われるものとする。
また、管理職Xのタスクの音声入力が管理職の端末装置Tにおいて音声認識され、音声認識結果(テキストデータ)が情報処理装置1に送信される。
なお、図17に示す例では、各社員の業務報告及び管理職Xのタスクの音声入力は、夕方までに行われるものとする。
そして、当日の深夜等、予め設定されたタイミングになると、情報処理装置1は、管理職Xのタスクに対応するテキストデータを対象として、情報入力処理(図15参照)を実行する。図17に示す例では、管理職Xが入力したタスクに対応するテキストデータを対象として、プレゼンテーション用のアプリケーションに対する情報入力処理が実行されている。即ち、情報処理装置1では、コンピュータの自動運転が行われている。なお、管理職Xの端末装置Tにプレゼンテーション用のアプリケーションを実装し、情報処理装置1のデータベースを参照しながら、管理職Xの端末装置Tがプレゼンテーション用のアプリケーションに対する音声入力処理を実行することとしてもよい。
即ち、本実施形態の情報処理システムSによれば、データの内容等は異なるものの、作業の枠組みが決められている業務を、スピーチに基づくプロセスオートメーションとして実現することができる。
また、複数のアプリケーションに対して情報入力処理を実行することにより、自動的にデータ入力を行い、そのアプリケーションの出力データを対象として、さらに情報入力処理を実行することで、アプリケーションに対するより高度なデータ入力を行ったり、より複雑なデータを生成したりすることが可能となる。
また、情報処理システムS及び情報処理システムSを構成する情報処理装置1によれば、事前に音声入力で指示を行うことによって、ユーザが予め設定した処理が自動実行されるため、操作者のリアルタイムでの操作を不要として、コンピュータの自動運転を実現することができる。
そのため、部署全体の業務報告をミーティング等で使用できるのは、通常の勤務時間帯で作業を行った場合、各社員の業務報告を締め切った翌日夕方または翌々日以降となる可能性が高い。また、これらの業務報告内容を全てデータ入力する必要がある場合、各社員の業務報告のタイミングがさらに遅れることになる。
そして、各社員の業務報告を締め切った翌朝には、管理職Xが望む部署全体の業務報告書が作成されていることとなり、ミーティング等のタイミングを早めることが可能となる。
音声認識処理部53は、複数の音声認識処理を並列的に実行することにより、複数の音声認識結果を取得する。
認識結果演算部54は、音声認識処理部53によって取得された複数の音声認識結果において、第1の音声認識結果と第2の音声認識結果とを論理演算することにより、文字列のデータを取得する。
これにより、複数の音声認識結果を組み合わせて利用することができるため、複数の音声認識結果の中から確度の高い部分の音声認識結果を適宜選択したり、1つの音声認識結果を用いて他の音声認識結果の一部を除外または置換したり、1つの音声認識結果を参照して、他の音声認識結果の認識精度を高めたりすることができる。
したがって、言語処理等を行うことなく、より迅速かつ適切に音声入力結果を得ることができる。
これにより、音声認識結果の精度に関わらず、複数の音声認識結果の論理演算をより適切に行うことができる。
認識結果演算部54は、当該音声認識処理による異なる種類の音声認識結果を論理演算することにより、文字列のデータを取得する。
これにより、異なる種類の音声認識結果を組み合わせて利用することができるため、それぞれの種類の音声認識結果のうち、より有効な部分を選択することで、複数の音声認識結果から、より適切な文字列のデータを取得することが可能となる。
認識結果演算部54は、単語抽出を行う音声認識処理の音声認識結果に基づいて、ディクテーションを行う音声認識処理の音声認識結果の一部を除外または置換する。
単語抽出を行う音声認識処理によって抽出された単語は、音声認識結果としての確度が高いため、ディクテーションを行う音声認識処理のディクテーション結果から、抽出された単語を除外または置換することで、ディクテーションを行う音声認識処理の音声認識結果を用いる部分が限定的となり、より適切な文字列のデータを取得することが可能となる。
これにより、複数の音声認識結果または文字列のデータによって、特定の音声認識処理が必要であることが判明した場合に、特定の音声認識処理を実行することにより、高精度な音声認識結果を迅速に出力することができる。
データ入力・プロセス実行部155は、認識結果演算部54によって取得された文字列に基づいて、後段の処理に対する情報の入力を制御する。
また、データ入力・プロセス実行部155は、音声認識結果から取得された文字列のデータに基づいて、表示画面に対する操作によって入力可能な情報を後段の処理に入力する。
これにより、マウス操作やキーボード入力等により表示画面に対する操作によって入力される情報を、高精度な認識結果を速やかに得ることが可能な音声認識処理によって入力できるため、音声による高精度で高速な情報入力を行うことが可能となる。
音声入力インターフェース構築部152は、表示画面に対する操作を表すプロセスと音声認識処理による情報の入力のための文字列とを対応付ける。
データ入力・プロセス実行部155は、音声認識結果から取得された文字列のデータに基づいて、音声入力インターフェース構築部152によって文字列のデータと対応付けられた表示画面に対する操作を表すプロセスの実行を制御する。
これにより、表示画面に対する操作を表すプロセスと音声認識処理による情報の入力のための文字列のデータとを対応付けることができるため、ユーザの目的に応じて、音声認識による種々の情報の入力のための文字列を定義し、音声認識処理による多様な情報の入力を迅速に行うことが可能となる。また、複数の操作に対応するプロセスを組み合わせて、音声認識処理による情報の入力のための文字列を定義することができるため、表示画面に対する操作でユーザが行っていた操作位置の探索やマウスポインタの移動等に要する時間を短縮することができ、より迅速に情報の入力を行うことが可能となる。
音声認識エンジン選択部153は、音声認識処理部53において並列的に実行される音声認識処理を選択する。
これにより、並列的に実行される複数の音声認識処理として適切なものを選択することができるため、より高精度な音声認識結果を取得することが可能となる。
これにより、入力された音声のデータから、高精度な音声認識結果を逐次取得することができる。
これにより、任意のタイミングで、音声のデータから高精度な音声認識結果を取得することができる。
音声認識処理部53は、ユーザの制御対象装置に対する指示の発話を音声認識する。
データ入力・プロセス実行部155は、音声認識処理部53によって取得された音声認識結果を解析することにより、前記指示に対応する処理内容を取得する。
データ入力・プロセス実行部155は、音声認識処理部53によって取得された音声認識結果を蓄積し、設定されたタイミングで、取得された処理内容を自動的に実行する。
これにより、事前に音声入力で指示を行うことによって、ユーザが予め設定した処理を自動実行させることが可能となる。
これにより、操作者のリアルタイムでの操作を不要として、制御対象装置の自動運転を実現することができる。
音声認識処理部53は、アプリケーションの入力インターフェースに対する操作のための音声を認識する。
コマンド・プロパティDB172は、アプリケーションの入力インターフェースに対する操作を表す1または複数のプロセスによって構成される操作内容データを記憶する。
データ入力・プロセス実行部155は、音声認識処理部53によって、操作内容データを識別する発話が認識された場合に、当該発話によって識別される操作内容データをコマンド・プロパティDB172から読み出し、操作内容データを構成する1または複数のプロセスに対応する操作を入力インターフェースに対して実行する。
これにより、操作者が連続的に発話を行った場合でも、発話に含まれるコマンドあるいはプロパティ等の操作内容データを適切に実行しながら、音声による情報入力を行うことが可能となる。
この結果、マウス操作やキーボード入力を前提とするインターフェースを有するアプリケーション(コンピュータプログラム)に変更を加えることなく、人間が行っていたマウス操作やキーボード入力等による情報入力プロセスをコンピュータに代替させることができる。
そのため、入力処理時間の削減及び入力精度の向上を図ることができる。
並列処理部600は、1つの音声認識処理による音声認識結果に対して、異なる機能を有する複数の処理を並列的に実行することにより、複数の処理結果を取得する。
処理結果演算部54Aは、並列処理部600によって取得された複数の処理結果において、第1の処理結果と第2の処理結果とを論理演算することにより、文字列のデータを取得する。
これにより、処理負荷の増大を抑制しつつ、単独の音声認識処理による処理結果よりも有用な情報を得ることができる。
音声認識処理部53は、複数の情報処理装置のいずれかに入力された音声を音声認識処理する。
データ入力・プロセス実行部155は、音声認識処理による音声認識結果の構文を解析する。
データ入力・プロセス実行部155は、解析結果に基づいて、アプリケーションに対する情報の入力を制御する。
アプリケーション実行部55は、データ入力・プロセス実行部155によるアプリケーションに対する情報の入力に従って、当該アプリケーションを実行する。
これにより、音声認識を用いた情報入力を行う上で、利便性の向上を図ることができる。
また、アプリケーションに対して音声により情報を入力するための機能を適切な形態で分散して実装することができる。
アプリケーション実行部55は、データ入力・プロセス実行部155による構文の解析結果が、他のアプリケーションの実行結果を参照することを示している場合、当該他の前記アプリケーションの実行結果を参照して、実行対象の前記アプリケーションを自動的に実行する。
これにより、アプリケーションに対するより高度なデータ入力を自動的に行ったり、より複雑なデータを自動的に生成したりすることが可能となる。
例えば、上述の実施形態において、情報処理装置1を単体の装置として構成し、本発明を1つの装置において実行する例について説明したが、これに限られない。即ち、情報処理装置1が備える機能をネットワークを介して通信可能に接続された複数の装置に実装し、情報処理システムとして本発明を実現することとしてもよい。例えば、音声入力インターフェース構築処理と情報入力処理とを異なる装置で実行することとし、コマンド及びプロパティの定義を行う機能と、アプリケーションに対する情報入力を行う機能とを異なる装置に実装することとしてもよい。
また、上述の実施形態において、データを表す単語については、同義語を特定の単語に集約することとしてもよい。例えば、「辺縁」プロパティに対するデータとして、「シャープ」という音声入力が行われた場合、同義語である「鋭利」に変換して入力すること等が可能である。
上述した一連の処理は、ハードウェアにより実行させることもできるし、ソフトウェアにより実行させることもできる。
換言すると、図2,3,8の機能的構成は例示に過ぎず、特に限定されない。即ち、上述した一連の処理を全体として実行できる機能が情報処理装置1に備えられていれば足り、この機能を実現するためにどのような機能ブロックを用いるのかは特に図2,3,8の例に限定されない。
また、1つの機能ブロックは、ハードウェア単体で構成してもよいし、ソフトウェア単体で構成してもよいし、それらの組み合わせで構成してもよい。
コンピュータは、専用のハードウェアに組み込まれているコンピュータであってもよい。また、コンピュータは、各種のプログラムをインストールすることで、各種の機能を実行することが可能なコンピュータ、例えば汎用のパーソナルコンピュータであってもよい。
また、本明細書において、システムの用語は、複数の装置や複数の手段等より構成される全体的な装置を意味するものとする。
Claims (26)
- 複数の音声認識処理を並列的に実行することにより、複数の音声認識結果を取得する音声認識手段と、
前記音声認識手段によって取得された複数の音声認識結果において、第1の音声認識結果と第2の音声認識結果とを論理演算することにより、文字列のデータを取得する論理演算手段と、
を備えることを特徴とする情報処理装置。 - 前記論理演算手段は、前記複数の音声認識結果における時間情報を用いて、前記第1の音声認識結果と前記第2の音声認識結果との論理演算を行うことを特徴とする請求項1に記載の情報処理装置。
- 前記音声認識手段は、異なる種類の音声認識処理を並列的に実行し、
前記論理演算手段は、当該音声認識処理による異なる種類の音声認識結果を論理演算することにより、前記文字列のデータを取得することを特徴とする請求項1または2に記載の情報処理装置。 - 前記音声認識手段は、ディクテーションを行う音声認識処理と、単語抽出を行う音声認識処理とを並列的に実行し、
前記論理演算手段は、前記単語抽出を行う音声認識処理の音声認識結果に基づいて、前記ディクテーションを行う音声認識処理の音声認識結果の一部を除外または置換することを特徴とする請求項1から3のいずれか1項に記載の情報処理装置。 - 前記音声認識手段は、複数の音声認識結果または前記文字列のデータが特定の音声認識処理と対応付けられている場合、当該特定の音声認識処理を実行し、前記複数の音声認識結果に代えて、当該特定の音声認識処理の結果を出力することを特徴とする請求項1から4のいずれか1項に記載の情報処理装置。
- 前記論理演算手段によって取得された文字列に基づいて、後段の処理に対する情報の入力を制御する情報入力手段をさらに備え、
前記情報入力手段は、前記音声認識結果から取得された前記文字列のデータに基づいて、表示画面に対する操作によって入力可能な情報を前記後段の処理に入力することを特徴とする請求項1から5のいずれか1項に記載の情報処理装置。 - 前記表示画面に対する操作を表すプロセスと前記音声認識処理による情報の入力のための文字列とを対応付ける操作インターフェース構築手段をさらに備え、
前記情報入力手段は、前記音声認識結果から取得された前記文字列のデータに基づいて、前記操作インターフェース構築手段によって前記文字列のデータと対応付けられた前記表示画面に対する操作を表すプロセスの実行を制御することを特徴とする請求項6に記載の情報処理装置。 - 前記音声認識手段において並列的に実行される音声認識処理を選択する選択手段をさらに備えることを特徴とする請求項1から7のいずれか1項に記載の情報処理装置。
- 前記音声認識手段は、リアルタイムに入力された音声のデータに対して、複数の前記音声認識処理を並列的に実行することにより、複数の音声認識結果を取得することを特徴とする請求項1から8のいずれか1項に記載の情報処理装置。
- 前記音声認識手段は、過去に入力されて蓄積された音声のデータに対して、複数の前記音声認識処理を並列的に実行することにより、複数の音声認識結果を取得することを特徴とする請求項1から8のいずれか1項に記載の情報処理装置。
- ユーザの制御対象装置に対する指示の発話を音声認識する音声認識手段と、
前記音声認識手段によって取得された音声認識結果を解析することにより、前記指示に対応する処理内容を取得する解析手段と、
前記音声認識手段によって取得された音声認識結果を蓄積し、設定されたタイミングで、前記解析手段によって取得された前記処理内容を自動的に実行する自動実行手段と、
を備えることを特徴とする情報処理装置。 - 前記自動実行手段は、前記制御対象装置を制御するアプリケーションを動作させることにより、当該制御対象装置を自動運転することを特徴とする請求項11に記載の情報処理装置。
- アプリケーションの入力インターフェースに対する操作のための音声を認識する音声認識手段と、
前記アプリケーションの入力インターフェースに対する操作を表す1または複数のプロセスによって構成される操作内容データを記憶する操作内容データ記憶手段と、
前記音声認識手段によって、前記操作内容データを識別する発話が認識された場合に、当該発話によって識別される前記操作内容データを前記操作内容データ記憶手段から読み出し、前記操作内容データを構成する前記1または複数のプロセスに対応する操作を前記入力インターフェースに対して実行する操作実行手段と、
を備えることを特徴とする情報処理装置。 - 1つの音声認識処理による音声認識結果に対して、異なる機能を有する複数の処理を並列的に実行することにより、複数の処理結果を取得する処理結果取得手段と、
前記処理結果取得手段によって取得された複数の処理結果において、第1の処理結果と第2の処理結果とを論理演算することにより、文字列のデータを取得する論理演算手段と、
を備えることを特徴とする情報処理装置。 - 複数の情報処理装置を含む情報処理システムであって、
前記複数の情報処理装置のいずれかに入力された音声を音声認識処理する音声認識手段と、
前記音声認識処理による音声認識結果の構文を解析する構文解析手段と、
前記構文解析手段の解析結果に基づいて、アプリケーションに対する情報の入力を制御する情報入力手段と、
前記情報入力手段による前記アプリケーションに対する情報の入力に従って、当該アプリケーションを実行するアプリケーション実行手段と、
を備えることを特徴とする情報処理システム。 - 前記情報処理システムには、複数の前記アプリケーションが実装され、
前記アプリケーション実行手段は、前記構文解析手段による構文の解析結果が、他の前記アプリケーションの実行結果を参照することを示している場合、当該他の前記アプリケーションの実行結果を参照して、実行対象の前記アプリケーションを実行することを特徴とする請求項15に記載の情報処理システム。 - 情報処理装置が実行する情報処理方法であって、
複数の音声認識処理を並列的に実行することにより、複数の音声認識結果を取得する音声認識ステップと、
前記音声認識ステップで取得された複数の音声認識結果において、第1の音声認識結果と第2の音声認識結果とを論理演算することにより、文字列のデータを取得する論理演算ステップと、
を含むことを特徴とする情報処理方法。 - ユーザのコンピュータに対する指示の発話を音声認識する音声認識ステップと、
前記音声認識ステップにおいて取得された音声認識結果を解析することにより、前記指示に対応する処理内容を取得する解析ステップと、
前記音声認識ステップにおいて取得された音声認識結果を蓄積し、設定されたタイミングで、前記解析ステップにおいて取得された前記処理内容を自動的に実行する自動実行ステップと、
を含むことを特徴とする情報処理方法。 - 情報処理装置が実行する情報処理方法であって、
アプリケーションの入力インターフェースに対する操作のための音声を認識する音声認識ステップと、
前記アプリケーションの入力インターフェースに対する操作を表す1または複数のプロセスによって構成される操作内容データの記憶を制御する操作内容データ記憶制御ステップと、
前記音声認識ステップにおいて、前記操作内容データを識別する発話が認識された場合に、当該発話によって識別される前記操作内容データを前記操作内容データ記憶制御ステップにおいて読み出し、前記操作内容データを構成する前記1または複数のプロセスに対応する操作を前記入力インターフェースに対して実行する操作実行ステップと、
を含むことを特徴とする情報処理方法。 - 1つの音声認識処理による音声認識結果に対して、異なる機能を有する複数の処理を並列的に実行することにより、複数の処理結果を取得する処理結果取得ステップと、
前記処理結果取得ステップによって取得された複数の処理結果において、第1の処理結果と第2の処理結果とを論理演算することにより、文字列のデータを取得する論理演算ステップと、
を含むことを特徴とする情報処理方法。 - 複数の情報処理装置を含む情報処理システムが実行する情報処理方法であって、
前記複数の情報処理装置のいずれかに入力された音声を音声認識処理する音声認識ステップと、
前記音声認識ステップにおける音声認識結果の構文を解析する構文解析ステップと、
前記構文解析ステップにおける解析結果に基づいて、アプリケーションに対する情報の入力を制御する情報入力ステップと、
前記情報入力ステップにおける前記アプリケーションに対する情報の入力に従って、当該アプリケーションを実行するアプリケーション実行ステップと、
を含むことを特徴とする情報処理方法。 - コンピュータに、
複数の音声認識処理を並列的に実行することにより、複数の音声認識結果を取得する音声認識機能と、
前記音声認識機能によって取得された複数の音声認識結果において、第1の音声認識結果と第2の音声認識結果とを論理演算することにより、文字列のデータを取得する論理演算機能と、
を実現させることを特徴とするプログラム。 - コンピュータに、
ユーザのコンピュータに対する指示の発話を音声認識する音声認識機能と、
前記音声認識機能によって取得された音声認識結果を解析することにより、前記指示に対応する処理内容を取得する解析機能と、
前記音声認識機能によって取得された音声認識結果を蓄積し、設定されたタイミングで、前記解析機能によって取得された前記処理内容を自動的に実行する自動実行機能と、
を実現させることを特徴とするプログラム。 - コンピュータに、
アプリケーションの入力インターフェースに対する操作のための音声を認識する音声認識機能と、
前記アプリケーションの入力インターフェースに対する操作を表す1または複数のプロセスによって構成される操作内容データを記憶する操作内容データ記憶機能と、
前記音声認識機能によって、前記操作内容データを識別する発話が認識された場合に、当該発話によって識別される前記操作内容データを前記操作内容データ記憶機能によって読み出し、前記操作内容データを構成する前記1または複数のプロセスに対応する操作を前記入力インターフェースに対して実行する操作実行機能と、
を実現させることを特徴とするプログラム。 - コンピュータに、
1つの音声認識処理による音声認識結果に対して、異なる機能を有する複数の処理を並列的に実行することにより、複数の処理結果を取得する処理結果取得機能と、
前記処理結果取得機能によって取得された複数の処理結果において、第1の処理結果と第2の処理結果とを論理演算することにより、文字列のデータを取得する論理演算機能と、
を実現させることを特徴とするプログラム。 - 複数の情報処理装置を含む情報処理システムを構成するコンピュータに、
前記複数の情報処理装置のいずれかに入力された音声を音声認識処理する音声認識機能と、
前記音声認識機能による音声認識結果の構文を解析する構文解析機能と、
前記構文解析機能の解析結果に基づいて、アプリケーションに対する情報の入力を制御する情報入力機能と、
前記情報入力機能による前記アプリケーションに対する情報の入力に従って、当該アプリケーションを実行するアプリケーション実行機能と、
を実現させることを特徴とするプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021111146A JP2023007960A (ja) | 2021-07-02 | 2021-07-02 | 情報処理装置、情報処理システム、情報処理方法及びプログラム |
JP2023152926A JP7565137B2 (ja) | 2021-07-02 | 2023-09-20 | 情報処理装置、情報処理システム、情報処理方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021111146A JP2023007960A (ja) | 2021-07-02 | 2021-07-02 | 情報処理装置、情報処理システム、情報処理方法及びプログラム |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023152926A Division JP7565137B2 (ja) | 2021-07-02 | 2023-09-20 | 情報処理装置、情報処理システム、情報処理方法及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023007960A true JP2023007960A (ja) | 2023-01-19 |
Family
ID=85112494
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021111146A Pending JP2023007960A (ja) | 2021-07-02 | 2021-07-02 | 情報処理装置、情報処理システム、情報処理方法及びプログラム |
JP2023152926A Active JP7565137B2 (ja) | 2021-07-02 | 2023-09-20 | 情報処理装置、情報処理システム、情報処理方法及びプログラム |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023152926A Active JP7565137B2 (ja) | 2021-07-02 | 2023-09-20 | 情報処理装置、情報処理システム、情報処理方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (2) | JP2023007960A (ja) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003140691A (ja) * | 2001-11-07 | 2003-05-16 | Hitachi Ltd | 音声認識装置 |
JP2004198831A (ja) * | 2002-12-19 | 2004-07-15 | Sony Corp | 音声認識装置および方法、プログラム、並びに記録媒体 |
JP2005202165A (ja) * | 2004-01-15 | 2005-07-28 | Advanced Media Inc | 音声認識システム |
JP2010055044A (ja) * | 2008-04-22 | 2010-03-11 | Ntt Docomo Inc | 音声認識結果訂正装置および音声認識結果訂正方法、ならびに音声認識結果訂正システム |
JP2019079071A (ja) * | 2019-01-28 | 2019-05-23 | 日本電信電話株式会社 | 音声認識装置、音声認識方法及び音声認識プログラム |
WO2019142419A1 (ja) * | 2018-01-22 | 2019-07-25 | ソニー株式会社 | 情報処理装置および情報処理方法 |
JP2020016839A (ja) * | 2018-07-27 | 2020-01-30 | 富士通株式会社 | 音声認識装置、音声認識プログラムおよび音声認識方法 |
KR20200053242A (ko) * | 2018-11-08 | 2020-05-18 | 현대자동차주식회사 | 차량용 음성 인식 시스템 및 그 제어 방법 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013061793A (ja) | 2011-09-13 | 2013-04-04 | Advanced Media Inc | 入力支援装置、入力支援方法、および入力支援プログラム |
JP2019197420A (ja) | 2018-05-10 | 2019-11-14 | トヨタ自動車株式会社 | 音声認識型検索システム |
JP7375427B2 (ja) | 2019-09-27 | 2023-11-08 | コニカミノルタ株式会社 | 音声設定システム、音声設定支援プログラムおよび音声設定支援装置 |
-
2021
- 2021-07-02 JP JP2021111146A patent/JP2023007960A/ja active Pending
-
2023
- 2023-09-20 JP JP2023152926A patent/JP7565137B2/ja active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003140691A (ja) * | 2001-11-07 | 2003-05-16 | Hitachi Ltd | 音声認識装置 |
JP2004198831A (ja) * | 2002-12-19 | 2004-07-15 | Sony Corp | 音声認識装置および方法、プログラム、並びに記録媒体 |
JP2005202165A (ja) * | 2004-01-15 | 2005-07-28 | Advanced Media Inc | 音声認識システム |
JP2010055044A (ja) * | 2008-04-22 | 2010-03-11 | Ntt Docomo Inc | 音声認識結果訂正装置および音声認識結果訂正方法、ならびに音声認識結果訂正システム |
WO2019142419A1 (ja) * | 2018-01-22 | 2019-07-25 | ソニー株式会社 | 情報処理装置および情報処理方法 |
JP2020016839A (ja) * | 2018-07-27 | 2020-01-30 | 富士通株式会社 | 音声認識装置、音声認識プログラムおよび音声認識方法 |
KR20200053242A (ko) * | 2018-11-08 | 2020-05-18 | 현대자동차주식회사 | 차량용 음성 인식 시스템 및 그 제어 방법 |
JP2019079071A (ja) * | 2019-01-28 | 2019-05-23 | 日本電信電話株式会社 | 音声認識装置、音声認識方法及び音声認識プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP2023168391A (ja) | 2023-11-24 |
JP7565137B2 (ja) | 2024-10-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1366490B1 (en) | Hierarchichal language models | |
US20140358537A1 (en) | System and Method for Combining Speech Recognition Outputs From a Plurality of Domain-Specific Speech Recognizers Via Machine Learning | |
CN104969288A (zh) | 基于话音记录日志提供话音识别系统的方法和系统 | |
CN104299623A (zh) | 语音应用中用于自动确认和消歧模块的方法和系统 | |
CN115392264A (zh) | 一种基于rasa的任务型智能多轮对话方法及相关设备 | |
JP2021144218A (ja) | 音声対話再構成方法及び装置 | |
Song et al. | Speech-to-SQL: toward speech-driven SQL query generation from natural language question | |
Wang et al. | A research on HMM based speech recognition in spoken English | |
CN113555133A (zh) | 一种医疗问诊数据处理方法和装置 | |
CN116564286A (zh) | 语音录入方法、装置、存储介质及电子设备 | |
JP7565137B2 (ja) | 情報処理装置、情報処理システム、情報処理方法及びプログラム | |
Hu et al. | Automatic analysis of speech prosody in Dutch | |
CN116978381A (zh) | 音频数据处理方法、装置、计算机设备和存储介质 | |
CN112017647B (zh) | 一种结合语义的语音识别方法、装置和系统 | |
OUKAS et al. | ArabAlg: A new Dataset for Arabic Speech Commands Recognition for Machine Learning Purposes | |
JP7560627B2 (ja) | 情報処理システム、情報処理方法及びプログラム | |
JP7511623B2 (ja) | 情報処理装置、情報処理システム、情報処理方法及びプログラム | |
Abdildayeva et al. | Voice Recognition Methods and Modules for the Development of an Intelligent Virtual Consultant Integrated with WEB-ERP | |
CN112820274B (zh) | 一种语音信息识别校正方法和系统 | |
Ghadekar et al. | ASR for Indian regional language using Nvidia’s NeMo toolkit | |
JP7166370B2 (ja) | 音声記録のための音声認識率を向上させる方法、システム、およびコンピュータ読み取り可能な記録媒体 | |
JP2000242642A (ja) | 翻訳処理方法及び翻訳処理装置 | |
Wanumen et al. | Architectural approaches for phonemes recognition systems | |
CN113889112A (zh) | 一种基于kaldi的在线语音识别的方法 | |
CN118394903A (zh) | 一种基于大语言模型的对话情感识别系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221027 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20221027 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230124 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230324 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20230620 |