JP2022070016A

JP2022070016A - 音声処理装置、音声処理方法、およびプログラム

Info

Publication number: JP2022070016A
Application number: JP2020179017A
Authority: JP
Inventors: 卓中田; Taku Nakada; 優香圓城寺; Yuka Enjoji; 恵里加越野; Erika Koshino; 崇山下; Takashi Yamashita
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2020-10-26
Filing date: 2020-10-26
Publication date: 2022-05-12
Anticipated expiration: 2040-10-26
Also published as: JP7160077B2; US20220130373A1

Abstract

【課題】複数の言語で入力されうる音声データを正確に音声認識できる音声処理装置、音声処理方法及びプログラムを提供する。【解決手段】音声処理装置１０において、識別部１１は、入力された前記音声データに含まれる１又は複数の単語を認識し、認識された１又は複数の単語が属する言語を判定することによって、入力された音声データの言語を識別する。認識部１２は、互いに異なる言語に関する複数の音声認識エンジンのうち、識別した言語と対応する音声認識エンジンを用いて、入力された音声データを文字列データに変換する。【選択図】図１

Description

本発明は、音声処理装置、音声処理方法、およびプログラムに関し、特に、入力された音声データを文字列データに変換する音声処理装置、音声処理方法、およびプログラムに関する。

人々の移動および物流の手段として、航空機の需要が増大している。航空インフラは社会に不可欠である。航空管制システムは、航空機が安全かつ効率的な運航を行うために、航空管制官（以下、単に管制官と呼ぶ）に対して、さまざまな航空情報を提供する。

平常、複数の航空機が空港を離着陸している。管制官は、状況を瞬時に判断し、各航空機のパイロットに対し、的確な指示を出す必要がある。特許文献１は、管制官が航空管制をより早くかつ適切に行えるように、複数の管制官の間で、情報を共有させる航空管制支援装置を開示している。

管制官が、パイロットに対して、何をどのように指示したのかを第三者が確認できる必要がある。特許文献２は、航空管制の専門用語を認識できるように学習した音声認識エンジンを使用して、音声入力装置によって、管制官の音声から音声データを生成し、さらに音声データを文字列データに変換して、保存するシステムを開示している。特許文献３は、英語ネイティブの音声データ、および、非ネイティブの音声データを用いて学習した音声認識エンジンによって、英語の音声認識の精度を向上させる技術が開示されている。

特開2006-172214号公報特表2019-535034号公報特開2011-227129号公報

管制官は、英語と母国語（日本語）とを織り交ぜて話す場合がある。例えば、管制官が、母国の航空会社のパイロットと会話する場合である。このような場合、特許文献２および特許文献３に記載の関連する技術では、音声認識エンジンが機能せず、入力された音声データの一部を文字列データに変換することに失敗する可能性がある。

本発明は、上記の課題を解決するためになされたものであり、その目的は、複数の言語で入力されうる音声データを正確に音声認識することにある。

本発明の一態様に係わる音声処理装置は、入力された音声データの言語を識別する識別手段と、互いに異なる言語に関する複数の音声認識エンジンのうち、識別した前記言語と対応する音声認識エンジンを用いて、入力された前記音声データを文字列データに変換する認識手段とを備えている。

本発明の一態様に係わる音声処理方法は、入力された音声データの言語を識別し、互いに異なる言語に関する複数の音声認識エンジンのうち、識別した前記言語と対応する音声認識エンジンを用いて、入力された前記音声データを文字列データに変換する。

本発明の一態様に係わるプログラムは、入力された音声データの言語を識別し、互いに異なる言語に関する複数の音声認識エンジンのうち、識別した前記言語と対応する音声認識エンジンを用いて、入力された前記音声データを文字列データに変換することをコンピュータに実行させる。

本発明の一態様によれば、複数の言語で入力されうる音声データを正確に音声認識することができる。

実施形態１に係わる音声処理装置の構成を示すブロック図である。実施形態１に係わる音声処理装置の動作を示すフローチャートである。実施形態２に係わる音声処理装置の構成を示すブロック図である。実施形態２に係わる音声処理装置の動作を示すフローチャートである。実施形態３に係わるシステムの構成を概略的に示す図である。実施形態３に係わるシステムの各部の動作を示すシーケンス図である。実施形態１または２に係わる音声処理装置のハードウェア構成を示す図である。

本発明を実施するためのいくつかの実施形態の具体例を、以下で説明する。

〔実施形態１〕
図１から図２までを参照して、実施形態１について説明する。

（音声処理装置１０の構成）
図１は、本実施形態１に係わる音声処理装置１０の構成を示すブロック図である。図１に示すように、音声処理装置１０は、識別部１１および認識部１２を備えている。

識別部１１は、入力された音声データの言語を識別する。例えば、識別部１１は、入力された音声データの言語が英語及び日本語のどちらであるかを識別する。識別部１１は、識別手段の一例である。

一例では、識別部１１は、マイクロフォンなどの音声入力装置に入力された時系列の音声データを取得する。識別部１１は、所定の時間ごとに、時系列の音声データに含まれる1または複数の単語を認識し、認識された1または複数の単語が属する言語を判定することによって、音声データの言語を識別する。識別部１１が、入力された音声データに含まれる1または複数の単語を認識する手法は、特に限定されない。一例では、識別部１１は、後述する認識部１２が入力された音声データを文字列データに変換するために用いる手法と同じ手法を用いてもよい。

一例では、識別部１１は、入力された音声データのうち、識別した１または複数の単語から始まる所定の時間幅の音声データを、認識部１２に出力する。加えて、識別部１１は、入力された音声データの言語の識別結果として、識別された言語を示す情報を認識部１２に出力する。なお、所定の時間幅は、識別部１１が音声データの言語を識別する頻度（すなわち上述の所定の時間）と対応する。

認識部１２は、互いに異なる言語に関する複数の音声認識エンジンのうち、識別部１１によって識別された言語と対応する音声認識エンジンを用いて、入力された音声データを文字列データに変換する。認識部１２は、認識手段の一例である。

一例では、認識部１２は、入力された音声データから、音素の特徴を抽出する。具体的に、認識部１２は入力された音声データを、所定の時間長をもつフレーム単位毎の特徴ベクトルの時系列に変換（例えば；fast Fourier transform, FFT）する。このフレーム単位の特徴ベクトルを、音素の特徴と呼ぶ。１フレームの時間は、例えば、１０ｍｓから１００ｍｓ程度である。

また、認識部１２は、識別部１１から、入力された音声データの言語の識別結果として、識別された言語を示す情報を受信する。認識部１２は、識別された言語を示す情報を用いて、識別された言語の音響モデルを参照する。

認識部１２は、予め準備した学習用データに基づいて生成された音響モデルを用いる。音響モデルは、特定の言語に含まれる音素がそれぞれどのような周波数特性を持っているかを表したものである。音響モデルは、例えば、隠れマルコフモデルである。

例えば、音響モデルは、音声処理装置１０の図示しないプロセッサにより読み出されるメモリに格納されている。メモリには、音響モデルとして、すべての音素の特徴（すべて音素のフレーム単位の特徴ベクトル）が格納される。このような構成において、認識部１２は、入力された音声データから抽出された音素の特徴と、音響モデルとしてメモリに蓄積された各音素の特徴とを比較する。

そして、認識部１２は、入力された音声データから抽出された音素の特徴と最も類似する音素を検出し、その音素に対応する文字データを、入力された音声データから抽出された音素の認識結果として出力する。一例では、認識部１２は、音声データを認識することで得られた音素の文字列データを、図示しない記憶装置に保存する。あるいは、認識部１２は、得られた文字列データを、図示しない表示デバイスの画面に表示してもよい。

上述のように、一例では、識別部１１は、所定の時間ごとに、時系列の音声データの言語を識別する。ところが、時系列の音声データの言語が時間変化する場合がある。この場合、識別部１１によって識別される音声データの言語も変化することになる。認識部１２は、識別部１１によって識別される音声データの言語が変化したことを契機（トリガー）として、音声データを認識するために使用する音声認識エンジンを切り替える。

（音声処理装置１０の動作）
図２を参照して、本実施形態２に係わる音声処理装置１０の動作を説明する。図２は、音声処理装置１０の各部が実行する処理の流れを示すフローチャートである。

図２に示すように、識別部１１は、入力された音声データの言語を識別する（Ｓ１）。識別部１１は、入力された音声データの言語の識別結果として、識別された言語を示す情報を認識部１２に出力する。

次に、認識部１２は、互いに異なる言語に関する複数の音声認識エンジンのうち、識別部１１によって識別された言語と対応する音声認識エンジンを用いて、入力された音声データを文字列データに変換する（Ｓ２）。認識部１２は、入力された音声データの認識結果として、音声データから変換された文字列データを出力する。例えば、認識部１２は、ユーザが使用する端末（図示せず）の画面に、音声データから変換された文字列データを表示する。

なお、ステップＳ１からＳ２までの処理が繰り返される場合において、識別部１１によって識別される音声データの言語が変化した場合、認識部１２は、それに対応して、音声データを認識するために使用する音声認識エンジンを切り替える。

以上で、本実施形態１に係わる音声処理装置１０の動作は終了する。

（本実施形態の効果）
本実施形態の構成によれば、識別部１１は、入力された音声データの言語を識別する。認識部１２は、互いに異なる言語に関する複数の音声認識エンジンのうち、識別した言語と対応する音声認識エンジンを用いて、入力された音声データを文字列データに変換する。入力される音声データの言語が予め特定されていない場合がある。より詳細には、話者が複数の言語を使って、音声データを入力する場合がある。このような場合、音声処理装置１０は、音声データの言語を識別した後、識別した言語と対応する音声認識エンジンを用いて、入力された音声データを文字列データに変換する。このため、複数の言語で入力されうる音声データを正確に音声認識することができる。

〔実施形態２〕
図３から図４までを参照して、実施形態２について説明する。

管制官は、パイロットに対し、的確な指示を出さなければならない。パイロットへの指示は、管制官の個人の判断に任されている。管制官には、状況を瞬時に判断する能力が要求される。ミスまたは事故を未然に防ぐために、管制官の精神的および肉体的な負荷を低減する技術が要望されている。

（音声処理装置２０の構成）
図３は、本実施形態２に係わる音声処理装置２０の構成を示すブロック図である。図３に示すように、音声処理装置２０は、識別部１１および認識部１２に加えて、制御部２３をさらに備えている。本実施形態２では、前記実施形態１の説明を引用して、識別部１１および認識部１２についての説明を省略する。

制御部２３は、識別した言語と対応する言語解析エンジンによる文字列データの解析結果に基づいて、外部機器または外部システムを制御する。制御部２３は、制御手段の一例である。

例えば、制御部２３は、認識部１２から、入力された音声データの認識結果として、音声データから変換された文字列データを受信する。そして、制御部２３は、識別部１１が識別した言語と対応する言語解析エンジンを用いて、文字列データを解析することによって、入力された音声データの意味を推測する。言語解析エンジンは、制御部23の中に備えられていてもよいし、あるいは、音声処理装置２０と接続されるコンピュータまたはデータベース管理システムに備えられていてもよい。

一例では、制御部２３は、文字列データの解析結果が示す音声データの意味が、指示の入力に関する基準に反する場合、外部機器に警告を提示するか、または外部システムに警告を通知する。指示の入力に関する基準は、ユーザが指示を述べるときに順守しなければならないルールを定めており、基準の内容には、語句の順序、使用してもよい語句の制限、言い回し、および専門用語が含まれる。

他の例では、制御部２３は、第1の文字列データの解析結果が示す第1の音声データの意味が、第2の文字列データの解析結果が示す第2の音声データの意味と矛盾する場合、外部機器に警告を提示するか、または外部システムに警告を通知する。ここで、第１の文字列データおよび第２の文字列データは、どちらも、認識部１２によって、時系列の音声データの異なる時間範囲を音声認識した結果として得られる。第１の文字列データは、第２の文字列データよりも、後の時間に入力された音声データから変換される。一例では、ユーザは、他のユーザが入力した指示を復唱する。この場合、制御部２３は、第１の文字列と、第２の文字列とが一致するかどうか、または、第１の文字列に含まれる語句と、第２の文字列に含まれる語句とが一致するかどうかを判定する。一致しないという判定の結果が得られた場合、制御部２３は、外部機器に警告を提示するか、または外部システムに警告を通知する。

さらに他の例では、制御部２３は、文字列データの解析結果が示す音声データの意味に基づいて、音声による指示と対応するコンピュータプログラムを生成し、それをコンパイルして、外部システムにコマンドを送信してもよい。

制御部２３が外部機器または外部システムに対して実行する制御は、上記の例に限定されない。制御部２３は、音声により指示を入力するユーザを補助したり、ユーザが指示を顧みることができるようにしたりする用途で、任意に機能してよい。

（音声処理装置２０の動作）
図４を参照して、本実施形態２に係わる音声処理装置２０の動作を説明する。図４は、音声処理装置２０の各部が実行する処理の流れを示すフローチャートである。

図４に示すように、識別部１１は、一例では所定の時間ごとに、入力された音声データの言語を識別する（Ｓ１０１）。識別部１１は、入力された音声データを認識部１２に出力する。加えて、識別部１１は、入力された音声データの言語の識別結果として、識別された言語を示す情報を認識部１２に出力する。

次に、認識部１２は、互いに異なる言語に関する複数の音声認識エンジンのうち、識別した言語と対応する音声認識エンジンを用いて、入力された音声データを文字列データに変換する（Ｓ１０２）。認識部１２は、入力された音声データを制御部２３に出力する。加えて、認識部１２は、入力された音声データの認識結果として、音声データから変換された文字列データを、制御部２３に出力する。本実施形態２のステップＳ１０１からＳ１０２までは、前記実施形態１のステップＳ１からＳ２までと対応する。

制御部２３は、識別した言語と対応する言語解析エンジンによる文字列データの解析結果に基づいて、外部機器（例えば、図３の端末２００、サーバ３００）または外部システムを制御する（Ｓ１０３）。

以上で、本実施形態２に係わる音声処理装置２０の動作は終了する。

（本実施形態の効果）
本実施形態の構成によれば、識別部１１は、入力された音声データの言語を識別する。認識部１２は、互いに異なる言語に関する複数の音声認識エンジンのうち、識別した言語と対応する音声認識エンジンを用いて、入力された音声データを文字列データに変換する。入力される音声データの言語が予め特定されていない場合がある。より詳細には、話者が複数の言語を使って、音声データを入力する場合がある。このような場合、音声処理装置２０は、音声データの言語を識別した後、識別した言語と対応する音声認識エンジンを用いて、入力された音声データを文字列データに変換する。このため、複数の言語で入力されうる音声データを正確に音声認識することができる。

さらに、本実施形態の構成によれば、制御部２３は、識別した言語と対応する言語解析エンジンによる文字列データの解析結果に基づいて、外部機器または外部システムを制御する。一例では、制御部２３は、文字列データの解析結果が示す音声データの意味が、指示の入力に関する基準に反する場合、外部機器に警告を提示するか、または外部システムに警告を通知する。他の例では、制御部２３は、第1の文字列データの解析結果が示す第1の音声データの意味が、第2の文字列データの解析結果が示す第2の音声データの意味と矛盾する場合、外部機器に警告を提示するか、または外部システムに警告を通知する。これにより、音声により指示を入力するユーザを補助したり、ユーザが指示を顧みることができるようにしたりすることができる。

〔実施形態３〕
図５から図６までを参照して、実施形態３について説明する。

本実施形態３では、前記実施形態２において説明した音声処理装置２０を備えたシステム１の構成の一例を説明する。

（システム１）
図５は、本実施形態３に係わるシステム１の構成を概略的に示す図である。図５に示すように、システム１は、音声処理装置２０、端末２００、及びサーバ３００を備えている。

音声処理装置２０は、前記実施形態２において説明した構成を備えている。すなわち、音声処理装置２０は、識別部１１、認識部１２、および制御部２３を備えている。

端末２００は、管制官（ユーザ）が音声による指示を行うために使用される。端末２００は、音声による指示から音声データを生成し、音声処理装置２０に音声データを入力する。端末２００は、音声入力装置の一例である。

サーバ３００は、音声データから変換された文字列データを記憶する。サーバ３００は、外部記憶装置の一例である。サーバ３００と、端末２００および音声処理装置２０との間は、ネットワークを介して、通信可能に接続されている。

（システム１の動作）
図６を参照して、本実施形態３に係わるシステム１の動作を説明する。図６は、システム１の各部が実行する工程を示すシーケンス図である。

図６に示すように、端末２００は、音声による指示から音声データを生成する（Ｐ１）。

端末２００は、生成した音声データを音声処理装置２０へ送信する（Ｐ２）。

音声処理装置２０は、端末２００から入力された音声データを、文字列データに変換する（Ｐ３）。

音声処理装置２０は、音声データから変換された文字列データを、サーバ３００に送信する（Ｐ４）。

サーバ３００は、音声データから変換された文字列データを受信して、文字列データを記憶する（Ｐ５）。

以上で、本実施形態３に係わるシステム１の動作は終了する。

（変形例）
一変形例では、システム１は、本実施形態２に係わる音声処理装置２０に代えて、前記実施形態１に係わる音声処理装置１０（図１）を備えていてもよい。本変形例では、音声処理装置１０の識別部１１は、端末２００から、音声データを受信して、受信した音声データを識別する。例えば、制御部２３は、識別部１１による音声データの識別結果として、音声データの言語を示す情報（例えば、「英語」または「日本語」）を、端末２００の画面に表示する。

（本実施形態の効果）
本実施形態の構成によれば、端末２００は、音声データを入力する。音声処理装置２０（あるいは１０）は、複数の言語で入力されうる音声データを正確に音声認識する。サーバ３００は、音声データから変換された文字列データを記憶する。これにより、音声により指示を入力するユーザを補助したり、ユーザが指示を顧みることができるようにしたりすることができる。

〔ハードウェア構成について〕
前記実施形態１～２で説明した音声処理装置１０、２０の各構成要素は、機能単位のブロックを示している。これらの構成要素の一部又は全部は、例えば図７に示すような情報処理装置９００により実現される。図７は、情報処理装置９００のハードウェア構成の一例を示すブロック図である。

図７に示すように、情報処理装置９００は、一例として、以下のような構成を含む。

・ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）９０１
・ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）９０２
・ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）９０３
・ＲＡＭ９０３にロードされるプログラム９０４
・プログラム９０４を格納する記憶装置９０５
・記録媒体９０６の読み書きを行うドライブ装置９０７
・通信ネットワーク９０９と接続する通信インタフェース９０８
・データの入出力を行う入出力インタフェース９１０
・各構成要素を接続するバス９１１
前記実施形態１～２で説明した音声処理装置１０、２０の各構成要素は、これらの機能を実現するプログラム９０４をＣＰＵ９０１が読み込んで実行することで実現される。各構成要素の機能を実現するプログラム９０４は、例えば、予め記憶装置９０５やＲＯＭ９０２に格納されており、必要に応じてＣＰＵ９０１がＲＡＭ９０３にロードして実行される。なお、プログラム９０４は、通信ネットワーク９０９を介してＣＰＵ９０１に供給されてもよいし、予め記録媒体９０６に格納されており、ドライブ装置９０７が当該プログラムを読み出してＣＰＵ９０１に供給してもよい。

上記の構成によれば、前記実施形態において説明した音声処理装置１０、２０が、ハードウェアとして実現される。したがって、前記実施形態において説明した効果と同様の効果を奏することができる。

〔付記〕
本発明の一態様は以下の例のように記載されうるが、以下の例に限られない。

（付記１）
入力された音声データの言語を識別する識別手段と、
互いに異なる言語に関する複数の音声認識エンジンのうち、識別した前記言語と対応する音声認識エンジンを用いて、入力された前記音声データを文字列データに変換する認識手段とを備えた
音声処理装置。

（付記２）
識別した前記言語と対応する言語解析エンジンによる前記文字列データの解析結果に基づいて、外部機器または外部システムを制御する制御手段をさらに備えた
ことを特徴とする付記１に記載の音声処理装置。

（付記３）
前記制御手段は、前記文字列データの解析結果が示す前記音声データの意味が、指示の入力に関する基準に反する場合、前記外部機器に警告を提示するか、または前記外部システムに警告を通知する
ことを特徴とする付記２に記載の音声処理装置。

（付記４）
前記制御手段は、第1の文字列データの解析結果が示す第1の音声データの意味が、第2の文字列データの解析結果が示す第2の音声データの意味と矛盾する場合、前記外部機器に警告を提示するか、または前記外部システムに警告を通知する
ことを特徴とする付記２に記載の音声処理装置。

（付記５）
前記識別手段は、入力された前記音声データに含まれる1または複数の単語を認識し、認識された前記1または複数の単語が属する言語を判定することによって、前記音声データの言語を識別する
ことを特徴とする付記１から４のいずれか１項に記載の音声処理装置。

（付記６）
前記認識手段は、識別された前記音声データの言語が変化したことを契機として、前記音声データを認識するために使用する音声認識エンジンを切り替える
ことを特徴とする付記１から５のいずれか１項に記載の音声処理装置。

（付記７）
前記識別手段は、入力された前記音声データの言語が英語及び日本語のどちらであるかを識別する
ことを特徴とする付記１から６のいずれか１項に記載の音声処理装置。

（付記８）
入力された音声データの言語を識別し、
互いに異なる言語に関する複数の音声認識エンジンのうち、識別した前記言語と対応する音声認識エンジンを用いて、入力された前記音声データを文字列データに変換する
音声処理方法。

（付記９）
入力された音声データの言語を識別し、
互いに異なる言語に関する複数の音声認識エンジンのうち、識別した前記言語と対応する音声認識エンジンを用いて、入力された前記音声データを文字列データに変換する
ことをコンピュータに実行させるためのプログラム。

（付記１０）
付記１から７のいずれか１項に記載の音声処理装置と、
前記音声データを入力する音声入力装置と、
前記音声データから変換された前記文字列データを記憶する外部記憶装置と
を備えたシステム。

（付記１１）
前記外部記憶装置は、前記音声入力装置から取得した前記音声データと、前記音声データから変換された前記文字列データとを紐づけて記憶する
ことを特徴とする付記１０に記載のシステム。

本発明は、例えば、航空管制システムに利用することができる。より一般的に、音声認識エンジンを利用しうる産業、例えば、警察、税関、および観光業などにおいて、本発明は利用されうる。

１システム
１０音声処理装置
１１識別部
１２認識部
２０音声処理装置
２３制御部
２００端末（音声入力装置）
３００サーバ（外部記憶装置）

Claims

入力された音声データの言語を識別する識別手段と、
互いに異なる言語に関する複数の音声認識エンジンのうち、識別した前記言語と対応する音声認識エンジンを用いて、入力された前記音声データを文字列データに変換する認識手段とを備えた
音声処理装置。
識別した前記言語と対応する言語解析エンジンによる前記文字列データの解析結果に基づいて、外部機器または外部システムを制御する制御手段をさらに備えた
ことを特徴とする請求項１に記載の音声処理装置。
前記制御手段は、前記文字列データの解析結果が示す前記音声データの意味が、指示の入力に関する基準に反する場合、前記外部機器に警告を提示するか、または前記外部システムに警告を通知する
ことを特徴とする請求項２に記載の音声処理装置。
前記制御手段は、第1の文字列データの解析結果が示す第1の音声データの意味が、第2の文字列データの解析結果が示す第2の音声データの意味と矛盾する場合、前記外部機器に警告を提示するか、または前記外部システムに警告を通知する
ことを特徴とする請求項２に記載の音声処理装置。
前記識別手段は、入力された前記音声データに含まれる1または複数の単語を認識し、認識された前記1または複数の単語が属する言語を判定することによって、前記音声データの言語を識別する
ことを特徴とする請求項１から４のいずれか１項に記載の音声処理装置。
前記認識手段は、識別された前記音声データの言語が変化したことを契機として、前記音声データを認識するために使用する音声認識エンジンを切り替える
ことを特徴とする請求項１から５のいずれか１項に記載の音声処理装置。
前記識別手段は、入力された前記音声データの言語が英語及び日本語のどちらであるかを識別する
ことを特徴とする請求項１から６のいずれか１項に記載の音声処理装置。
入力された音声データの言語を識別し、
互いに異なる言語に関する複数の音声認識エンジンのうち、識別した前記言語と対応する音声認識エンジンを用いて、入力された前記音声データを文字列データに変換する
音声処理方法。
入力された音声データの言語を識別し、
互いに異なる言語に関する複数の音声認識エンジンのうち、識別した前記言語と対応する音声認識エンジンを用いて、入力された前記音声データを文字列データに変換する
ことをコンピュータに実行させるためのプログラム。
請求項１から７のいずれか１項に記載の音声処理装置と、
前記音声データを前記音声処理装置に入力する音声入力装置と、
前記音声データから変換された前記文字列データを記憶する外部記憶装置と
を備えたシステム。