JP2000206985A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JP2000206985A
JP2000206985A JP11006899A JP689999A JP2000206985A JP 2000206985 A JP2000206985 A JP 2000206985A JP 11006899 A JP11006899 A JP 11006899A JP 689999 A JP689999 A JP 689999A JP 2000206985 A JP2000206985 A JP 2000206985A
Authority
JP
Japan
Prior art keywords
voice
channel
acoustic model
voice recognition
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP11006899A
Other languages
English (en)
Inventor
Hiroaki Momose
裕明 百瀬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Olympus Corp
Original Assignee
Olympus Optical Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Olympus Optical Co Ltd filed Critical Olympus Optical Co Ltd
Priority to JP11006899A priority Critical patent/JP2000206985A/ja
Publication of JP2000206985A publication Critical patent/JP2000206985A/ja
Withdrawn legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】高い認識率での音声認識処理を容易に実現する
音声認識装置を提供する。 【解決手段】音声入力端子7に入力された音声が何れの
チャンネルに係る音声であるかを第2CPU2で検出
し、該検出されたチャンネルに対応する音響モデルを記
憶装置3に設定された所定の音響モデルより抽出し、こ
れに基づいて第1CPU1で音声認識処理を行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識装置、詳
しくは、複数の音声を識別する音声認識装置に関する。
【0002】
【従来の技術】従来、音声等の音源をデジタル信号に変
換して記録する、いわゆるデジタル音声録音装置が提案
されており、また、近年、このようなデジタル音声録音
装置で録音した音声データをパーソナルコンピューター
等で取り込み、音声認識ソフトウェアを用いて音声認識
を行う音声認識システムも知られるところにある。
【0003】またこのような音声認識の方式としては、
音声認識を行う対象により、特定話者音声認識と不特定
話者音声認識とが知られている。そして、特定話者音声
認識では、認識対象となる話者自身の音声を音響モデル
の学習に用いるため正確なモデルを作成でき、音響的特
徴量の異なる多人数の音声を学習に用いる不特定話者モ
デルに比べて高い認識性能が期待できる。
【0004】一方、近年、このような特定話者の音響モ
デルを複数登録し、認識対象に応じて手動で選択して音
声認識を行う音声認識装置(第1の例)が提案されてい
る。この音声認識装置によれば、複数の話者音響モデル
を登録して、必要に応じて切り替えることができ、不特
定話者の音響モデルをもつ音声認識装置に比べて高い認
識率を得ることができる。
【0005】さらに、特開平7−261785号公報に
は、不特定話者モデルを用いて入力された文字列からな
る発声音声文を認識し、その結果と発声音声文によって
登録されている複数の話者の音響モデルから最適な音響
モデルを選択することが可能な音声認識装置(第2の
例)が開示されている。
【0006】
【発明が解決しようとする課題】しかしながら、上述の
第1の例に係る音声認識装置では手動で話者モデルを選
択しなければならず、この選択操作に手間がかかるとい
う問題点があった。
【0007】また、上記特開平07−261785号公
報に開示されたような音声認識装置(第2の例)では、
自動的に最適な音響モデルを設定するのに、少なくとも
一度は音声認識処理を行う必要があり、処理量が増加し
てしまうと共に時間がかかってしまうという問題点があ
った。
【0008】本発明はかかる問題点に鑑みてなされたも
のであり、高い認識率での音声認識処理を容易に実現す
る音声認識装置を提供することを目的とする。
【0009】
【課題を解決するための手段】上記の目的を達成するた
めに本発明の第1の音声認識装置は、複数の話者に対応
する音響モデルを記憶可能とする記憶手段と、上記記憶
手段からチャンネル毎に所定の音響モデルを設定する音
響モデル設定手段と、複数のチャンネルの音声が入力可
能な音声入力手段と、上記音声入力手段に入力された音
声が、該音声入力手段における複数のチャンネルのうち
の何れのチャンネルから入力された音声であるかを検出
するチャンネル検出手段と、上記チャンネル検出手段に
よって検出されたチャンネルから入力された音声を、該
検出されたチャンネルに対応する、上記音響モデル設定
手段で設定された所定の音響モデルに基づいて音声認識
処理を行う音声認識処理手段と、を具備したことを特徴
とする。
【0010】上記の目的を達成するために本発明の第2
の音声認識装置は、上記第1の音声認識装置において、
上記音声入力手段は、該音声入力手段におけるチャンネ
ル数に対応するチャンネル数の音声記録が可能な記録媒
体に記録された音声を入力するものであることを特徴と
する。
【0011】
【発明の実施の形態】以下、図面を参照して本発明の実
施の形態を説明する。
【0012】図1は、本発明の一実施形態である音声認
識装置の構成を示したブロック図である。
【0013】本第1の実施形態では、音声認識装置とし
てパーソナルコンピュータ等のコンピュータ10を採用
する。このコンピュータ10は音声入力手段として2チ
ャンネルのステレオ音声が入力可能な音声入力端子7を
備えており、オーディオ用接続コード等を介して外部の
音声出力機器と接続されるようになっている。なお、本
実施形態においては、2チャンネルの入力端子としたが
これに限らず、入力チャンネル数は必要に応じてそれ以
上の複数であってもよい。
【0014】図1に示すように、本第1の実施形態の音
声認識装置(コンピュータ10)は、2チャンネルの音
声入力端子7と、各々の音声入力端子からの音声信号を
第2CPU2の制御下にA/D変換するA/Dコンバー
タ4と、このA/Dコンバータ4のA/D変換処理を制
御すると共に音声入力端子7における音声入力チャンネ
ルを検出する第2CPU2と、音響モデル設定手段、音
声認識処理手段の構成要素である第1CPU1と、該第
1CPU1により認識した結果を表示可能な表示装置5
と、当該音声認識装置における必要な操作を行う操作部
6と、種々の音声認識情報を有する記憶装置3と、第1
CPU1の制御下に入力された音声に係るデータを記録
するメモリ8と、で構成される。
【0015】上述の如く、第1CPU1は、上記記憶装
置3からチャンネル毎に所定の音響モデルを設定する音
響モデル設定手段、音声を入力するチャンネルに対応し
た音響モデルに基づいての音声認識処理手段の役目を果
たし、第2CPU2は、音声を入力した際、音声入力端
子7の何れのチャンネルから入力された音声であるかを
検出するチャンネル検出手段、上記音響モデル設定手段
の役目を果たす。
【0016】上記記憶装置3には当該音声認識装置の音
声認識処理を行う音声認識プログラム3bと、音声認識
処理の際に使用される音響モデル、言語モデル、辞書等
の音声認識に必要な音声認識情報3aが記録されてい
る。なお、上記音響モデルは数多くのユーザーに対応し
た複数が登録されており、新たに登録することも可能で
ある。
【0017】また、当該音声認識装置は上記音声認識処
理プログラム3bに基づいて第1CPU1で音声認識処
理を行う。
【0018】ところで、本実施形態の音声認識装置に係
る音声の取得形態としては種々想定できるが、以下、図
2を参照して一例を簡単に説明する。
【0019】図2は、本実施形態の音声認識装置に係る
音声の取得形態の一例を示した説明図である。
【0020】本実施形態の音声認識装置に入力する音声
としては、例えば、2チャンネルの記録トラックを有す
る磁気記録テープ等の記録媒体103に記録された音声
が挙げられる。そして、この記録媒体103を再生する
テープレコーダ102の出力端子と音声認識装置(コン
ピュータ10)の音声入力端子7とを所定の接続コード
104で接続し、テープレコーダ102を稼働させるこ
とで、記録媒体103に記録された2チャンネルの音声
が当該音声認識装置に入力されることになる。
【0021】なお、本実施形態においては、記録媒体と
してアナログ録音に供する磁気記録テープを、また、コ
ンピュータ10における音声入力手段としてオーディオ
用の音声入力端子を採用するが、音声の入力手段や記録
媒体の種類によって様々な形態が考えられる。
【0022】記録媒体103の形態には、本実施形態の
如きアナログ方式の録音に供する磁気記録テープをはじ
め、デジタル方式の記録に供する磁気記録テープ、磁気
ディスク、フラッシュメモリ等様々なものが考えられ
る。
【0023】また、記録媒体103として音声をデジタ
ルデータとして記録可能なフラッシュメモリを用い、そ
の記録手段としてデジタルレコーダ等を採用した場合、
コンピュータ10の音声入力手段として該フラッシュメ
モリを装着かつ読み書き可能なリーダーライターを用い
ることもできる。
【0024】また、音声入力手段に関しては、本実施形
態と同じ磁気記録テープを用いて、音声認識装置の音声
入力手段にテープの装着装置を設け、音声信号を読み取
れるようにしても良く、上述の他にも様々な形態が採用
可能である。
【0025】いま、記録媒体103に図3に示すような
2チャンネルのインタビュー音声が記録されているもの
とする。そして、この記録媒体103を再生するテープ
レコーダ102の出力端子とコンピュータ10の音声入
力端子7とを接続コード104で接続し、テープレコー
ダ102を稼働させるとインタビュー音声がコンピュー
タ10に入力される。
【0026】図3に示すように、インタビューにおいて
は、通常、インタビューをする側とインタビューを受け
る側と、即ち聞き手(インタビュアー)と話し手(イン
タビュイー)の音声は交互に発せられるため、図3に示
すように、2チャンネル、例えばLチャンネルとRチャ
ンネルとに交互に音声が録音される。
【0027】図3のようにチャンネル毎に聞き手と話し
手の音声を独立して録音する例としては、例えばLチャ
ンネルとRチャンネル用にマイクを2つ用意する。Lチ
ャンネル用マイクを聞き手、Rチャンネル用マイクを話
し手が使用することで、別々のチャンネルに2つの音声
が記録され、Lチャンネルには聞き手の音声が、Rチャ
ンネルには話し手の音声が別々にかつ、交互に記録され
ることとなる。このような記録を行える録音手法は他に
も考えられる。例えば、スイッチで録音チャンネルを切
り替えられるようなテープレコーダー等で記録しても良
い。
【0028】また、本実施形態では上述したように音声
認識装置の音声入力手段を2チャンネルとしたため、2
チャンネル用の記録媒体を例に挙げたが、これに限ら
ず、例えば5人程度の会議等の音声をそれぞれ5チャン
ネル分記録できる記録媒体に記録し、5チャンネルの音
声入力可能な音声入力手段を備えた音声認識装置にも、
本発明を適用することができる。
【0029】さらに、音声認識装置に入力される音声は
記録媒体に記録されたものに限らない。例えば当該音声
認識装置に複数のマイクを接続し、複数の人間が一人一
人順番に発言するような場面、例えば記者会見等に使用
する等の形態も考えられる。
【0030】次に、上述の如く接続された音声認識装置
を用いたインタビュー音声の音声認識処理動作について
簡単に説明する。
【0031】まず、音声認識装置であるコンピュータ1
0の電源を入れ、音声認識処理を可能な状態にする。こ
のとき、本実施形態の音声認識装置では、Lチャンネル
の音響モデルとしてインタビューをした聞き手の音響モ
デル、Rチャンネルの音響モデルとしてインタビューを
受けた話し手の音響モデルが設定されているものとす
る。この様々なユーザーに対応した音響モデルは上述し
たように複数登録されており、操作部6であるキーボー
ドによって選択することが可能となっていて、入力する
音声により様々な設定が可能である。
【0032】次に音声認識処理が可能な状態になると、
テープレコーダ102の再生釦によりテープを再生さ
せ、音声信号をコンピュータ10に入力する。再生操作
により音声信号はテープレコーダ102の出力端子から
接続コード104を介して音声入力端子7に入力され
る。
【0033】入力された音声信号はA/Dコンバータ4
に入力され、第2CPU2の制御下にデジタル信号に変
換される。このとき、第1CPU1が音声認識プログラ
ム3bにより第2CPU2に所定のサンプリング周波
数、例えば22.05kHzでデジタル信号に変換する
よう命令する。第2CPU2は第1CPU1の指示を受
けてA/Dコンバータ4を22.05kHzのサンプリ
ング周波数でデジタル信号に変換するように制御し、入
力された音声信号は22.05kHzのPCMデータに
変換される。
【0034】デジタルデータに変換された音声データは
第2CPU2に入力され、次に音響モデル設定処理が行
われる。
【0035】ここで、音響モデル設定処理について、図
4に示すフローチャートを参照して説明する。
【0036】A/Dコンバータ4でデジタルデータに変
換された2チャンネルの音声データが第2CPU2に入
力されると(ステップS1)、第2CPU2は、音声入
力端子7に入力した音声信号がLチャンネル、Rチャン
ネルのどちらであるかを検出する音声検出処理を行う
(ステップS2)。即ち、所定レベル以上の音声信号が
入力された(検出された)方のチャンネルを音声信号が
入力されたチャンネルであると判定する。
【0037】このステップS2の検出処理において、L
チャンネルから音声信号が入力されたと判定すると(ス
テップS3)、第2CPU2はLチャンネル用の音響モ
デルを音声認識処理に使用するように第1CPU1に信
号を送信する(ステップS4)。一方、Rチャンネルか
ら音声信号が入力されたと判定すると、Rチャンネル用
の音響モデルを音声認識処理に使用するよう第1CPU
1に信号を送信する(ステップS5)。
【0038】第2CPU2からの信号を受けて第1CP
U1は、音声が検出されたチャンネルに対応する音響モ
デルを音声認識処理に使用するために設定する(ステッ
プS6)。以上の処理により、入力された音声に対応し
た音響モデルが設定される。
【0039】次に、第2CPU2で音響モデル設定処理
が行われた際に、音声信号が検出され、音声が入力され
たチャンネルと判定されたチャンネルの音声データのみ
が第1CPU1を介して、メモリ8に入力される。例え
ば、上記音響モデル設定処理において、Lチャンネルが
音声入力チャンネルと判定されたときには、Lチャンネ
ル用音響モデルが第1CPU1により設定され、Lチャ
ンネルの音声データのみが第1CPU1を介してメモリ
8に入力される。入力された音声データは音声認識プロ
グラム3bによって第1CPU1が音声認識処理を行
う。
【0040】ここで、第1CPU1による音声認識に係
る一連の処理を、図5に示す機能ブロック図を参照して
説明する。
【0041】音声データが入力されると(ブロック1
1)、最初に音声分析を行い(ブロック12)、入力さ
れた音声の中から音声認識に必要なケプストラムやピッ
チ等の音声特徴量を抽出する。次に上記音響モデル設定
処理において設定された音響モデル(ブロック15)の
パターンとのパターンマッチングを行い、発生確率を計
算し尤度付けを行う(ブロック13)。
【0042】すなわち、上記記憶装置3の音声認識情報
3a(図1参照)として記憶されている各ユーザ毎に登
録されている音響モデル(ブロック19)より上述した
処理に基づいてL、R何れのチャンネルに対応する音響
モデル(ブロック17,18)であるかを抽出し、音声
認識処理に供する音響モデルとする。
【0043】次に、言語モデル16(記憶装置3内の音
声認識情報3aとして記憶される)により単語の並び順
による発声確率を計算した尤度と上記パターンマッチン
グによる尤度と総合して尤も発声確率の高い単語の候補
を音声認識結果とする(ブロック13)。該音声認識結
果は第1CPU1に制御されてテキストデータにしてデ
ィスプレイ(表示装置5)に表示される(ブロック1
4)。
【0044】以上説明したように本実施形態の音声認識
装置によれば、入力音声に対応して容易に音響モデルを
切り換えることを可能としたので、音声認識率を飛躍的
に向上させることができる。
【0045】また、録音等、記録された音声に対しても
上述の如き音声認識処理を行うことが可能である。
【0046】さらに、音声をチャンネル毎に区分し、話
者の音響モデルをチャンネル毎に設定可能としたので、
特定のチャンネルから入力された音声に対して適当な音
響モデルを自動的に設定することができる。これによ
り、入力される音声に対してその都度音響モデルを変更
するという手間を省くことができ、高認識率での音声認
識処理を簡単に行うことができる。
【0047】
【発明の効果】以上説明したように本発明によれば、高
い認識率での音声認識処理を容易に実現する音声認識装
置を提供できる。
【図面の簡単な説明】
【図1】本発明の一実施形態である音声認識装置の構成
を示したブロック図である。
【図2】上記実施形態の音声認識装置に係る音声の取得
形態の一例を示した説明図である。
【図3】上記実施形態の音声認識装置に使用する音声の
一例を示した説明図である。
【図4】上記実施形態の音声認識装置における音響モデ
ル設定処理動作を示したフローチャートである。
【図5】上記実施形態の音声認識装置における第1CP
Uによる音声認識に係る一連の処理動作を示した機能ブ
ロック図である。
【符号の説明】
1…第1CPU 2…第2CPU 3…記憶装置 3a…音声認識情報 3b…音声認識処理プログラム 4…A/Dコンバータ 5…表示装置 6…操作部 7…音声入力端子 8…メモリ 10…コンピュータ

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 複数の話者に対応する音響モデルを記憶
    可能とする記憶手段と、 上記記憶手段からチャンネル毎に所定の音響モデルを設
    定する音響モデル設定手段と、 複数のチャンネルの音声が入力可能な音声入力手段と、 上記音声入力手段に入力された音声が、該音声入力手段
    における複数のチャンネルのうち何れのチャンネルから
    入力された音声であるかを検出するチャンネル検出手段
    と、 上記チャンネル検出手段によって検出されたチャンネル
    から入力された音声を、該検出されたチャンネルに対応
    する、上記音響モデル設定手段で設定された所定の音響
    モデルに基づいて音声認識処理を行う音声認識処理手段
    と、 を具備したことを特徴とする音声認識装置。
  2. 【請求項2】 上記音声入力手段は、該音声入力手段に
    おけるチャンネル数に対応するチャンネル数の音声記録
    が可能な記録媒体に記録された音声を入力するものであ
    ることを特徴とする請求項1に記載の音声認識装置。
JP11006899A 1999-01-13 1999-01-13 音声認識装置 Withdrawn JP2000206985A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11006899A JP2000206985A (ja) 1999-01-13 1999-01-13 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11006899A JP2000206985A (ja) 1999-01-13 1999-01-13 音声認識装置

Publications (1)

Publication Number Publication Date
JP2000206985A true JP2000206985A (ja) 2000-07-28

Family

ID=11651085

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11006899A Withdrawn JP2000206985A (ja) 1999-01-13 1999-01-13 音声認識装置

Country Status (1)

Country Link
JP (1) JP2000206985A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006507530A (ja) * 2002-11-22 2006-03-02 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声認識装置及び方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006507530A (ja) * 2002-11-22 2006-03-02 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声認識装置及び方法

Similar Documents

Publication Publication Date Title
EP0887788B1 (en) Voice recognition apparatus for converting voice data present on a recording medium into text data
JP4558308B2 (ja) 音声認識システム、データ処理装置、そのデータ処理方法及びプログラム
US6535848B1 (en) Method and apparatus for transcribing multiple files into a single document
US5031113A (en) Text-processing system
JP2006301223A (ja) 音声認識システム及び音声認識プログラム
JP2006330170A (ja) 記録文書作成支援システム
JP2000206987A (ja) 音声認識装置
US20060084047A1 (en) System and method of segmented language learning
JPH06110650A (ja) 音声対話装置
US7092884B2 (en) Method of nonvisual enrollment for speech recognition
JP2000206985A (ja) 音声認識装置
JPH11242496A (ja) 情報再生装置
JPS6367197B2 (ja)
JP2686085B2 (ja) 音声認識システム
JP3201327B2 (ja) 録音再生装置
JP2002507772A (ja) 情報再生用または機能実行用の装置
JP2609874B2 (ja) 音声認識システム
JP2889573B2 (ja) 音声認識システム
JP2000268545A (ja) 音声再生装置
JP2547612B2 (ja) 文章作成システム
JPS613241A (ja) 音声確認方式
JP2547611B2 (ja) 文章作成システム
JP2647872B2 (ja) 文章作成システム
JP2777366B2 (ja) 音声認識システム
JP2647873B2 (ja) 文章作成システム

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20060404