JPH11338494A - 音声認識システム及び方法 - Google Patents

音声認識システム及び方法

Info

Publication number
JPH11338494A
JPH11338494A JP10141213A JP14121398A JPH11338494A JP H11338494 A JPH11338494 A JP H11338494A JP 10141213 A JP10141213 A JP 10141213A JP 14121398 A JP14121398 A JP 14121398A JP H11338494 A JPH11338494 A JP H11338494A
Authority
JP
Japan
Prior art keywords
recognition result
voice
input
recognition
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP10141213A
Other languages
English (en)
Inventor
Hiroshi Matsuura
博 松浦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP10141213A priority Critical patent/JPH11338494A/ja
Publication of JPH11338494A publication Critical patent/JPH11338494A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

(57)【要約】 【課題】電話回線からの入力連続音声を自動的に文字化
でき、しかもユーザにより指定された任意の文字化部分
に対応する入力音声を再生できるようにする。 【解決手段】音声応答部12からの勧誘音声に応じて電
話回線を介して入力された連続音声を音声入力部13に
よりディジタル化して記録部15に記録する。音声認識
部16はディジタル化された入力音声の認識処理を行っ
て勧誘音声の要求する部分の認識結果を抽出し、記録部
15の対応エントリに設けられた、勧誘音声から決定さ
れる属性のフィールドに記録する。ここには、部分的認
識結果に対応する入力音声部分へのポインタが付加され
る。表示部17は記録部15内の認識結果を対応する属
性と関連付けて一覧表示し、操作部19を通して任意の
部分的認識結果が指定されると、その部分的認識結果に
相当する入力音声または部分的認識結果を含む一文全体
に相当する入力音声を再生部18により再生する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、連続発声された音
声を認識し、自動的に音声情報を文字情報として記録に
残す音声認識システム及び方法に関する。
【0002】
【従来の技術】従来、電話回線からシステムに入力され
た音声を文字化するためには、その入力音声を自動録音
しておき、人がこれを逐一聞いて書き取るのが一般的で
あった。しかし、この作業は大変手間のかかるものであ
ることから、自動化が強く求められている。現在でも既
に、マイクロホンから入力された音声を認識する技術が
確立され始めているが、電話音声に対応し、しかも自動
応答するシステムに入力された連続音声を認識して文字
情報に変換し、且つ項目毎に整理するシステムは実用化
されていない。
【0003】一方、例えば商品名と金額、個数などが組
になった音声情報を録音しておき、後で表形式にまとめ
る場合にも、人がこれを逐一聞いて表形式にまとめてい
た。この作業は、市場調査や棚卸の際によく利用される
作業方法であるが、やはり、大変手間のかかるものであ
ることから、自動化が強く求められている。
【0004】
【発明が解決しようとする課題】上記したように従来
は、電話回線から入力された連続音声を文字化するに
は、それを録音した後、人がこれを逐一聞いて書き取ら
なければなく、大変手間がかかるという問題があった。
【0005】また、商品名と金額、個数などが組になっ
た音声情報を録音しておき、後で表形式にまとめる場合
にも、人がこれを逐一聞いて表形式にまとめていたた
め、大変手間がかかるという問題があった。
【0006】本発明は上記事情を考慮してなされたもの
でその目的は、電話回線から入力された連続音声を自動
的に文字化することができ、しかもユーザにより任意の
文字化部分が指定された場合に対応する入力音声を再生
することができる音声認識システム及び方法を提供する
ことにある。
【0007】本発明の他の目的は、商品名と金額など、
項目名称と数値とが組になった音声情報の録音データか
ら、その項目名称と数値を要素とする表形式に自動的に
まとめあげることができ、しかもユーザにより任意の要
素が指定された場合に対応する入力音声を再生すること
ができる音声認識システム及び方法を提供することにあ
る。
【0008】
【課題を解決するための手段】本発明は、電話回線を介
して入力された連続音声を認識する音声認識手段と、こ
の音声認識手段の認識結果と入力音声とを、当該認識結
果中の部分的認識結果毎に対応する入力音声部分と関連
付けて記録する記録手段と、この記録手段により記録さ
れている認識結果を一覧表示する表示手段と、この表示
手段により表示されている一覧中から任意の部分的認識
結果を選択指定するための選択指定操作を受け付け、選
択指定された部分的認識結果に相当する入力音声、もし
くは当該部分的認識結果を含む一文全体に相当する入力
音声を再生する再生手段とを備えたことを特徴とする。
【0009】このような構成においては、電話回線から
入力された連続音声を自動的に文字化することが可能と
なるため、従来問題となっていた人手による手間を大幅
に省くことが可能となる。しかも、文字化した結果を一
覧表示してユーザ(例えばシステム管理者)操作による
任意の文字化部分の指定の受け付けを行い、指定された
文字化部分(部分的認識結果)に相当する入力音声、も
しくは当該文字化部分(部分的認識結果)を含む一文全
体に相当する入力音声を再生することにより、ユーザ
は、再生音声から、正しく認識された文字化部分である
か否かを確認することが可能となり、必要ならば訂正す
ることも可能となる。
【0010】したがって、このような構成は、システム
からの勧誘音声に応じて電話回線を介して入力された連
続音声を認識して文字化するシステム、例えば旅行会社
の旅行申し込み受け付け用の音声認識システム、或いは
通信販売における商品購入申し込み受け付け用の音声認
識システム等に適している。このシステムでは、上記音
声認識手段の認識結果と入力音声とを、当該認識結果中
の部分的認識結果毎に対応する入力音声部分と関連付け
て記録する際に、勧誘音声から決定される属性と共に記
録するならば、認識結果を一覧表示するのに属性と関連
付けて表示できることから、ユーザ(システム管理者)
は勧誘音声毎の入力音声に対する要求された部分の認識
結果を簡単に把握することが可能となる。
【0011】特に、音声認識手段の認識結果と入力音声
とを、認識結果中の部分的認識結果毎に対応する入力音
声部分と関連付けて記録する際に、その入力音声の入力
時点の時間情報を併せて記録し、認識結果を一覧表示す
る際に、対応する時間情報も併せて表示する構成とする
ならば、上記の旅行申し込み受け付け用の音声認識シス
テム等における受け付け時刻の管理が可能となる。
【0012】また本発明は、記録メディアに記録された
項目名称と数値からなる音声を認識する音声認識手段
と、この音声認識手段により認識された項目名称と数値
の認識結果を対応させて表形式に記録する第1の記録手
段と、上記認識結果中の予め定められた種類の部分的認
識結果に対して対応する入力音声部分を記録する第2の
記録手段と、上記第1の記録手段により表形式に記録さ
れた内容を一覧表示する表示手段と、この表示手段によ
り表示されている一覧中から任意の部分的認識結果を選
択指定するための選択指定操作を受け付け、選択指定さ
れた部分的認識結果に相当する入力音声、もしくは当該
部分的認識結果を含む一文全体に相当する入力音声を再
生する再生手段とを備えたことを特徴とする。
【0013】このような構成においては、商品名と金額
など、項目名称と数値とが組になった音声情報の録音デ
ータから、その項目名称と数値を要素とする表形式に自
動的にまとめあげることが可能となるため、市場調査や
棚卸しの際に必要な情報を録音しておき、所望の時期に
表形式にまとめる際に従来問題となっていた人手による
手間を大幅に省くことが可能となる。しかも、表形式に
まとめたデータを一覧表示してユーザ(例えばシステム
管理者)操作による任意の表内要素の指定の受け付けを
行い、指定された要素(部分的認識結果)に相当する入
力音声、もしくは当該要素(部分的認識結果)を含む一
文全体に相当する入力音声を再生することにより、ユー
ザは、再生音声から、正しく認識された要素であるか否
かを確認することが可能となり、必要ならば訂正するこ
とも可能となる。
【0014】ここで、項目名称と数値の対応のずれから
項目名称または数値の訂正箇所を検出し、その検出結果
に応じて表形式に整形する構成、或いは認識結果から訂
正を指示する所定の部分的認識結果を検出することによ
り、項目名称または数値の訂正箇所を検出し、その検出
結果に応じて表形式に整形する構成とすることにより、
発声ミスを吸収して自動訂正することが可能となる。
【0015】
【発明の実施の形態】以下、本発明の実施の形態につき
図面を参照して説明する。 [第1の実施形態]図1は本発明の第1の実施形態に係
る音声認識システムの全体構成を示すブロック図であ
る。
【0016】図1のシステムは電話回線20に接続して
用いられるもので、システム全体の制御を司る制御部1
1、制御部11の制御のもとで電話回線20に対して勧
誘音声等を発声する音声応答部12、電話回線20から
の音声を入力する音声入力部13、及び時計機能を持つ
時間情報獲得部14を備えている。
【0017】図1のシステムはまた、音声入力部13か
らの入力音声、当該入力音声に対する音声認識結果等を
記録するためのハードディスク等の記録媒体を有する記
録部15、入力音声に対する認識処理を行う音声認識部
16、記録部15に記録されている認識結果等を一覧表
示するための表示部17、表示部17に表示された一覧
中から選択指定された部分的認識結果に相当する入力音
声、もしくは当該部分的認識結果を含む一文全体に相当
する入力音声を記録部15から取り出して再生する再生
部18、及びキーボード、マウス等を有する操作部19
を備えている。記録部15(の有する記録媒体)には、
音声認識結果等を含む管理データが記録される管理デー
タ領域151及び入力音声データが記録される入力音声
データ領域152が確保される。
【0018】次に、図1のシステムの動作を、旅行会社
の旅行申し込み受け付け用の音声認識システムに適用し
た場合を例に、図2乃至図4のフローチャートを参照し
て説明する。
【0019】このシステムの例では、管理データ領域1
51はテーブル形式のデータ構造を有している。管理デ
ータ領域151のデータは、旅行申し込みデータを構成
する。管理データ領域151の各エントリは、図5に示
すように、データ番号フィールド、ツアーコードフィー
ルド(第1の属性フィールド)、及び氏名フィールド
(第2の属性フィールド)の各フィールドを持つ。デー
タ番号フィールドには、本システムへの接続時の時間情
報(接続時刻)Tc が付加される。また各属性フィール
ド(ここでは、ツアーコードフィールドと氏名フィール
ド)には、入力音声データ領域152に記録されている
対応する入力音声データへのポインタP1(並びにその
サイズ)と、当該入力音声データ中の該当する属性フィ
ールドに固有の属性部分へのポインタP2(並びにその
サイズ)、及び当該入力音声データの入力時点の時間情
報(入力時刻)Ti とが付加される。
【0020】さて、図1のシステムでは、ユーザ(申し
込み者)からのダイヤリングにより当該システムへの接
続(システムとの回線接続)がなされると、記録部15
の管理データ領域151に新たなデータ番号を持つ新た
なエントリが生成される(ステップA1)。このとき、
時間情報獲得部14から接続時の時間情報Tc が取得さ
れ、上記生成されたエントリ中のデータ番号フィールド
に付加設定される。
【0021】同時に制御部11により音声応答部12が
起動される。すると音声応答部12から勧誘音声または
勧誘音が出力されて電話回線20に送出される(ステッ
プA2)。
【0022】そこでユーザが、システム(内の音声応答
部12)からの勧誘音声等の指示に従って、電話機(の
送話器)に対して連続音声を発声すると、その連続音声
は電話回線20を介して当該システムの音声入力部13
に入力される(ステップA3)。音声入力部13は、こ
の入力された連続音声をディジタル化する。
【0023】制御部11は、システムの負荷が小さいた
めに現在入力中の音声に対する音声認識処理が実行可能
な状態にある場合には、音声認識部16を起動する(ス
テップA4)。すると音声認識部16は、当該入力音声
(の音声データ)を音声入力部13から入力して認識す
る認識処理を開始する(ステップA5)。同時に、音声
入力部13から入力された音声データは、記録部15の
入力音声データ領域152内に記録される(ステップA
6)。このステップA6では、管理データ領域151内
の上記新たに生成されたエントリに設けられた、勧誘音
声から決定される属性(勧誘音声に固有の属性)のフィ
ールドに、当該入力音声データへのポインタP1(並び
にそのサイズ)、及び時間情報獲得部14から得られる
当該入力音声データの入力開始時点の時間情報(時刻)
Ti が付加される。
【0024】音声認識部16は、入力音声に対する認識
処理を行うと、システム側が勧誘音声で要求している部
分の認識結果(部分的認識結果)を周知の文書解析処理
により抽出し、その部分的認識結果を、記録部15の管
理データ領域151内の対応するエントリに設けられ
た、上記勧誘音声から決定される属性のフィールドに記
録する(ステップA7)。このステップA7では、記録
部15の入力音声データ領域152内に記録されている
認識処理の対象となった入力音声のうち、抽出された部
分的認識結果に対応する入力音声部分へのポインタP2
(並びにそのサイズ)が上記属性フィールドに付加され
る。
【0025】制御部11は、音声認識部16による上記
ステップA7の処理が終了すると、次の勧誘音声がある
か否かをチェックし(ステップA8)、ある場合には音
声応答部12を起動して、当該音声応答部12により次
の勧誘音声を出力させる(ステップA2)。以下、上記
ステップA3以降の処理が繰り返される。
【0026】一方、システムの負荷が大きいために、現
在入力されている音声に対する認識処理を実行できない
場合には(ステップA4)、音声入力部13から入力さ
れた音声データを記録部15の入力音声データ領域15
2に記録する動作のみが行われる(ステップA9)。こ
のステップA9では、前記ステップA6と同様に、管理
データ領域151内の上記新たに生成されたエントリに
設けられた、勧誘音声から決定される属性のフィールド
に、当該入力音声データへのポインタP1(並びにその
サイズ)と、当該入力音声データの入力開始時点の時間
情報(時刻)Tc とが付加される。ステップA9が終了
すると、ステップA8に進む。
【0027】さて図1のシステム内の制御部11は、上
記したシステムへの接続時以外の状態で且つシステムの
負荷が小さい状態において音声認識部16を起動する。
すると音声認識部16は、記録部15内に確保されてい
る管理データ領域151の各エントリの属性フィールド
を参照して、部分的認識結果が未設定の属性フィールド
を探す(ステップB1)。そして音声認識部16は、部
分的認識結果が未設定の属性フィールドに付加されてい
るポインタP1(並びにサイズ)の指定する、記録部1
5内の入力音声データ領域152に記録されている入力
音声データを呼び出して認識処理を行う(ステップB
2)。このように本実施形態では、音声認識部16での
認識処理が可能な状態において、記録部15内の入力音
声データ領域152に記録されている入力音声データの
うちの、認識未実行の入力音声データが、適宜当該音声
認識部16に呼び出されて認識される。
【0028】音声認識部16は、入力音声データに対す
る認識処理結果から、対応する属性に相当する部分の認
識結果、つまりシステム側が勧誘音声で要求していた部
分的認識結果を文書解析処理により抽出し、その部分的
認識結果を記録部15内の対応エントリの対応属性フィ
ールドに記録する(ステップB3)、このステップB3
では、記録部15の入力音声データ領域152内に記録
されている認識処理の対象となった入力音声のうち、抽
出された部分的認識結果に対応する入力音声部分へのポ
インタP2(並びにそのサイズ)が上記属性フィールド
に付加される。
【0029】音声認識部16はステップB3を終了する
とステップB1に戻り、認識未実行の入力音声データの
有無を調べる。もし、認識未実行の入力音声データがな
いならば、制御部11にその旨を通知して処理を終了す
る。
【0030】ここまでの動作を更に具体的に説明する。
まず、上記の接続時には、記録部15の管理データ領域
151内に例えばデータ番号1を持つ新たなエントリが
生成され、そのデータ番号フィールドに当該接続時の日
付と時刻からなる時間情報Tc 、例えば98.5.1 18:00が
付加設定される。
【0031】次に、音声応答部12から勧誘音声と勧誘
音、例えば「名前を言ってください。ピッ」が電話回線
20を介してユーザに送られる。この勧誘音声と勧誘音
の指示を受けてユーザ(旅行の申し込み者)が、例えば
「えーと東京の鈴木一郎と鈴木花子です」と発声したも
のとする。発声された音声は、電話回線20を介して図
1のシステムに送られて当該システム内の音声入力部1
3に送られる。
【0032】音声入力部13は、電話回線20を介して
送られた音声を入力してディジタル化する。ここでは、
このディジタル化された入力音声データに対する音声認
識部16による認識処理が、音声入力部13による音声
の入力と並行して行われるものとする。この場合、入力
音声「えーと東京の鈴木一郎と鈴木花子です」のディジ
タル化された音声データは、記録部15の入力音声デー
タ領域152内に記録される。同時に、管理データ領域
151内の上記新たに生成されたエントリに設けられ
た、勧誘音声から決定される(システム側が勧誘音声で
要求している)属性のフィールド、つまり氏名フィール
ドに、当該入力音声データへのポインタP1(並びにそ
のサイズ)、当該入力音声データの入力開始時点の時間
情報(時刻)Ti 、例えば98.5.1 18:05が付加設定され
る。
【0033】さて音声認識部16では、入力音声「えー
と東京の鈴木一郎と鈴木花子です」に対する認識処理の
結果から、システム側が勧誘音声で要求している氏名の
部分、つまり「鈴木一郎と鈴木花子」の部分を抽出す
る。このシステム側が要求している部分の認識結果(部
分的な認識結果)「鈴木一郎」と「鈴木花子」は、記録
部15の管理データ領域151内の対応するエントリに
設けられた氏名フィールドに記録される。同時に、記録
部15の入力音声データ領域152内に記録されている
入力音声「えーと東京の鈴木一郎と鈴木花子です」のう
ちの、抽出された部分的認識結果に対応する入力音声部
分「鈴木一郎と鈴木花子」へのポインタP2(並びにそ
のサイズ)が上記氏名フィールドに付加設定される。
【0034】システム管理者(旅行会社の担当者)は、
旅行申し込みデータを確認したい場合には、操作部19
から当該旅行申し込みデータの表示要求を入力する。す
ると制御部11は表示部17を制御して、図5に示した
構造の記録部15内の管理データ領域151のデータを
もとに、図6の形式の旅行申し込みデータの一覧、つま
り部分的な認識結果を含む一覧を画面表示させる(ステ
ップC1)。ここでは、データ番号フィールド、ツアー
コードフィールド、氏名フィールド、及び当該氏名フィ
ールドに付加されている対応する氏名の音声部分を含む
入力音声の入力開始時点を示す時間情報(時刻)の一覧
(旅行申し込みデータ一覧)を画面表示させる。
【0035】この状態でシステム管理者は、画面表示さ
れている一覧の中から、確認したい部分的な音声認識結
果の表示箇所、例えば「鈴木一郎」と表示された氏名フ
ィールドを操作部19のマウス等で選択指定する。制御
部11は部分的な音声認識結果「鈴木一郎」が選択指定
されたことを検出すると(ステップC2,C3)、再生
部18を制御して、記録部15の入力音声データ領域1
52に記録されている入力音声のうちの、指定された部
分的な音声認識結果「鈴木一郎」に相当する入力音声デ
ータ部分を再生出力させる(ステップC4)。この入力
音声データ部分は、管理データ領域151内の選択指定
された氏名フィールドに付加設定されているポインタP
2(並びにサイズ)によって指し示される。
【0036】システム管理者は、この再生部18からの
再生出力音声により、自身が指定した氏名フィールドに
設定されている部分的な認識結果が正しいものであるか
否かを確認する。もし誤っている場合には、再生出力音
声から認識される正しい氏名(訂正後の氏名)を操作部
19から入力する。これを受けて制御部11は、指定さ
れた属性フィールド(ここでは氏名フィールド)に設定
されている部分的認識結果を、操作部19から入力され
た訂正内容に変更する(ステップC2,C3,C5)。
【0037】なお、システム側が要求している部分から
ずれた部分の認識結果が誤って得られる場合を考慮し
て、指定された部分的な音声認識結果「鈴木一郎」に相
当する部分を含む文章全体「えーと東京の鈴木一郎と鈴
木花子です」を再生するようにしても構わない。この文
章全体は、管理データ領域151内の選択指定された氏
名フィールドに付加設定されているポインタP1(並び
にサイズ)によって指し示される。
【0038】また、図6の形式の旅行申し込みデータの
一覧を画面表示させる際、その表示対象を時間情報によ
り指定するようにしても構わない。ここでは、例えば9
8.5.1〜98.5.31 のように時間範囲(日時の範囲)が指
定された場合には、記録部15の管理データ領域151
の各エントリの中から、氏名フィールドに付加されてい
る時間情報が指定の時間範囲のエントリの該当するデー
タだけを取り出して一覧表示すればよい。
【0039】以上に述べた第1の実施形態に係る音声認
識システムで適用される処理手順、つまり電話回線から
入力された連続音声を自動的に文字化し、ユーザにより
任意の文字化部分が指定された場合に対応する入力音声
を再生するための処理手順は、その処理手順を記述した
プログラムが記録されているCD−ROM等の記録媒体
を、音声入力部(22)を備えたパーソナルコンピュー
タ等のコンピュータに装着して、当該プログラムを読み
取り実行させることにより実現される。このプログラム
が、通信回線等の通信媒体を通してコンピュータにロー
ドされるものであってもよい。 [第1の実施形態]図7は本発明の第2の実施形態に係
る音声認識システムの全体構成を示すブロック図であ
る。
【0040】図7のシステムは、システム全体の制御を
司る制御部21、磁気テープ、ミニディスク(MD)等
のリムーバルな記録媒体に記録された、項目名称と数値
の組の列からなる音声を入力してディジタル化する音声
入力部22、音声入力部22によりディジタル化された
音声データに対する認識処理を行う音声認識部23、及
びハードディスク等の記録媒体を有する記録部24を備
えている。
【0041】記録部24は、音声認識部23により認識
された項目名称と数値の認識結果を対応させて表形式に
記録すると共に、認識結果中の予め定められた種類の部
分的認識結果に対して対応する入力音声部分を記録する
のに用いられる。この記録部24(の有する記録媒体)
には、上記表形式データが記録される表形式データ領域
241及び入力音声データが記録される入力音声データ
領域242が確保される。
【0042】図7のシステムは更に、記録部24(内の
表形式データ領域241)に表形式に記録された内容を
一覧表示するための表示部25、表示部25に表示され
た一覧中から選択指定された部分的認識結果に相当する
入力音声、もしくは当該部分的認識結果を含む一文全体
に相当する入力音声を記録部24から取り出して再生す
る再生部26、及びキーボード、マウス等を有する操作
部27を備えている。
【0043】次に、図7のシステムの動作を、市場調査
や棚卸しのために、商品名と金額との組の列が音声にて
記録された情報から表形式のデータを生成するための音
声認識システムに適用した場合を例に説明する。
【0044】まず、作業員が順次発声した項目名称と数
値からなる情報組(ここでは、商品名称と金額からなる
情報組)が、磁気記録再生装置、或いはミニディスク装
置等の音声記録装置により磁気テープ、或いはMD等の
記録媒体に記録されているものとする。
【0045】この記録媒体に記録された音声は、磁気記
録再生装置、或いはミニディスク装置等により再生され
る。再生された音声、例えば「オレンジジュース 27
8円アップルジュース 288円……」のように、商品
名と金額が順次入力され記録された音声は、音声入力部
22により入力されてディジタル化された後、音声認識
部23により認識される。なお、ディジタル化された音
声を一旦記録部24の入力音声データ領域242に記録
しておき、後で当該入力音声データ領域242から呼び
出して認識処理を行うようにしても構わない。
【0046】音声認識部23により認識された項目名称
(商品名)と数値(金額)の認識結果は対応させられ
て、図8のように表形式にして記録部24内の表形式デ
ータ領域241に記録される。また、音声入力部22に
よりディジタル化された音声のうち、認識された項目名
称(商品名)、数値(金額)等の部分的認識結果に対応
する音声部分が、当該部分的認識結果に対応付けて記録
部24内の入力音声データ領域242に記録される。こ
の対応付けは、表形式データ領域241中の項目名称
(商品名)及び数値(金額)の各部分的認識結果の設定
フィールドに、対応する音声部分へのポインタを付加す
ることで実現できる。
【0047】さて、表形式データ領域241に図8の表
形式で記録されたデータは、表示部25にて画面表示さ
れる。システム管理者は、表示中の表形式データから音
声認識部23での認識結果の正誤をチェックしたい場合
には、対象となる部分的認識結果、つまり項目名称(商
品名)または数値(金額)の表示箇所を操作部27のマ
ウス等で選択指定する。制御部21は部分的認識結果の
表示箇所が選択指定されたことを検出すると、再生部2
6を制御して、記録部24の入力音声データ領域242
に記録されている入力音声データ部分のうちの、指定さ
れた部分的認識結果に相当する入力音声データ部分を再
生出力させる。これにより、例えば「オレンジジュー
ス」と表示された箇所が選択指定された場合であれば、
その「オレンジジュース」と認識された元の入力音声デ
ータ部分(ここでは「オレンジジュース」)が、再生部
26により再生される。この他に、「オレンジジュー
ス」と組をなす金額の音声部分を含めた一文(文章全
体)、即ち「オレンジジュース278円」を再生させる
ようにしても構わない。
【0048】また以上の説明では、金額の部分の発声
は、先の「オレンジジュース」の例であれば「278円
(にひゃくななじゅうはちえん)」のように「円(え
ん)」付きであったが、「278(にひゃくななじゅう
はち)」や「278(にーななはち)」でも、数値音声
のゆらぎを吸収して金額として認識することは可能であ
る。
【0049】ところで、項目名(商品名)と数値(金
額)の組を記録媒体に録音する際に、そのいずれかを誤
って発声した場合には訂正する必要がある。本実施形態
では、例えば「アップルジュース 288円」と発声す
べきところ、金額「288円」を誤って「278円」と
発声してしまったならば、「アップルジュース 278
円 288円」のように、また商品名「オレンジジュー
ス」を誤って「アップルジュース」と発声してしまった
ならば、「アップルジュース オレンジジュース278
円」のように、誤って発声した箇所の直後に、訂正した
用語を発声する訂正方式を適用するものとする。
【0050】そこで、項目名称(商品名)または数値
(金額)の訂正がなされた記録音声情報から図7のシス
テムにて表形式のデータを生成する場合の動作を、図9
フローチャートを参照して説明する。
【0051】まず音声認識部23は、音声入力部22に
よりディジタル化された、或いは音声入力部22により
ディジタル化された後、記録部24に記録された、項目
名称(商品名)と数値(金額)からなる音声情報組を順
次入力し、最初に出現するポーズで区切られる箇所まで
の音声データを商品名(項目名称)として認識する(ス
テップD1)。
【0052】次に音声認識部23は、次に出現するポー
ズで区切られる箇所までの音声データを認識し(ステッ
プD2)、数値(円)を持つ音声データであるか否かを
チェックする(ステップD3)。もし数値(円)を持つ
音声データでないならば、音声認識部23は当該音声デ
ータは商品名であり、しかも商品名(を持つ音声デー
タ)が続いたことから、訂正後の商品名であると判断す
る(ステップD4)。
【0053】その後、音声認識部23はステップD2に
戻って、次に出現するポーズで区切られる箇所までの音
声データを認識する。この認識の結果、前回と同様に数
値(円)を持つ音声データでなかったならば、音声認識
部23は当該音声データを訂正後の商品名であると判断
し(ステップD3,D4)、ステップD2に戻る。
【0054】一方、ステップD2での認識の結果、数値
(円)を持つ音声データであったならば、音声認識部2
3は当該音声データを金額であると判断する(ステップ
D3,D5)。この場合、音声認識部23は、後続の音
声データの有無をチェックし(ステップD6)、後続の
音声データがある場合には、次に出現するポーズで区切
られる箇所までの音声データを認識して(ステップD
7)、数値(円)を持つ音声データであるか否かをチェ
ックする(ステップD8)。もし、数値(円)を持つ音
声データであるならば、音声認識部23は当該音声デー
タは金額であり、しかも数値(円)を持つ音声データが
続いたことから、訂正後の金額であると判断する(ステ
ップD9)。
【0055】その後、音声認識部23はステップD6に
戻って後続の音声データの有無をチェックし(ステップ
D6)、後続の音声データがあるならば、次に出現する
ポーズで区切られる箇所までの音声データを認識する
(ステップD7)。この認識の結果、前回と同様に数値
(円)を持つ音声データであったならば、音声認識部2
3は当該音声データを訂正後の金額であると判断し(ス
テップD8,D9)、ステップD6に戻る。
【0056】一方、ステップD7での認識の結果、数値
(円)を持つ音声データでなかったならば、音声認識部
23は当該音声データを(金額音声入力後の新たな)商
品名である判断し(ステップD10)、この商品名に先
行して認識した商品名と、最も最近に認識した金額と
を、該当する音声データに対応付けて記録部24に記録
する(ステップD11)。ここでは、商品名(項目名
称)と金額(数値)の認識結果(部分的認識結果)が図
8のように表形式にして記録部24内の表形式データ領
域241に記録され、対応する音声データ部分(訂正部
分を含む音声データ部分)が当該部分的認識結果に対応
付けて記録部24内の入力音声データ領域242に記録
される。
【0057】音声認識部23はステップD11を実行す
るとステップD2に戻る。また、上記ステップD6で後
続の音声データの有無をチェックした結果、後続の音声
データがなかったならば、音声認識部23は最も最近に
認識した商品名と金額とを該当する音声データに対応付
けて記録部24に記録する(ステップD12)なお、以
上は誤って発声した箇所の直後に、訂正した用語(単
語)を発声する訂正方式を適用した場合について説明し
たが、例えば「アップルジュース 278円 訂正 2
88円」のように、誤って発声した箇所の直後に訂正を
指示する用語「訂正」を発声し、続いて訂正した用語を
発声する訂正方式を適用することも可能である。ここで
は、音声認識部23は「訂正」という用語を認識した場
合に、その直前の部分的認識結果が、その直後の部分的
認識結果に訂正されていると判断する。ここでは、上記
「直後の部分的認識結果」の後ろに「訂正」がなけれ
ば、当該「直後の部分的認識結果」が訂正後の「部分的
認識結果」として取り扱われる。
【0058】この他に、単位の異なる複数の数値データ
の組があるときは、誤って発声した箇所の直後でなくて
も訂正可能である。例えば「アップルジュース 288
円100個」を誤って「アップルジュース 278円
100個」と発声した後に誤りに気付いて「アップルジ
ュース 278円 100個 288円」のように訂正
しても、単位の異なる複数の数値データの組の中に単位
が同一の箇所が複数存在する場合に、最後に現れる数値
を訂正後の数値(上記の例では、「288円」)と判断
することで、表形式データとして記録する際に自動訂正
可能である。
【0059】また、商品名毎に、或いは数値の単位の種
類毎に、或いは商品名と単位の種類の組み合わせ毎に、
数値範囲(上限及び下限値)を設定し、認識した数値
(金額、個数等)と比較することで、認識した数値の正
当性を判定することも可能である。
【0060】以上に述べた第2の実施形態に係る音声認
識システムで適用される処理手順、つまり商品名と金額
など、項目名称と数値とが組になった音声情報の録音デ
ータから、その項目名称と数値を要素とする表形式に自
動的にまとめ、ユーザにより任意の要素が指定された場
合に対応する入力音声を再生するための処理手順は、そ
の処理手順を記述したプログラムが記録されているCD
−ROM等の記録媒体を、音声入力部(22)を備えた
パーソナルコンピュータ等のコンピュータに装着して、
当該プログラムを読み取り実行させることにより実現さ
れる。このプログラムが、通信回線等の通信媒体を通し
てコンピュータにロードされるものであってもよい。
【0061】
【発明の効果】以上詳述したように本発明によれば、電
話回線から入力された連続音声を自動的に文字化するこ
とができ、しかもユーザが任意の文字化部分を指定する
と、対応する入力音声を再生することができる。このた
めユーザは、再生音声から、正しく認識された文字化部
分であるか否かを確認することができ、必要ならば訂正
することもできる。
【0062】また本発明によれば、項目名称と数値とが
組になった音声情報の録音データから、その項目名称と
数値を要素とする表形式に自動的にまとめることがで
き、しかもユーザが任意の要素を指定すると、対応する
入力音声を再生することができる。このためユーザは、
再生音声から、正しく認識された要素であるか否かを確
認することができ、必要ならば訂正することもできる。
【図面の簡単な説明】
【図1】本発明の第1の実施形態に係る音声認識システ
ムの全体構成を示すブロック図。
【図2】同実施形態におけるシステム接続時の動作を説
明するためのフローチャート。
【図3】同実施形態における音声認識起動時の動作を説
明するためのフローチャート。
【図4】同実施形態における一覧表示時の動作を説明す
るためのフローチャート。
【図5】同実施形態における記録部15内の管理データ
領域151のデータ構造と入力音声データ領域152と
の対応関係を示す図。
【図6】同実施形態における一覧表示画面例(旅行申し
込みデータの一覧)を示す図。
【図7】本発明の第2の実施形態に係る音声認識システ
ムの全体構成を示すブロック図。
【図8】同実施形態において作成・記録される表形式デ
ータの一例を示す図。
【図9】同実施形態において項目名称(商品名)または
数値(金額)の訂正がなされた記録音声情報から表形式
のデータを生成する場合の動作を説明するためのフロー
チャート。
【符号の説明】
11,21…制御部 12…音声応答部 13,22…音声入力部 14…時間情報獲得部 15,24…記録部 16,23…音声認識部 17,25…表示部 18,26…再生部 19,27…操作部 151…管理データ領域 152,242…入力音声データ領域 241…表形式データ領域
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 FI H04M 3/42 H04M 3/42 Z J 11/10 11/10

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 電話回線を介して入力された連続音声を
    認識する音声認識手段と、 前記音声認識手段の認識結果と入力音声とを、当該認識
    結果中の部分的認識結果毎に対応する入力音声部分と関
    連付けて記録する記録手段と、 前記記録手段により記録されている認識結果を一覧表示
    する表示手段と、 前記表示手段により表示されている一覧中から任意の部
    分的認識結果を選択指定するための選択指定操作を受け
    付け、選択指定された部分的認識結果に相当する入力音
    声、もしくは当該部分的認識結果を含む一文全体に相当
    する入力音声を再生する再生手段とを具備することを特
    徴とする音声認識システム。
  2. 【請求項2】 システムからの勧誘音声に応じて電話回
    線を介して入力された連続音声を認識する音声認識手段
    と,前記音声認識手段の認識結果と入力音声とを、当該
    認識結果中の部分的認識結果毎に対応する入力音声部分
    と関連付けて、前記勧誘音声から決定される属性と共に
    記録する記録手段と、 前記記録手段により記録されている認識結果を対応する
    属性と関連付けて一覧表示する表示手段、 前記表示手段により表示されている一覧中から任意の部
    分的認識結果を選択指定するための選択指定操作を受け
    付け、選択指定された部分的認識結果に相当する入力音
    声、もしくは当該部分的認識結果を含む一文全体に相当
    する入力音声を再生する再生手段とを具備することを特
    徴とする音声認識システム。
  3. 【請求項3】 前記記録手段は、前記音声認識手段の認
    識結果と入力音声とを、当該認識結果中の部分的認識結
    果毎に対応する入力音声部分と関連付けて記録する際
    に、その入力音声の入力時点の時間情報を併せて記録
    し、 前記表示手段は、前記認識結果を一覧表示する際に、対
    応する前記時間情報を併せて表示することを特徴とする
    請求項1または請求項2記載の音声認識システム。
  4. 【請求項4】 記録メディアに記録された項目名称と数
    値の組の列からなる音声を認識する音声認識手段と、 前記音声認識手段により認識された項目名称と数値の認
    識結果を対応させて表形式に記録する第1の記録手段
    と、 前記認識結果中の予め定められた種類の部分的認識結果
    に対して対応する入力音声部分を記録する第2の記録手
    段と、 前記第1の記録手段により表形式に記録された内容を一
    覧表示する表示手段と、 前記表示手段により表示されている一覧中から任意の部
    分的認識結果を選択指定するための選択指定操作を受け
    付け、選択指定された部分的認識結果に相当する入力音
    声、もしくは当該部分的認識結果を含む一文全体に相当
    する入力音声を再生する再生手段とを具備することを特
    徴とする音声認識システム。
  5. 【請求項5】 前記第1の記録手段は、前記項目名称と
    数値の対応のずれから項目名称または数値の訂正箇所を
    検出し、その検出結果に応じて表形式に整形することを
    特徴とする請求項4記載の音声認識システム。
  6. 【請求項6】 前記第1の記録手段は、前記音声認識手
    段の認識結果から訂正を指示する所定の部分的認識結果
    を検出することにより、項目名称または数値の訂正箇所
    を検出し、その検出結果に応じて表形式に整形すること
    を特徴とする請求項4記載の音声認識システム。
  7. 【請求項7】 電話回線を介して入力された連続音声を
    認識し、その認識結果と入力音声とを、当該認識結果中
    の部分的認識結果毎に対応する入力音声部分と関連付け
    て記録し、 前記記録されている認識結果を一覧表示し、 前記表示されている一覧中から任意の部分的認識結果を
    選択指定するための選択指定操作の受け付けを行い、 選択指定された部分的認識結果に相当する入力音声、も
    しくは当該部分的認識結果を含む一文全体に相当する入
    力音声を再生することを特徴とする音声認識方法。
  8. 【請求項8】 記録メディアに記録された項目名称と数
    値の組の列からなる音声を認識し、その項目名称と数値
    の認識結果を対応させて表形式に記録すると共に、前記
    認識結果中の予め定められた種類の部分的認識結果に対
    して対応する入力音声部分を記録し、 前記表形式に記録されている認識結果を対応する属性と
    関連付けて一覧表示し、 前記表示されている一覧中から任意の部分的認識結果を
    選択指定するための選択指定操作の受け付けを行い、 選択指定された部分的認識結果に相当する入力音声、も
    しくは当該部分的認識結果を含む一文全体に相当する入
    力音声を再生することを特徴とする音声認識方法。
  9. 【請求項9】 電話回線を介して入力された連続音声を
    認識し、その認識結果と入力音声とを、当該認識結果中
    の部分的認識結果毎に対応する入力音声部分と関連付け
    て記録する処理と、 前記記録されている認識結果を一覧表示する処理と、 前記表示されている一覧中から任意の部分的認識結果を
    選択指定するための選択指定操作の受け付けを行う処理
    と、 選択指定された部分的認識結果に相当する入力音声、も
    しくは当該部分的認識結果を含む一文全体に相当する入
    力音声を再生する処理とをコンピュータに実行させるた
    めのプログラムを記録したコンピュータ読み取り可能な
    記録媒体。
  10. 【請求項10】 記録メディアに記録された項目名称と
    数値の組の列からなる音声を認識し、その項目名称と数
    値の認識結果を対応させて表形式に記録すると共に、前
    記認識結果中の予め定められた種類の部分的認識結果に
    対して対応する入力音声部分を記録する処理と、 前記表形式に記録されている認識結果を対応する属性と
    関連付けて一覧表示する処理と、 前記表示されている一覧中から任意の部分的認識結果を
    選択指定するための選択指定操作の受け付けを行う処理
    と、 選択指定された部分的認識結果に相当する入力音声、も
    しくは当該部分的認識結果を含む一文全体に相当する入
    力音声を再生する処理とをコンピュータに実行させるた
    めのプログラムを記録したコンピュータ読み取り可能な
    記録媒体。
JP10141213A 1998-05-22 1998-05-22 音声認識システム及び方法 Withdrawn JPH11338494A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10141213A JPH11338494A (ja) 1998-05-22 1998-05-22 音声認識システム及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10141213A JPH11338494A (ja) 1998-05-22 1998-05-22 音声認識システム及び方法

Publications (1)

Publication Number Publication Date
JPH11338494A true JPH11338494A (ja) 1999-12-10

Family

ID=15286781

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10141213A Withdrawn JPH11338494A (ja) 1998-05-22 1998-05-22 音声認識システム及び方法

Country Status (1)

Country Link
JP (1) JPH11338494A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003316388A (ja) * 2002-04-22 2003-11-07 Toshiba Tec Corp 音声入力装置及びその方法並びに音声入力プログラム
JP2006276754A (ja) * 2005-03-30 2006-10-12 Mitsubishi Electric Information Systems Corp オペレータ業務支援システム
WO2007043566A1 (ja) * 2005-10-13 2007-04-19 Nec Corporation 音声認識システムと音声認識方法およびプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003316388A (ja) * 2002-04-22 2003-11-07 Toshiba Tec Corp 音声入力装置及びその方法並びに音声入力プログラム
JP2006276754A (ja) * 2005-03-30 2006-10-12 Mitsubishi Electric Information Systems Corp オペレータ業務支援システム
WO2007043566A1 (ja) * 2005-10-13 2007-04-19 Nec Corporation 音声認識システムと音声認識方法およびプログラム
JP2007108407A (ja) * 2005-10-13 2007-04-26 Nec Corp 音声認識システムと音声認識方法およびプログラム
US8214209B2 (en) 2005-10-13 2012-07-03 Nec Corporation Speech recognition system, method, and computer readable medium that display recognition result formatted in accordance with priority

Similar Documents

Publication Publication Date Title
US7979281B2 (en) Methods and systems for creating a second generation session file
US6775651B1 (en) Method of transcribing text from computer voice mail
US7516070B2 (en) Method for simultaneously creating audio-aligned final and verbatim text with the assistance of a speech recognition program as may be useful in form completion using a verbal entry method
US8719027B2 (en) Name synthesis
EP0887788B1 (en) Voice recognition apparatus for converting voice data present on a recording medium into text data
US7693717B2 (en) Session file modification with annotation using speech recognition or text to speech
US5329608A (en) Automatic speech recognizer
US7236932B1 (en) Method of and apparatus for improving productivity of human reviewers of automatically transcribed documents generated by media conversion systems
US7496510B2 (en) Method and apparatus for the automatic separating and indexing of multi-speaker conversations
US20060190249A1 (en) Method for comparing a transcribed text file with a previously created file
US20080255835A1 (en) User directed adaptation of spoken language grammer
US20050131559A1 (en) Method for locating an audio segment within an audio file
EP2682931B1 (en) Method and apparatus for recording and playing user voice in mobile terminal
JP2002132287A (ja) 音声収録方法および音声収録装置および記憶媒体
JP2004534326A (ja) 決済情報を提供する方法並びに口述の筆記のための方法及び装置
JP2008032825A (ja) 発言者表示システム、発言者表示方法および発言者表示プログラム
JP2002099530A (ja) 議事録作成装置及び方法並びにこれを用いた記憶媒体
US20020184019A1 (en) Method of using empirical substitution data in speech recognition
JP4697432B2 (ja) 音楽再生装置、音楽再生方法及び音楽再生用プログラム
JPH11338494A (ja) 音声認識システム及び方法
US8280734B2 (en) Systems and arrangements for titling audio recordings comprising a lingual translation of the title
JP2001325250A (ja) 議事録作成装置および議事録作成方法および記録媒体
JP2012108262A (ja) 対話内容抽出装置、対話内容抽出方法、そのプログラム及び記録媒体
JP7297266B2 (ja) 検索支援サーバ、検索支援方法及びコンピュータプログラム
JP2010060729A (ja) 受付装置、受付方法、及び受付プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050517

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20060811