JPH11212590A - 音声処理装置、音声認識プログラムを記録した記録媒体、処理プログラムを記録した記録媒体 - Google Patents

音声処理装置、音声認識プログラムを記録した記録媒体、処理プログラムを記録した記録媒体

Info

Publication number
JPH11212590A
JPH11212590A JP10011631A JP1163198A JPH11212590A JP H11212590 A JPH11212590 A JP H11212590A JP 10011631 A JP10011631 A JP 10011631A JP 1163198 A JP1163198 A JP 1163198A JP H11212590 A JPH11212590 A JP H11212590A
Authority
JP
Japan
Prior art keywords
voice
data
recording medium
voice data
check mark
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP10011631A
Other languages
English (en)
Inventor
秀享 ▲高▼橋
Hideyuki Takahashi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Olympus Corp
Original Assignee
Olympus Optical Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Olympus Optical Co Ltd filed Critical Olympus Optical Co Ltd
Priority to JP10011631A priority Critical patent/JPH11212590A/ja
Priority to US09/088,996 priority patent/US6353809B2/en
Priority to EP98110264A priority patent/EP0887788B1/en
Priority to DE69829802T priority patent/DE69829802T2/de
Publication of JPH11212590A publication Critical patent/JPH11212590A/ja
Withdrawn legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 特段に高速度の処理を要することなく、音声
に含まれる不要語等を音声認識の対象から外すことがで
きるディクテーションシステムを提供する。 【解決手段】 マイクから入力した音声データの内の不
要語等に係る音声データ部分を発話者が指定するための
チェックマークボタンを備え、このチェックマークボタ
ンによりチェックマークが付加された音声データを着脱
自在のミニチュアカード2に記録するディジタルレコー
ダ1と、PCカードアダプタ3に装着された上記ミニチ
ュアカード2からPCカードスロットを介して上記音声
データを取り込み、上記チェックマークが付加された音
声データは音声認識の対象から外し、チェックマークが
付加されていない音声データのみを対象として音声認識
プログラム9により音声認識を行うパーソナルコンピュ
ータ4と、を備えたディクテーションシステム。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声処理装置、音
声認識プログラムを記録した記録媒体、処理プログラム
を記録した記録媒体、より詳しくは、音声データの処理
を行う音声処理装置、コンピュータによって音声認識を
するための音声認識プログラムを記録した記録媒体、コ
ンピュータによって音声認識プログラムに対して音声デ
ータを渡す処理をするための処理プログラムを記録した
記録媒体に関する。
【0002】
【従来の技術】いわゆる音声ワードプロセッサ、あるい
は、口述することにより音声データを入力すると、該音
声データに基づいて自動的に文書を作成し、それを画面
等に表示するディクテーションシステムの実現は、従来
からの音声認識システム開発における一つの目標であ
り、現在、活発に研究や開発が進められている。
【0003】こうした近年の音声認識技術の進歩に伴っ
て、パーソナルコンピュータにマイクロフォンを接続
し、このマイクロフォンを用いて入力した音声を、該パ
ーソナルコンピュータ上で文書化して画面に表示させる
装置が開発されていて、一般に市販されている。
【0004】一方、従来より、文書を作成するにあた
り、作成したい文書の内容を一旦テープレコーダ等の録
音装置に口述録音して、後で秘書やタイピスト等がその
口述内容を再生しながら、タイプライタやワードプロセ
ッサ等の文書作成装置により文書化する、といった形態
をとることが、テープレコーダ等の録音装置の有効な利
用形態の1つとして一般化している。
【0005】こうした口述録音においては、秘書やタイ
ピストに指示を与えるために、インデックスマークやエ
ンドマーク等を音声データに付加する技術が従来より知
られている。これらのマークを付する従来例は、音声デ
ータの所望の部位を区間として指定するものではなく、
全て音声データの特定の部位を点として指定するものと
なっている。
【0006】上述したような録音装置を用いて口述する
利用形態においては、以前から、録音内容を自動的に文
書に変換する技術の実現が強く望まれている。
【0007】また、近年のコンピュータ技術やディジタ
ル信号処理技術などの発展により、録音内容をディジタ
ルデータ化して、フラッシュメモリ等の書込みや消去が
可能な記録媒体に記録する、いわゆるディジタルレコー
ダが開発されるようになり、さらに、そのディジタル化
された録音内容をパーソナルコンピュータに転送して、
該パーソナルコンピュータにおいて録音内容を再生する
ことが可能となっている。
【0008】本出願人は、このようなディジタルレコー
ダから転送された録音データを、パーソナルコンピュー
タ上において簡単な操作で扱うことを可能とする音声デ
ータの処理制御装置を開発しており、特願平9−149
728号において提案している。
【0009】さらに本出願人は、ディジタル記録された
音声データを、上記音声データの処理制御装置から音声
認識装置に渡して音声認識させ、文書として画面に表示
させるディクテーションシステムを開発しており、特願
平9−149729号において提案している。
【0010】このようなディクテーションシステムによ
れば、コンピュータの前に座って直接音声入力をする必
要がなく、一旦ディジタルレコーダに録音して、後でコ
ンピュータにその録音データを転送して文書を作成させ
ることが可能となる。
【0011】ところで、実際の口述においては、伝えよ
うとする内容に関係のない言葉が含まれることがあり、
例えば書かれた文章を朗読する場合であっても、言い間
違いや、「えーと」、「あのー」などのそれ自体意味を
もたない単語(以後、「不要語等」という)が(しばし
ば頻繁に)含まれている場合がある。
【0012】このような場合には音声認識の性能が劣化
して、画面に表示される文書は間違いの多いものになっ
てしまうという難点がある。そこで、このような不要語
等への対処を考慮して、該不要語等も含めて音声認識処
理における言語モデルを作成して、ディクテーション装
置を構成する技術が従来より提案されている。
【0013】こうしたものの一例として、特開平7−5
893号公報には、標準パターンを記憶している標準パ
ターン記憶手段と、不要語のパターンを記憶している不
要語パターン記憶手段と、入力された音声から、前記標
準パターン記憶手段に記憶されている標準パターンまた
は前記不要語パターン記憶手段に記憶されている不要語
のパターンをワードスポッティングし、その区間とスコ
アを出力するワードスポッティング手段と、前記音声の
発話内容の仮説をたて、その意味表現を生成する生成手
段と、前記生成手段により生成された前記仮説の意味表
現に基づいて、前記ワードスポッティング手段のワード
スポッティング結果を解析する解析手段とを備え、前記
解析手段は、前記音声の音声区間のうち、前記標準パタ
ーンまたは不要語のパターンがワードスポッティングさ
れなかった残区間に対し、前記不要語のパターンによる
ワードスポッティングの結果得られたスコアを割り当
て、前記ワードスポッティング手段のワードスポッティ
ング結果を解析する音声認識装置が記載されている。
【0014】
【発明が解決しようとする課題】しかしながら、上記特
開平7−5893号公報に記載のものでは、言語モデル
のサイズが膨大になるために、現状のコンピュータ(特
にパーソナルレベルのコンピュータ)においては、実用
的な処理を行うことは困難である。
【0015】従って、現状で製品化されているもので
は、不要語等を発声しないように気を付けなければなら
ないために、発話者に煩わしさを感じさせるものとなっ
ていた。
【0016】本発明は上記事情に鑑みてなされたもので
あり、特段に高速度の処理を要することなく、音声に含
まれる不要語等に対処することができる音声処理装置、
音声認識プログラムを記録した記録媒体、処理プログラ
ムを記録した記録媒体を提供することを目的としてい
る。
【0017】
【課題を解決するための手段】上記の目的を達成するた
めに、第1の発明による音声処理装置は、音声データが
記録された記録媒体より上記音声データを取り込む音声
データ取込手段と、上記音声データに付加された音声デ
ータの区間を識別するチェックマークを検出する検出手
段と、所定のチェックマークと対応する音声データは音
声認識をせずそれ以外の音声データを音声認識する音声
認識手段と、上記音声認識手段により認識された結果を
出力する出力手段とを備えたものである。
【0018】また、第2の発明による音声処理装置は、
音声データを入力する音声データ入力手段と、上記音声
データ入力手段で入力した音声データの所望の区間を指
定可能な区間指定手段と、上記区間指定手段で指定され
た区間を識別するチェックマークを音声データに付加し
て記録媒体に記録する記録手段と、上記記録媒体を着脱
自在に装着する記録媒体装着手段とを備えたものであ
る。
【0019】さらに、第3の発明による音声認識プログ
ラムを記録した記録媒体は、コンピュータによって音声
認識をするための音声認識プログラムを記録した記録媒
体であって、上記音声認識プログラムは、コンピュータ
に、音声データが記録された記録媒体より上記音声デー
タを取り込ませ、上記音声データに付加された音声デー
タの区間を識別するチェックマークを検出させ、所定の
チェックマークと対応する音声データは音声認識をさせ
ずそれ以外の音声データを音声認識をさせ、上記音声認
識された結果を出力させるものである。
【0020】そして、第4の発明による処理プログラム
を記録した記録媒体は、コンピュータによって音声認識
プログラムに対して音声データを渡す処理をするための
処理プログラムを記録した記録媒体であって、上記処理
プログラムは、コンピュータに、音声データが記録され
た記録媒体より上記音声データを取り込ませ、上記音声
データに付加された音声データの区間を識別するチェッ
クマークを検出させ、所定のチェックマークと対応する
音声データは音声認識プログラムに対して音声データを
渡させず、それ以外の音声データは音声認識プログラム
に対して音声データを渡させるものである。
【0021】従って、第1の発明による音声処理装置
は、音声データ取込手段が音声データが記録された記録
媒体より上記音声データを取り込み、検出手段が上記音
声データに付加された音声データの区間を識別するチェ
ックマークを検出し、音声認識手段が所定のチェックマ
ークと対応する音声データは音声認識をせずそれ以外の
音声データを音声認識し、出力手段が上記音声認識手段
により認識された結果を出力する。
【0022】また、第2の発明による音声処理装置は、
音声データ入力手段が音声データを入力し、区間指定手
段が上記音声データ入力手段で入力した音声データの所
望の区間を指定し、記録手段が上記区間指定手段で指定
された区間を識別するチェックマークを音声データに付
加して記録媒体に記録し、記録媒体装着手段が上記記録
媒体を着脱自在に装着する。
【0023】さらに、第3の発明による音声認識プログ
ラムを記録した記録媒体は、コンピュータによって音声
認識をするための音声認識プログラムを記録した記録媒
体であって、上記音声認識プログラムがコンピュータ
に、音声データが記録された記録媒体より上記音声デー
タを取り込ませ、上記音声データに付加された音声デー
タの区間を識別するチェックマークを検出させ、所定の
チェックマークと対応する音声データは音声認識をさせ
ずそれ以外の音声データを音声認識をさせ、上記音声認
識された結果を出力させる。
【0024】そして、第4の発明による処理プログラム
を記録した記録媒体は、コンピュータによって音声認識
プログラムに対して音声データを渡す処理をするための
処理プログラムを記録した記録媒体であって、上記処理
プログラムがコンピュータに、音声データが記録された
記録媒体より上記音声データを取り込ませ、上記音声デ
ータに付加された音声データの区間を識別するチェック
マークを検出させ、所定のチェックマークと対応する音
声データは音声認識プログラムに対して音声データを渡
させずそれ以外の音声データは音声認識プログラムに対
して音声データを渡させる。
【0025】
【発明の実施の形態】以下、図面を参照して本発明の実
施の形態を説明する。図1から図7は本発明の一実施形
態を示したものであり、図1は本発明が適用されるディ
クテーションシステムの概念的な全体構成図である。
【0026】このディクテーションシステムは、図1に
示すように、音声を電気信号に変換して音声データ化す
る音声処理装置としてのディジタルレコーダ1と、この
ディジタルレコーダ1に着脱可能に装着して用いられる
ものであって上記音声データを記録する記録媒体たるミ
ニチュアカード2と、このミニチュアカード2を後述す
るPCカードスロット40(図5参照)に挿入して接続
可能とするためのPCカードアダプタ3と、出力手段た
るディスプレイ5やキーボード6,マウス7等を備え、
上記PCカードスロット40を介して上記ミニチュアカ
ード2から得た音声データに、制御プログラム8や音声
認識プログラム9による処理を施す音声処理装置として
のパーソナルコンピュータ4とを有して構成されてい
る。
【0027】図2は、上記ディジタルレコーダ1の電気
的な構成を示すブロック図である。
【0028】このディジタルレコーダ1は、図2に示す
ように、音声を入力して電気信号に変換する音声データ
入力手段たるマイクロフォン(以下、マイクと略す)1
1と、このマイク11からの音声信号を適正なレベルに
増幅するためのマイクアンプ12と、このマイクアンプ
12により増幅された音声信号から不要な高域成分を除
去するためのローパスフィルタ13と、このローパスフ
ィルタ13から出力されたアナログの音声信号をディジ
タルデータに変換するためのA/D変換器14と、この
ディジタルデータ化された音声信号を録音動作時に符号
化(圧縮)するとともに、再生動作時に符号化データの
復号化(伸張)を行う符号化/復号化部15と、後述す
るシステム制御部18から得られるアドレス情報に基づ
いて後述する音声メモリ17に音声情報を記録/再生す
る際のコントロールを行う記録手段たるメモリ制御部1
6と、上述した記録媒体たるミニチュアカード2に内蔵
された例えば半導体メモリ等で構成されている音声メモ
リ17と、この音声メモリ17を含むミニチュアカード
2をこのディジタルレコーダ1に着脱自在とする記録媒
体装着手段たるミニチュアカード装着部24と、上記符
号化/復号化部15から出力されたディジタルの音声信
号をアナログ信号に変換するためのD/A変換器19
と、このD/A変換器19によりアナログ信号に変換さ
れた音声信号から不要な高域成分を除去するためのロー
パスフィルタ20と、このローパスフィルタ20から出
力されたアナログの音声信号を増幅するパワーアンプ2
1と、このパワーアンプ21により駆動されて音声を発
するスピーカ22と、後述するチェックマークボタン2
3a(図3参照)を含む各種の操作ボタン等により構成
されている操作入力部23と、上述した符号化/復号化
部15,メモリ制御部16,音声メモリ17を含むこの
ディジタルレコーダ1全体を統括的に制御するものであ
り上記操作入力部23の出力が接続されている記録手段
たるシステム制御部18とを有して構成されている。
【0029】図3は、口述中にディジタルレコーダのチ
ェックマークボタンを操作する様子を示す図である。
【0030】上記操作入力部23の区間指定手段たるチ
ェックマークボタン23aは、図3に示すように、ディ
ジタルレコーダ1を把持する手の例えば親指で操作可能
な位置に配設されていて、作成したい文書の内容を口述
するときに、不要語等をしゃべってしまった時点で、そ
の単語が不要語等であることを示すチェックマークを音
声データに付加するために押すボタンである。
【0031】不要語等は無意識に口にしてしまうもので
あるが、口にした瞬間に、発話者にとってはそれが不要
語等であることは認識できるために、上述したような押
し易い位置にチェックマークボタン23aを配置さえし
ておけば、必要に応じて簡単にチェックマークを付加す
ることができる。
【0032】図4は、ディジタルレコーダ1によりミニ
チュアカード2の音声メモリ17に記録されるデータの
フォーマットを示す図である。
【0033】1つの録音データは、ファイル単位で管理
されるようになっていて、各ファイルには、ファイルヘ
ッダとして例えば録音日時や録音時間等の情報が書き込
まれている。そして、残りの領域にはフレームごとのデ
ータが書き込まれる。
【0034】また、各フレームは、上記チェックマーク
ボタン23aが押されたか否かを判別するためのチェッ
クマーク情報と、音声符号化データとを有して構成され
ている。上記チェックマーク情報は、例えば1ビットの
フラグ情報として構成されていて、チェックマークボタ
ン23aが押されたときは「1」、押されなかったとき
は「0」とする。
【0035】次に、図5は上記パーソナルコンピュータ
4の電気的な構成を示すブロック図である。
【0036】このパーソナルコンピュータ4は、上記制
御プログラム8に従って音声再生や情報表示等を行い、
また上記音声認識プログラム9に従って文書作成等を行
うとともに、その他の各種のプログラムに応じて様々な
処理を行うものであって、検出手段であり音声認識手段
を兼ねたCPU31と、このCPU31の作業領域とな
る記録媒体たるメインメモリ32と、例えばハードディ
スクやフロッピーディスク等でなり上記制御プログラム
8や音声認識プログラム9が記録されている記録媒体た
る内部記録媒体33と、各種の外部機器に接続するため
の外部ポート34と、上記ディスプレイ5を接続するイ
ンターフェース(以下、IFと略す)35と、上記キー
ボード6やマウス7を接続するIF36と、音声データ
に基づいて音声を発するスピーカ38と、このスピーカ
38を接続するIF37と、上記PCカードアダプタ3
に装着されたミニチュアカード2が挿入される音声デー
タ取込手段たるPCカードスロット40と、このPCカ
ードスロット40を接続するためのIF39と、を有し
て構成されていて、上記CPU31、メインメモリ3
2、内部記録媒体33、外部ポート34、IF35,3
6,37,39は、バスを介して互いに接続されてい
る。
【0037】なお、音声データは、上記PCカードスロ
ット40を介してミニチュアカード2から直接読み込む
ようにしても良いが、一旦、上記内部記録媒体33に記
録して、この内部記録媒体33から読み出すようにして
も良いし、あるいは、ディジタルレコーダ1から通信手
段等を介して直接読み込むようにしても構わない。この
ように、音声データ取込手段はPCカードスロットに限
定されるものではない。
【0038】また、図6は、パーソナルコンピュータに
おいて制御プログラムを実行させたとき画面表示の一例
を示す図である。
【0039】この図6はメイン画面51を示しており、
ファイルに関する操作や編集に関する操作などを選択す
るためのメニューバー52と、各種の操作をアイコンを
用いて視覚的に分かり易く表示するツールボタンバー5
3と、上記ミニチュアカード2から転送された音声ファ
イルの名前や記録時間の長さ、録音日時や優先度などの
情報を一覧表示するとともに、これらの音声ファイルの
内の再生や音声認識の対象となる音声ファイルをハイラ
イト表示する音声ファイルリストボックス54と、再生
や停止、早送りや早戻しなどの処理を行うための再生コ
ントロール55と、がそれぞれ表示されていて、上記ツ
ールボタンバー53には音声認識ボタン56が設けられ
ている。
【0040】図7は、上記パーソナルコンピュータ4に
おいて行われる音声認識の処理を示すフローチャートで
ある。
【0041】この音声認識は、以下で説明するように、
音素認識、単語認識、文認識の順序で段階的に行われる
ようになっている。
【0042】すなわち、上記メイン画面51において、
ツールボタンバー53上に設けられた上記音声認識ボタ
ン56をクリックすると音声認識が開始され、上記音声
ファイルリストボックス54でハイライト表示されてい
る音声ファイルが、所定フレーム毎に読み込まれて(ス
テップS1)、該フレーム単位で復号化される(ステッ
プS2)。
【0043】この復号化された音声データは、音声認識
プログラム9に渡されてまず音素の認識が行われ(ステ
ップS3)、認識した音素を元に、所定の言語モデルに
基づいて、入力された音声に最も良く適合する単語列を
検索する処理である単語認識が行われる(ステップS
4)。
【0044】ここに上記言語モデルとは、与えられた単
語列に対して、その出現確率を与えるモデルであり、こ
の言語モデルとしては様々なものが考えられているが、
不要語等も考慮しかつ効率的であるようなモデルは、上
述したように、現在のところは存在していない。
【0045】そこで、本実施形態においては、上記図4
に示したような各フレームの先頭に設けられたチェック
マーク情報を確認することにより、そのフレームの直前
における単語が不要語等であるか否かを判断するように
している。
【0046】すなわち、チェックマーク情報が1である
か否かを判断し(ステップS5)、チェックマーク情報
が1である場合にはそのフレームの直前における単語を
次の文認識の処理対象から外し(ステップS6)、チェ
ックマーク情報が0である場合にはそのまま、文認識を
行う(ステップS7)。
【0047】そして、認識された文に基づいてキャラク
タコードに変換するなどの文字変換を行い(ステップS
8)、その認識結果をディスプレイ5の画面に表示して
行く(ステップS9)。
【0048】その後は、音声ファイルの終端に達したか
否かを判断して(ステップS10)、達していない場合
には上記ステップS1に戻り、達した場合には終了す
る。
【0049】なお、上述では、チェックマーク情報を検
出してその結果に応じて不要単語を認識処理の対象から
外す処理を、音声認識プログラム9の中で行うようにし
ているが、これに限定されるものではなく、例えば制御
プログラム8において行って、その結果を音声認識プロ
グラム9に渡すようにしても良い。
【0050】この場合には、制御プログラム8が、パー
ソナルコンピュータ4に、ミニチュアカード2から音声
データを取り込ませ、この音声データに付加されたチェ
ックマーク情報を検出させ、チェックマーク情報が1で
ある音声データは音声認識プログラム9に対して音声デ
ータを渡させず、チェックマーク情報が0である音声デ
ータは音声認識プログラム9に対して音声データを渡さ
せることになる。
【0051】また、上述ではチェックマーク情報が記録
されているフレームの直前の単語を音声認識の対象から
外すようにしているが、これに限るものではなく、例え
ば該チェックマーク情報が記録されているフレームに係
る単語を音声認識の対象から外すように構成しても良
い。
【0052】さらに、上述では音声認識結果をディスプ
レイ5に文字として表示させているが、これに限定され
るものではなく、例えば文字データとして記録媒体に出
力しても良いし、表示と記録とを併せて行うようにして
も良い。
【0053】そして、チェックマーク情報は、上述では
ディジタルレコーダ1による録音時に記録するようにし
ているが、該ディジタルレコーダ1による再生時や、パ
ーソナルコンピュータ4による再生時に、指定すること
ができるように構成しても良い。
【0054】このような実施形態によれば、発話者がチ
ェックマークボタンを押すことによりチェックマークを
音声データに記録し、再生して音声認識をするときの処
理においてチェックマークを検出して、チェックマーク
が記録されたフレームやその前後の単語を音声認識の対
象から外すようにしたために、音声認識処理の負担を大
きくすることなく、つまり特段に高速度の処理を要する
ことなく、従来は行うことができなかった不要語等への
対処を簡単に行うことができる。こうして、適切な音声
認識を行うことができ、間違いの少ない文書が作成され
る品質の良いディクテーションシステムとなる。
【0055】なお、本発明は上述した各実施形態に限定
されるものではなく、発明の主旨を逸脱しない範囲内に
おいて種々の変形や応用が可能であることは勿論であ
る。
【0056】[付記]以上詳述したような本発明の上記
実施形態によれば、以下のごとき構成を得ることができ
る。
【0057】(1) プログラムされたコンピュータに
よって音声データを音声認識する方法であり、音声デー
タが記録された記録媒体より上記音声データを取り込む
工程、上記音声データに付加された、音声データの区間
を識別するチェックマークを検出する工程、所定のチェ
ックマークと対応する音声データは音声認識をせず、そ
れ以外の音声データを音声認識する音声認識工程、上記
音声認識手段により認識された結果を出力する工程、を
含むことを特徴とする音声認識方法。
【0058】(2) 録音中に所望区間を指定して、音
声データにチェックマークを付加するチェックマーク指
定手段と、第1の記録媒体に上記チェックマークを音声
データに付加して記録する記録手段を有するディジタル
レコーダと、上記ディジタルレコーダの第1の記録媒体
に記録されたデータを、コンピュータの第2の記録媒体
に取り込むデータ取込手段と、上記第2の記録媒体に取
り込まれたデータの一覧を表示する表示手段と、上記第
2の記録媒体に取り込まれたデータから所望のデータを
選択する選択手段と、上記選択手段で選択されたデータ
の音声データを取り出し、所定のチェックマークが付加
されていれば、その直前の単語を音声認識せず、それ以
外の音声データは音声認識する音声認識手段と、上記音
声認識により認識された音声を文字変換して画面に表示
する表示手段と、を具備することを特徴とするディクテ
ーションシステム。
【0059】従って、付記(1)に記載の発明による音
声認識方法によれば、チェックマークを検出することに
より、特段に高速度の処理を要することなく、音声に含
まれる不要語等に対処して適切な音声認識を行うことが
できる。
【0060】また、付記(2)に記載の発明によるディ
クテーションシステムによれば、ディジタルレコーダに
よりチェックマークを音声データに付加し、このチェッ
クマークをコンピュータで判断することにより、特段に
高速度の処理を要することなく、音声に含まれる不要語
等に対処して、コンピュータが適切な音声認識を行い、
その結果を画面に表示することができる。
【0061】
【発明の効果】以上説明したように、請求項1による本
発明の音声処理装置によれば、チェックマークを検出す
ることにより、特段に高速度の処理を要することなく、
音声に含まれる不要語等に対処して適切な音声認識を行
うことができる。
【0062】また、請求項2による本発明の音声処理装
置によれば、チェックマークを記録する記録手段を備え
たことにより、特段に高速度の処理を要することなく、
音声に含まれる不要語等に対処することが可能となる。
【0063】さらに、請求項3による本発明の音声認識
プログラムを記録した記録媒体によれば、コンピュータ
にチェックマークを検出させることにより、特段に高速
度の処理を要することなく、音声に含まれる不要語等に
対処してコンピュータに適切な音声認識をさせることが
できる。
【0064】そして、請求項4による本発明の処理プロ
グラムを記録した記録媒体によれば、コンピュータにチ
ェックマークを検出させることにより、特段に高速度の
処理を要することなく、音声に含まれる不要語等に対処
して、音声認識プログラムに対して適切な音声データを
渡させることができる。
【図面の簡単な説明】
【図1】本発明の一実施形態のディクテーションシステ
ムの概念的な全体構成図。
【図2】上記実施形態のディジタルレコーダの電気的な
構成を示すブロック図。
【図3】上記実施形態において、口述中にディジタルレ
コーダのチェックマークボタンを操作する様子を示す
図。
【図4】上記実施形態のディジタルレコーダによりミニ
チュアカードの音声メモリに記録されるデータのフォー
マットを示す図。
【図5】上記実施形態のパーソナルコンピュータの電気
的な構成を示すブロック図。
【図6】上記実施形態のパーソナルコンピュータにおい
て、制御プログラムを実行させたとき画面表示の一例を
示す図。
【図7】上記実施形態のパーソナルコンピュータにおい
て行われる音声認識の処理を示すフローチャート。
【符号の説明】
1…ディジタルレコーダ(音声処理装置) 2…ミニチュアカード(記録媒体) 3…PCカードアダプタ 4…パーソナルコンピュータ(音声処理装置) 5…ディスプレイ(出力手段) 8…制御プログラム 9…音声認識プログラム 11…マイクロフォン(マイク)(音声データ入力手
段) 16…メモリ制御部(記録手段) 17…音声メモリ(記録媒体) 18…システム制御部(記録手段) 23…操作入力部 23a…チェックマークボタン(区間指定手段) 24…ミニチュアカード装着部(記録媒体装着手段) 31…CPU(検出手段、音声認識手段) 32…メインメモリ(記録媒体) 33…内部記録媒体(記録媒体) 40…PCカードスロット(音声データ取込手段) 56…音声認識ボタン

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 音声データが記録された記録媒体より上
    記音声データを取り込む音声データ取込手段と、 上記音声データに付加された、音声データの区間を識別
    するチェックマークを検出する検出手段と、 所定のチェックマークと対応する音声データは音声認識
    をせず、それ以外の音声データを音声認識する音声認識
    手段と、 上記音声認識手段により認識された結果を出力する出力
    手段と、 を具備することを特徴とする音声処理装置。
  2. 【請求項2】 音声データを入力する音声データ入力手
    段と、 上記音声データ入力手段で入力した音声データの所望の
    区間を指定可能な、区間指定手段と、 上記区間指定手段で指定された区間を識別するチェック
    マークを、音声データに付加して記録媒体に記録する記
    録手段と、 上記記録媒体を着脱自在に装着する記録媒体装着手段
    と、 を具備することを特徴とする音声処理装置。
  3. 【請求項3】 コンピュータによって音声認識をするた
    めの音声認識プログラムを記録した記録媒体であって、
    上記音声認識プログラムは、 コンピュータに、音声データが記録された記録媒体より
    上記音声データを取り込ませ、 上記音声データに付加された、音声データの区間を識別
    するチェックマークを検出させ、 所定のチェックマークと対応する音声データは音声認識
    をさせず、それ以外の音声データを音声認識をさせ、 上記音声認識された結果を出力させることを特徴とす
    る、音声認識プログラムを記録した記録媒体。
  4. 【請求項4】 コンピュータによって音声認識プログラ
    ムに対して音声データを渡す処理をするための処理プロ
    グラムを記録した記録媒体であって、上記処理プログラ
    ムは、 コンピュータに、音声データが記録された記録媒体より
    上記音声データを取り込ませ、 上記音声データに付加された、音声データの区間を識別
    するチェックマークを検出させ、 所定のチェックマークと対応する音声データは音声認識
    プログラムに対して音声データを渡させず、それ以外の
    音声データは音声認識プログラムに対して音声データを
    渡させることを特徴とする、処理プログラムを記録した
    記録媒体。
JP10011631A 1997-06-06 1998-01-23 音声処理装置、音声認識プログラムを記録した記録媒体、処理プログラムを記録した記録媒体 Withdrawn JPH11212590A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP10011631A JPH11212590A (ja) 1998-01-23 1998-01-23 音声処理装置、音声認識プログラムを記録した記録媒体、処理プログラムを記録した記録媒体
US09/088,996 US6353809B2 (en) 1997-06-06 1998-06-02 Speech recognition with text generation from portions of voice data preselected by manual-input commands
EP98110264A EP0887788B1 (en) 1997-06-06 1998-06-05 Voice recognition apparatus for converting voice data present on a recording medium into text data
DE69829802T DE69829802T2 (de) 1997-06-06 1998-06-05 Spracherkennungsapparat zum Übertragen von Sprachdaten auf einem Datenträger in Textdaten

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10011631A JPH11212590A (ja) 1998-01-23 1998-01-23 音声処理装置、音声認識プログラムを記録した記録媒体、処理プログラムを記録した記録媒体

Publications (1)

Publication Number Publication Date
JPH11212590A true JPH11212590A (ja) 1999-08-06

Family

ID=11783299

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10011631A Withdrawn JPH11212590A (ja) 1997-06-06 1998-01-23 音声処理装置、音声認識プログラムを記録した記録媒体、処理プログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JPH11212590A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019133127A (ja) * 2018-01-29 2019-08-08 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 音声認識方法、装置及びサーバ
CN111049996A (zh) * 2019-12-26 2020-04-21 苏州思必驰信息科技有限公司 多场景语音识别方法及装置、和应用其的智能客服系统
JP2022141541A (ja) * 2021-03-15 2022-09-29 株式会社ナカヨ 通話録音システム、主装置、音声認識依頼端末、プログラム、および電話機の通話録音方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019133127A (ja) * 2018-01-29 2019-08-08 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 音声認識方法、装置及びサーバ
US11398228B2 (en) 2018-01-29 2022-07-26 Beijing Baidu Netcom Science And Technology Co., Ltd. Voice recognition method, device and server
CN111049996A (zh) * 2019-12-26 2020-04-21 苏州思必驰信息科技有限公司 多场景语音识别方法及装置、和应用其的智能客服系统
JP2022141541A (ja) * 2021-03-15 2022-09-29 株式会社ナカヨ 通話録音システム、主装置、音声認識依頼端末、プログラム、および電話機の通話録音方法

Similar Documents

Publication Publication Date Title
EP0887788B1 (en) Voice recognition apparatus for converting voice data present on a recording medium into text data
JP3610083B2 (ja) マルチメディアプレゼンテーション装置および方法
US8150687B2 (en) Recognizing speech, and processing data
JPH07325600A (ja) 携帯用録音再生装置,icメモリカ−ド記録フォ−マット,録音及び再生方法
JP2006098993A (ja) 音声処理装置およびそのためのコンピュータプログラム
JP2003289387A (ja) ボイスメッセージ処理システムおよび方法
RU2223554C2 (ru) Устройство распознавания речи
JP2004534326A (ja) 決済情報を提供する方法並びに口述の筆記のための方法及び装置
JP2002132287A (ja) 音声収録方法および音声収録装置および記憶媒体
JP4622728B2 (ja) 音声再生装置および音声再生処理プログラム
JPH11212590A (ja) 音声処理装置、音声認識プログラムを記録した記録媒体、処理プログラムを記録した記録媒体
JP2001325250A (ja) 議事録作成装置および議事録作成方法および記録媒体
JP5223843B2 (ja) 情報処理装置およびプログラム
JP4235635B2 (ja) データ検索装置及びその制御方法
KR20070042000A (ko) 동영상 스트림의 챕터 별 제목 설정 방법 및 장치
JPH11242496A (ja) 情報再生装置
JP2000075893A (ja) 音声認識装置
JP2723214B2 (ja) 音声文書作成装置
JP4146949B2 (ja) 音声処理装置
JP2000259181A (ja) 音声情報認識装置、音声情報認識方法、音声情報の認識をするためのプログラムを記録した記録媒体
JP2835320B2 (ja) 音声文書作成装置
KR102274275B1 (ko) 음성파일이 연동된 텍스트 링크 생성 어플리케이션 및 방법
JP2010060729A (ja) 受付装置、受付方法、及び受付プログラム
JP2005024736A (ja) 時系列情報制御システム及びその方法並びに時系列情報制御プログラム
JP2006323857A (ja) 音声認識処理装置および音声認識処理プログラムを記録した記録媒体

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20050405