JP2835320B2 - 音声文書作成装置 - Google Patents

音声文書作成装置

Info

Publication number
JP2835320B2
JP2835320B2 JP9086476A JP8647697A JP2835320B2 JP 2835320 B2 JP2835320 B2 JP 2835320B2 JP 9086476 A JP9086476 A JP 9086476A JP 8647697 A JP8647697 A JP 8647697A JP 2835320 B2 JP2835320 B2 JP 2835320B2
Authority
JP
Japan
Prior art keywords
voice
input
recognition result
unit
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP9086476A
Other languages
English (en)
Other versions
JPH1091392A (ja
Inventor
洋一 竹林
宏之 坪井
博史 金沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP9086476A priority Critical patent/JP2835320B2/ja
Publication of JPH1091392A publication Critical patent/JPH1091392A/ja
Application granted granted Critical
Publication of JP2835320B2 publication Critical patent/JP2835320B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Description

【発明の詳細な説明】 【0001】 【発明の属する技術分野】本発明は、音声入力による文
書作成を効率よく行うことのできる音声文書作成装置に
関する。 【0002】 【従来の技術】文書の作成は、専ら筆記具を用いて原稿
用紙に筆記することにより行われる。 【0003】一方、多忙な文書作成者にあっては、速記
者を利用して口述筆記によって文書作成したり、作成文
書情報をテープレコーダ等に音声入力し、これを秘書に
より書面化させる等して文書作成が行われる。 【0004】これに対して最近では、日本語ワードプロ
セッサの普及に伴い、例えばキーボード操作による文書
情報の一括入力方式で、簡易に文書作成が行われるよう
になってきている。 【0005】ところが文書情報の最も自然な入力手段は
音声入力であり、キーボード等の煩わしい操作が全く不
要である。そこで、音声入力による文書作成装置、つま
り音声ワードプロセッサの開発が種々試みられている。 【0006】さて、この種の音声ワードプロセッサは、
情報処理技術および半導体製造技術の発展を背景とし
て、その実用化の研究が進められているものである。 【0007】ところが、音声認識技術は、例えば工場の
製品管理工程で特定話者認識技術として、また電話サー
ビス等における限られた認識対象に対する不特定話者認
識技術として実用化されているに過ぎない。つまり音声
認識は、入力音声の種々の変動要因を考慮して認識処理
する必要がある。このため、その認識性能の向上を図る
べく、認識処理方式に対する種々の工夫が試みられ、そ
の認識性能が除々に高められつつある。 【0008】 【発明が解決しようとする課題】しかし人間にとっても
会話において誤認識が生じるように、音声認識装置にお
いて100%完全な認識率を達成することは到底困難で
ある。これゆえ、音声入力によって文書作成した場合、
筆記による文書作成時にも増して、作成文書情報の厳密
なチェックが必要となる。 【0009】本発明は、上記事情を考慮してなされたも
ので、音声入力により効果的に文書作成し、かつその作
成文書の編集チェックを容易に、かつ効率良く行うこと
のできる音声文書作成装置を提供することを目的とす
る。 【0010】 【課題を解決するための手段】本発明によれば、所定の
言語単位で発声入力された音声を分析する手段と、この
音声の分析結果を音声辞書と照合して所定の音声処理単
位に対する認識候補を求める手段と、この認識候補の系
列を言語辞書と照合して前記所定の言語単位の入力音声
に対する認識結果を求める手段と、この認識結果を記憶
する第1の記憶手段と、前記認識結果に対応する入力音
声データを記憶する第2の記憶手段と、前記第1の記憶
手段に記憶された前記認識結果と前記第2の記憶手段に
記憶された前記入力音声データとを所定の言語処理単位
で対応付けて管理する対応管理手段と、前記第1の記憶
手段に記憶された認識結果を規則合成処理にて音声出力
する第1の音声出力手段と、前記第2の記憶手段に記憶
された入力音声データを再生する第2の音声出力手段
と、前記第1の音声出力手段の動作中に外部から与えら
れた入力音声データの参照指示に応答して、該第1の音
声出力手段の動作を中止させる制御を行った後、該第1
の音声出力手段により最後に音声出力された前記認識結
果の所定数の言語処理単位前の認識結果に対応する前記
入力音声データから再生を開始させる制御を前記第2の
音声出力手段に対して行う制御手段とを具備したことを
特徴とする。 【0011】好ましくは、音声入力される所定の言語単
位は、単語、文節、句または文等からなるものである。 【0012】また、好ましくは、前記対応管理手段は、
前記第1の記憶手段に記憶された認識結果が編集処理さ
れた場合、これに伴って前記第2の記憶手段に記憶され
た入力音声データも、その認識結果に対応して編集処理
するようにしてもよい。 【0013】本発明によれば、認識結果の規則合成処理
による音声出力中に、入力音声データの参照が指示され
ると、認識結果の規則合成処理による音声出力を打ち切
り、これに代えて、最後に音声出力された認識結果の所
定数の言語処理単位前の認識結果に対応する入力音声デ
ータから再生させることができる。 【0014】従って本発明によれば、認識結果の規則合
成処理による音声出力中に、これに対応する入力音声の
参照が容易にできるので、認識結果のチェックをより効
果的に行うことができる。 【0015】 【発明の実施の形態】以下、図面を参照しながら発明の
実施の形態を説明する。 【0016】図1は本発明の一実施形態に係る音声文書
作成装置の構成を示す図であり、1はマイクロフォンや
増幅器等からなる音声入力部である。この音声入力部1
から入力される音声情報は、音声検出部2にて音声区間
検出される。制御部3はこの音声区間検出情報に従って
以下に説明する音声認識処理の実行等を制御する。 【0017】音声入力部1から認識対象とする音声が入
力されると、例えば複数チャンネルのバンドパスフィル
タ群からなる音声分析部4は、その入力音声のスペクト
ル成分を検出する等して該入力音声の特徴パラメータを
求めている。音声認識部5は、上記特徴パラメータの時
系列からその音声辞書6とを照合して各認識対象カテゴ
リに対する類似度を計算する等して、該入力音声を認識
処理している。 【0018】言語処理部7は、このようにして求められ
る入力音声の認識結果の系列を、言語辞書8を参照して
言語的に検定し、例えば複数の認識候補の組合せから言
語的に成立する認識結果系列を、前記入力音声によって
示される作成文書情報として得ている。 【0019】このようにして認識処理された認識結果
が、ファイル管理部9の管理の下で文書ファイル10に
順に格納される。 【0020】一方、入力音声に対する認識結果が文書フ
ァイル10に格納されるとき、その認識結果を得た前記
入力音声、あるいはこの入力音声を分析処理してなる音
声データが上記認識結果に対応して音声ファイル11に
格納される。この音声ファイル11は、例えば入力音声
データをディジタル化して記憶し、その記憶音声データ
を選択的に読出して再生出力するものである。 【0021】しかして、文書作成に供する音声を一括入
力し、その入力音声に対する認識処理が終了すると、オ
ペレータとの対話形インタフェース部を形成する表示部
12にて前記文書ファイル10に格納された認識結果
(作成された文書情報)を表示し、そのチェックが行わ
れる。 【0022】ここで、その表示された認識結果に対し
て、その認識結果を得た入力音声を参照したい場合に
は、音声出力指示部13から入力音声の参照を行うべき
認識結果の特定と、その入力音声の参照指示が与えられ
る。この指示情報は、前記制御部3に与えられると共
に、前記音声ファイル11に与えられる。この結果、前
記ファイル管理部9の制御の下で、前記音声ファイル1
1から上記指定された認識結果に対応する入力音声デー
タが音声出力部14に読出され、該入力音声が再生出力
される。この再生出力された音声によって、オペレータ
は認識結果の合否を判定して適宜その修正を行うことに
なる。この認識結果の修正は、例えば正しい認識カテゴ
リをキーボード入力する等して行われ、この入力データ
によって前記文書ファイル11に格納された該当認識結
果が修正されることになる。 【0023】なお、音声出力部14から出力された音声
に従って、前記文書ファイル10に格納された文書情報
(認識結果)編集処理が必要な場合には、その編集情報
が編集情報入力部15から入力される。この入力された
編集情報に従って前記ファイル管理部9の制御の下で、
前記文書ファイル10に格納された文書情報の編集が行
われる。この場合、文書ファイル10に格納された認識
結果の編集作業に伴って、音声ファイル11に格納され
た音声データも、その認識結果に対応して編集処理され
る。 【0024】ところで本装置にあっては、必要に応じて
前記文書ファイル10に格納された認識結果を規則合成
部16に読出し、該認識結果を規則合成処理してその音
声データが求められるようになっている。そしてその規
則合成された音声データを音声出力部17を介して音声
出力し得るものとなっている。 【0025】この機能は、認識処理した結果を音声によ
ってチェックする場合に用いられるもので、例えば文書
ファイル10に格納された認識結果の系列が言語処理単
位で順に規則合成されて出力されるようになっている。
この場合、制御部3は、規則合成して音声出力した認識
結果に対してその認識結果を得た入力音声の参照が指示
されると、上記認識結果の規則合成による音声出力を打
切る。そしてその打切られた音声の言語処理単位の数単
位前の入力音声データからの再生を開始する。 【0026】つまり、ファイル管理部9の制御の下で文
書ファイル10からの認識結果を所定の言語単位毎に読
出し、これを規則合成して音声出力している時点で入力
音声の参照が指示されると、上記文書ファイル10から
の認識結果の読出しに代えて、前記音声ファイル11か
らの入力音声データの読出しを開始する。この音声ファ
イル11からの音声データの読出しは、上記認識結果の
読出しの中止が指示された言語処理単位の数単位前の言
語処理単位から行われる。 【0027】この結果、オペレータは、認識結果の音声
出力を得た後、その認識結果を得た入力音声を繰り返し
得ることが可能となり、これによってその照合が行われ
る。 【0028】このように本装置によれば、入力音声を認
識処理し、その認識結果を順次文書ファイル10に格納
する際に、同時にその認識結果を得た入力音声データを
音声ファイル11に格納し、これらを所定の言語処理単
位で相互に対応させて管理しているので、認識結果をチ
ェック時に、その認識結果を得た入力音声を容易に参照
することが可能となる。しかも所定の言語処理単位で、
任意に入力音声を参照することが可能となる。 【0029】ゆえに、文書作成に供する音声データを一
括入力し、その認識処理を行わせた後、入力音声を適宜
参照して認識結果のチェックを簡易に、かつ効果的に行
うことが可能となる。従って、音声の発声入力者が自ら
認識結果のチェックを行うことが可能なことはもとよ
り、秘書等の第3者によって作成文書のチェックを行う
ことが可能となる等、実用上多大なる効果が奏せられ
る。 【0030】なお、前記音声ファイル11に分析処理さ
れた入力音声データを格納する場合には、その分析音声
データに従って入力音声を再合成する処理が必要となる
ことは言うまでもない。また入力音声の認識処理方式
や、入力音声データの記憶形態等は、装置の仕様に応じ
て定めれば良いものである。 【0031】本発明は、上述した実施の形態に限定され
るものではなく、その技術的範囲において種々変形して
実施することができる。 【0032】 【発明の効果】本発明によれば、認識結果の規則合成処
理による音声出力中に入力音声データの参照を指示する
ことにより、実際の入力音声を参照することができるの
で、認識結果のチェックをより効果的に行うことができ
る。
【図面の簡単な説明】 【図1】本発明の一実施形態に係る音声文書作成装置の
構成を示す図 【符号の説明】 1…音声入力部 2…音声検出部 3…制御部 4…音声分析部 5…音声認識部 6…音声辞書 7…言語処理部 8…言語辞書 9…ファイル管理部 10…文書ファイル 11…音声ファイル 12…表示部 13…音声出力指示部 14…音声出力部 15…編集情報入力部 16…規則合成部 17…音声出力部
───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.6,DB名) G06F 3/16 G06F 17/21 G10L 3/00

Claims (1)

  1. (57)【特許請求の範囲】 1.所定の言語単位で発声入力された音声を分析する手
    段と、 この音声の分析結果を音声辞書と照合して所定の音声処
    理単位に対する認識候補を求める手段と、 この認識候補の系列を言語辞書と照合して前記所定の言
    語単位の入力音声に対する認識結果を求める手段と、 この認識結果を記憶する第1の記憶手段と、 前記認識結果に対応する入力音声データを記憶する第2
    の記憶手段と、 前記第1の記憶手段に記憶された前記認識結果と前記第
    2の記憶手段に記憶された前記入力音声データとを所定
    の言語処理単位で対応付けて管理する対応管理手段と、 前記第1の記憶手段に記憶された認識結果を規則合成処
    理にて音声出力する第1の音声出力手段と、 前記第2の記憶手段に記憶された入力音声データを再生
    する第2の音声出力手段と、 前記第1の音声出力手段の動作中に外部から与えられた
    入力音声データの参照指示に応答して、該第1の音声出
    力手段の動作を中止させる制御を行った後、該第1の音
    声出力手段により最後に音声出力された前記認識結果の
    所定数の言語処理単位前の認識結果に対応する前記入力
    音声データから再生を開始させる制御を前記第2の音声
    出力手段に対して行う制御手段とを具備したことを特徴
    とする音声文書作成装置。 2.音声入力される所定の言語単位は、単語、文節、句
    または文等からなるものであることを特徴とする請求項
    1に記載の音声文書作成装置。 3.前記対応管理手段は、前記第1の記憶手段に記憶さ
    れた認識結果が編集処理された場合、これに伴って前記
    第2の記憶手段に記憶された入力音声データも、その認
    識結果に対応して編集処理するものであることを特徴と
    する請求項1に記載の音声文書作成装置。
JP9086476A 1997-04-04 1997-04-04 音声文書作成装置 Expired - Lifetime JP2835320B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9086476A JP2835320B2 (ja) 1997-04-04 1997-04-04 音声文書作成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9086476A JP2835320B2 (ja) 1997-04-04 1997-04-04 音声文書作成装置

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP60253206A Division JP2723214B2 (ja) 1985-11-12 1985-11-12 音声文書作成装置

Publications (2)

Publication Number Publication Date
JPH1091392A JPH1091392A (ja) 1998-04-10
JP2835320B2 true JP2835320B2 (ja) 1998-12-14

Family

ID=13888033

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9086476A Expired - Lifetime JP2835320B2 (ja) 1997-04-04 1997-04-04 音声文書作成装置

Country Status (1)

Country Link
JP (1) JP2835320B2 (ja)

Also Published As

Publication number Publication date
JPH1091392A (ja) 1998-04-10

Similar Documents

Publication Publication Date Title
EP0887788B1 (en) Voice recognition apparatus for converting voice data present on a recording medium into text data
JP3610083B2 (ja) マルチメディアプレゼンテーション装置および方法
US8150687B2 (en) Recognizing speech, and processing data
US6704709B1 (en) System and method for improving the accuracy of a speech recognition program
JP3459712B2 (ja) 音声認識方法及び装置及びコンピュータ制御装置
US9412359B2 (en) System and method for cloud-based text-to-speech web services
EA004352B1 (ru) Система и способ автоматизированной записи речи с использованием двух экземпляров преобразования речи и автоматизированной коррекции
ZA200200904B (en) System and method for improving the accuracy of a speech recognition program.
JP2001282277A (ja) 音声情報処理装置及びその方法と記憶媒体
JP2001272990A (ja) 対話記録編集装置
JPH0482357A (ja) 記録および検索方法ならびに自動記録装置
JP3936351B2 (ja) 音声応答サービス装置
JP2723214B2 (ja) 音声文書作成装置
JP2835320B2 (ja) 音声文書作成装置
JPH06110650A (ja) 音声対話装置
AU776890B2 (en) System and method for improving the accuracy of a speech recognition program
KR102274275B1 (ko) 음성파일이 연동된 텍스트 링크 생성 어플리케이션 및 방법
JP3318775B2 (ja) プログラム開発支援方法およびその装置
JPH11212590A (ja) 音声処理装置、音声認識プログラムを記録した記録媒体、処理プログラムを記録した記録媒体
JP3760420B2 (ja) 音声応答サービス装置
JP3285145B2 (ja) 録音音声データベース検証方法
JPH11272712A (ja) データベース構築支援装置
JP3363636B2 (ja) 音声合成に関わるアクセント制御装置及び方法
KR20220050342A (ko) 음성 합성 서비스를 제공하는 장치, 단말기 및 방법
JP2003173196A (ja) 音声合成方法およびその装置

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term