JP2000076041A - Voice recognizing device - Google Patents

Voice recognizing device

Info

Publication number
JP2000076041A
JP2000076041A JP10245531A JP24553198A JP2000076041A JP 2000076041 A JP2000076041 A JP 2000076041A JP 10245531 A JP10245531 A JP 10245531A JP 24553198 A JP24553198 A JP 24553198A JP 2000076041 A JP2000076041 A JP 2000076041A
Authority
JP
Japan
Prior art keywords
voice
information
file
display mode
setting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP10245531A
Other languages
Japanese (ja)
Inventor
Kenji Fujibayashi
謙治 藤林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Olympus Corp
Original Assignee
Olympus Optical Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Olympus Optical Co Ltd filed Critical Olympus Optical Co Ltd
Priority to JP10245531A priority Critical patent/JP2000076041A/en
Publication of JP2000076041A publication Critical patent/JP2000076041A/en
Withdrawn legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To provide a voice recognizing device capable of automatically reflecting the display style of voice recognized sentences with the taste of recording person or operator without performing any complicated setting. SOLUTION: This voice recognizing device is provided with a digital audio data fetching part 1 for fetching an audio file containing audio data and ID information, operating part 2 for setting a parameter such as font or page setting related to the display style of sentences and relating it with the ID information, voice recognition executing and control part 3 for recognizing the voice of audio data in the audio file fetched by the digital audio data fetching part 1, converting it into a sentence, detecting the ID information of the audio file and controlling the display style of voice recognized sentences based on the parameter related to that ID information, and display part 4 for displaying the voice recognized sentences according to the display style controlled by this voice recognition executing and control part 3.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、音声認識装置、よ
り詳しくは、音声データを音声認識して文章に変換する
音声認識装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a speech recognition device, and more particularly, to a speech recognition device for recognizing speech data and converting it into a sentence.

【0002】[0002]

【従来の技術】従来より行われていた口述内容の文章化
は、録音者がテープレコーダ等を用いて口述の録音を行
い、その口述録音をしたテープをトランスクリプショニ
スト(トランスクラーバーとも呼ばれる)に渡して、ト
ランスクリプショニストが、そのテープを再生して聞き
取った音声を、タイプライターやワードプロセッサを用
いて文書化するものであった。
2. Description of the Related Art Conventionally, dictation contents are written in a dictation by a recorder using a tape recorder or the like, and a transcriptist (also called a transclaver) is recorded on the dictated tape. ), A transcriptionist would play back the tape and document the audio heard using a typewriter or word processor.

【0003】そして、例えばオフィス等の作業現場にお
いては、1人のトランスクリプショニストに対して複数
の録音者から口述内容のトランスクリプトの依頼がある
場合が一般的であるし、大きなオフィスでは録音者の人
数が多くなるために、トランスクリプショニスト自体を
複数人用意している場合もあった。
[0003] For example, at a work site such as an office, a plurality of recorders generally request a transcript of dictation contents from a single transcriptionist. Due to the large number of people, there were cases where multiple transcriptionists themselves were prepared.

【0004】一方、今日では音声認識技術が発達し、例
えばパーソナルコンピュータに口述した音声データを取
り込んで、音声認識ソフトウェアを実行することによ
り、その口述内容を文章化する作業が行われるようにな
っている。
[0004] On the other hand, speech recognition technology has been developed today. For example, by taking dictated speech data into a personal computer and executing speech recognition software, a task of writing the dictated content into sentences has been performed. I have.

【0005】こうした音声認識ソフトウェアとしては、
マイクロホンなどによりパーソナルコンピュータにアナ
ログ信号として入力された音声データを音声認識するも
のが従来より製品化されている。
[0005] Such speech recognition software includes:
2. Description of the Related Art A device that recognizes voice data input as an analog signal to a personal computer by a microphone or the like has been commercialized.

【0006】さらに、様々な環境下で手軽に音声入力す
ることができるように工夫した技術が提案されていて、
例えば本出願人がIBM社と共同開発して製品化し発売
している「ViaVoice Transcription」が挙げられる。
Further, there have been proposed techniques devised so that voice input can be easily performed in various environments.
For example, there is “ViaVoice Transcription” which is jointly developed and commercialized by IBM and sold by the present applicant.

【0007】この音声認識ソフトウェアは、例えば本出
願人が提案して製品化しているような携帯型のディジタ
ル音声記録装置を用いて例えば外出先などで手軽に音声
の録音を行い、この録音されたディジタル音声ファイル
を後でパーソナルコンピュータに取り込んで、上記音声
認識ソフトウェアにより認識させて文章化させることに
着目したものである。
[0007] This voice recognition software can easily record a voice, for example, on the go, using a portable digital voice recording device as proposed and commercialized by the present applicant. The present invention focuses on capturing a digital voice file later into a personal computer, recognizing the digital voice file using the voice recognition software, and converting the file into a sentence.

【0008】この音声認識ソフトウェアにより、音声認
識された文章はテキストデータに変換されるために、そ
の後のレイアウトや書式の設定等の本格的な加工は、ワ
ードプロセッシングソフトウェア等で行うようになって
いる。そこで、該音声認識ソフトウェアから、音声認識
したテキストデータを、簡単にワードプロセッシングソ
フトウェアへ転送することができるように配慮されてい
る。
Since the sentence recognized by the speech recognition software is converted into text data, the subsequent full-scale processing such as layout and format setting is performed by word processing software or the like. . Therefore, consideration has been given so that the text data subjected to the voice recognition can be easily transferred from the voice recognition software to the word processing software.

【0009】1人が1台のパーソナルコンピュータを占
有して使用するのが一般的になりつつある今日では、音
声認識装置を用いてトランスクリプトする作業を行う場
合には、録音者がすなわち音声認識装置(つまり音声認
識ソフトウェアを搭載したパーソナルコンピュータな
ど)のオペレータになるというケースが珍しくないもの
となっている。
[0009] Now that it is becoming common for one person to occupy and use one personal computer, when performing a transcript operation using a speech recognition device, the recorder must be able to use a speech recognition device. It is not uncommon to become an operator of a device (ie, a personal computer with voice recognition software, etc.).

【0010】しかし、現在の音声認識技術は完全なもの
ではないために認識結果に誤りが生じることがあり、こ
うした誤りを訂正する作業が必要になっている。このた
めに、音声認識を行わせた後に誤りを訂正して、なおか
つ体裁の整った文書に仕上げる作業を専門的に行う音声
認識オペレータが、複数の録音者による口述録音の文章
化作業を請負うことが考えられる。
However, since the current speech recognition technology is not perfect, errors may occur in the recognition result, and it is necessary to correct such errors. For this purpose, a speech recognition operator who specializes in correcting errors after performing speech recognition and finishing up a well-formed document should undertake the work of writing dictation recordings by multiple recorders. Can be considered.

【0011】このような場合には、録音者の要請によっ
て印刷する文章のフォントを指定されるケースや、文書
が手紙やFAXなどである場合には、名前や住所などの
所定の内容を付け加えるケースなどが考えられる。
In such a case, a case where a font of a sentence to be printed is specified at the request of the recorder or a case where predetermined contents such as a name and an address are added when the document is a letter or a facsimile. And so on.

【0012】こうした指定内容を口述内容とともに音声
で録音して音声認識オペレータに伝達することはあまり
ないと考えられるために、その配置に関する指示が録音
されていても、それを自動的に認識して文章の体裁に反
映させるような技術は確立されていない。
Since it is considered that it is unlikely that such a specified content is recorded in voice along with the dictation content and transmitted to the voice recognition operator, even if an instruction regarding the arrangement is recorded, it is automatically recognized. There is no established technology that reflects the appearance of text.

【0013】そこで結局は、音声認識オペレータが、音
声認識で得られた文章をワードプロセッサ(あるいはパ
ーソナルコンピュータ上で動作するワードプロセッシン
グソフトウェア)へ転送して、該ワードプロセッサに予
め登録されているページ設定、フォント、書式、テンプ
レート、ページのヘッダやフッタ、定型文、ロゴ、イラ
ストなどの中から録音者の好みに合致したものを選択し
たり、あるいはキーボードから改めて入力したりして文
書としての体裁を整える作業を行い、その結果得られた
表示態様の文章を印刷等することになっていた。
In the end, the speech recognition operator transfers the sentence obtained by the speech recognition to a word processor (or word processing software operating on a personal computer), and sets the page settings and fonts registered in advance in the word processor. Work to select the one that matches the preference of the recorder from among, formats, templates, page headers and footers, fixed phrases, logos, illustrations, etc., or to enter it again from the keyboard, to prepare the appearance as a document Is performed, and the text in the display mode obtained as a result is printed or the like.

【0014】なお、従来のパーソナルコンピュータ上で
動作するワードプロセッシングソフトウェアにおいて
は、パーソナルコンピュータの環境設定を、ログオンし
たユーザに関連付けて自動的に設定するものは従来より
提案されていた。
In the conventional word processing software operating on a personal computer, there has been conventionally proposed one that automatically sets the environment setting of the personal computer in association with a logged-on user.

【0015】[0015]

【発明が解決しようとする課題】上述したような従来の
音声認識ソフトウェアやワードプロセッシングソフトウ
ェア等を用いる音声認識装置においては、録音者や操作
者(音声認識オペレータ)のニーズや好みに合った表示
態様を音声認識した文章に反映させるためには、音声認
識の操作毎に各設定を手動で行う必要があり、操作性が
良いとはいえなかった。
In a conventional speech recognition apparatus using the above-described conventional speech recognition software or word processing software, a display mode suitable for the needs and preferences of a recorder or an operator (speech recognition operator). In order to reflect this in the text that has been subjected to speech recognition, it is necessary to manually perform each setting for each operation of speech recognition, and it cannot be said that the operability is good.

【0016】特に、録音者が複数存在する場合や、音声
認識オペレータが複数存在する場合には、こうした操作
性を向上させる技術に対するニーズが高く、その実用化
が待たれている。
In particular, when there are a plurality of recorders or when there are a plurality of voice recognition operators, there is a strong need for a technique for improving such operability, and its practical application is awaited.

【0017】本発明は上記事情に鑑みてなされたもので
あり、音声認識した文章の表示態様に録音者や操作者の
好みを自動的に反映させることができ、作業の効率化を
図ることができる音声認識装置を提供することを目的と
している。
The present invention has been made in view of the above circumstances, and it is possible to automatically reflect the preference of a recorder or an operator in a display mode of a sentence recognized by voice, thereby improving work efficiency. It is an object of the present invention to provide a voice recognition device capable of performing the above.

【0018】[0018]

【課題を解決するための手段】上記の目的を達成するた
めに、第1の発明による音声認識装置は、音声データお
よびこの音声データに付加された該音声データに関する
付加情報を音声認識して文章に変換する音声認識装置に
おいて、上記付加情報を読み取る読取手段と、上記付加
情報に基づいて上記変換された文章の表示態様を制御す
る制御手段と、を備えたものである。
In order to achieve the above object, a voice recognition apparatus according to a first aspect of the present invention performs voice recognition on voice data and additional information related to the voice data added to the voice data, thereby forming a sentence. A speech recognition device for converting a sentence into text data includes reading means for reading the additional information, and control means for controlling a display mode of the converted text based on the additional information.

【0019】また、第2の発明による音声認識装置は、
上記第1の発明による音声認識装置において、上記制御
手段が、上記付加情報がないあるいは無効なものである
場合には、所定の表示態様に関する情報に基づいて上記
変換された文章の表示態様を制御するものである。
Further, the speech recognition apparatus according to the second aspect of the present invention
In the voice recognition device according to the first aspect, when the control unit does not have the additional information or is invalid, the control unit controls a display mode of the converted sentence based on information on a predetermined display mode. Is what you do.

【0020】さらに、第3の発明による音声認識装置
は、上記第1の発明による音声認識装置において、上記
制御手段が、上記付加情報に基づいて文章の表示態様に
関するパラメータを設定する設定手段を含み、上記パラ
メータに基づいて上記変換された文章の表示態様を制御
するものである。
Further, the speech recognition apparatus according to a third aspect of the present invention is the speech recognition apparatus according to the first aspect, wherein the control means includes setting means for setting a parameter relating to a display mode of a sentence based on the additional information. , And controls the display mode of the converted text based on the parameters.

【0021】そして、第4の発明による音声認識装置
は、上記第3の発明による音声認識装置において、上記
設定手段が、上記付加情報に基づいて一つ以上のパラメ
ータを設定する際に、設定されるべきパラメータの内、
上記付加情報に対応付けられていないパラメータについ
ては予め決められた値に設定するものである。
The speech recognition apparatus according to a fourth aspect of the present invention is the speech recognition apparatus according to the third aspect, wherein the setting means sets one or more parameters based on the additional information. Of the parameters to be
Parameters not associated with the additional information are set to predetermined values.

【0022】加えて、第5の発明による音声認識装置
は、上記第1の発明による音声認識装置において、上記
制御手段が、上記付加情報の内、ユーザID情報に基づ
いて上記変換された文章の表示態様を制御するものであ
る。
In addition, the speech recognition apparatus according to a fifth aspect of the present invention is the speech recognition apparatus according to the first aspect of the present invention, wherein the control means controls the conversion of the sentence converted based on the user ID information in the additional information. This controls the display mode.

【0023】[0023]

【発明の実施の形態】以下、図面を参照して本発明の実
施の形態を説明する。図1から図6は本発明の一実施形
態を示したものであり、図1は音声認識装置の構成を示
すブロック図である。
Embodiments of the present invention will be described below with reference to the drawings. 1 to 6 show an embodiment of the present invention, and FIG. 1 is a block diagram showing a configuration of a speech recognition device.

【0024】この音声認識装置は、ハードウェア的な構
成要素としてのパーソナルコンピュータにおいて、音声
認識プログラムを実行することにより構成されるもので
ある。
This speech recognition apparatus is configured by executing a speech recognition program in a personal computer as a hardware component.

【0025】本実施形態では、この音声認識装置に直接
音声を入力するのではなく、該音声認識装置とは独立し
たディジタル音声記録装置で録音して得られたディジタ
ル音声データを、該ディジタル音声データを含む音声フ
ァイルとして本音声認識装置に取り込んで、音声認識を
行わせることを前提としている。
In the present embodiment, instead of directly inputting speech to the speech recognition device, digital speech data obtained by recording with a digital speech recording device independent of the speech recognition device is used. It is assumed that the voice recognition device performs the voice recognition by importing the voice recognition file as a voice file including “.

【0026】さらにこの実施形態では、ディジタル音声
記録装置のデータはMS−DOSと互換性のある形式の
ファイルとしてPCMCIA規格に準拠したフラッシュ
メモリカードに記憶されることを想定している。
Further, in this embodiment, it is assumed that data of the digital audio recording device is stored in a flash memory card conforming to the PCMCIA standard as a file compatible with MS-DOS.

【0027】ディジタル音声ファイルとしてはいわゆる
WAVファイルがよく知られているが、本実施形態では
少なくとも「International Voice Association」(I
VAと略記される)により設定された「Digital Speech
Standard」(以下、DSSと略記する)規格に準拠し
た、いわゆるDSSファイルを読み出して音声認識を行
う機能を備えている。
As a digital audio file, a so-called WAV file is well known. In the present embodiment, at least the "International Voice Association" (I
VA), set by Digital Speech
It has a function of reading a so-called DSS file conforming to the “Standard” (hereinafter abbreviated as DSS) standard and performing voice recognition.

【0028】このDSS規格に準拠したファイルは、音
声データと、この音声データに付随する付加情報である
ヘッダ部とを有して構成されている。このヘッダ部に
は、図2に示すような情報を含む各種の情報が記録され
ている。図2は、DSSファイルのヘッダ部に記録され
る情報の要部を示す図である。
A file conforming to the DSS standard includes audio data and a header section which is additional information attached to the audio data. Various information including the information shown in FIG. 2 is recorded in the header portion. FIG. 2 is a diagram showing a main part of information recorded in a header part of the DSS file.

【0029】図示のように、「ヘッダブロックの番号」
がバイナリデータとして1ブロックの記憶領域を占めて
いる。このヘッダブロックの番号の中味(コンテンツ)
には、製造業者に応じた種々のデータが入るようになっ
ている。
As shown, "header block number"
Occupies one block of storage area as binary data. Contents of this header block number (content)
Contains various data depending on the manufacturer.

【0030】さらに、「録音ユーザID」(英語では
「Author ID」)の項目には、録音した人のID情報が
アスキーデータとして記録されるようになっており、1
6ブロックの記録領域を割り当てられている。
Further, in the item of "recording user ID"("AuthorID" in English), ID information of the recording person is recorded as ASCII data.
A recording area of six blocks is allocated.

【0031】また、「操作者ID」(英語では「Transc
riptionist ID」)の項目には、録音した人がその録音
内容をトランスクリプトする人を指定するためのIDを
アスキーデータとして記録するようになっており、同様
にして、16ブロックの記録領域を割り当てられてい
る。
Further, the "operator ID" (in English, "Transc
riptionist ID "), the recording person records an ID for specifying a person who transcripts the recorded content as ASCII data, and similarly allocates a recording area of 16 blocks. Have been.

【0032】その他にも各種の情報がヘッダ部には記録
されるが、これらについては図示を省略する。
Various other information is recorded in the header portion, but these are not shown.

【0033】この音声認識装置は、図1に示すように、
例えばPCMCIAカードインターフェースでなる読取
手段でありファイル取込手段たるディジタル音声データ
取込部1と、例えばキーボードやマウス等の入力機器で
なる設定手段たる操作部2と、CPUや半導体メモリ等
でなる音声認識手段であり制御手段たる音声認識実行兼
制御部3と、CRTやこのCRTを駆動するためのビデ
オ回路等でなる表示手段たる表示部4と、固定ディスク
ドライブ(いわゆるハードディスク(HDD))等でな
る記憶手段たる不揮発性記憶部5と、を有して構成され
ている。
This speech recognition apparatus, as shown in FIG.
For example, a digital voice data capturing unit 1 as a reading unit and a file capturing unit as a reading unit including a PCMCIA card interface, an operation unit 2 as a setting unit as an input device such as a keyboard and a mouse, and a voice including a CPU and a semiconductor memory. A voice recognition execution / control unit 3 as a recognition unit and a control unit, a display unit 4 as a display unit including a CRT and a video circuit for driving the CRT, a fixed disk drive (a so-called hard disk (HDD)), and the like. And a non-volatile storage unit 5 as storage means.

【0034】なお、上記ディジタル音声データ取込部1
には、ミニチュアカードやコンパクトフラッシュなどの
記録媒体をPCMCIAアダプタに装着して接続しても
構わないことはいうまでもない。実際に、例えばミニチ
ュアカードに音声データを記録するディジタル音声記録
装置が既に市販されているために、このようなPCMC
IAアダプタを介することにより、ミニチュアカード内
に記録されている音声ファイルを読み取ることが可能に
なる。
The digital audio data capturing section 1
It goes without saying that a recording medium such as a miniature card or a compact flash may be attached to the PCMCIA adapter for connection. Actually, for example, a digital audio recording device for recording audio data on a miniature card is already on the market.
Through the IA adapter, an audio file recorded in the miniature card can be read.

【0035】さらに、上記ディジタル音声データ取込部
1により読み取る記録媒体は、PCMCIAカード形状
の記録媒体に限るものではなく、ディジタル音声記録装
置とこの音声認識装置の双方が対応可能なものであれば
各種の記録媒体を用いることが可能であり、例えばフロ
ッピーディスクや光磁気ディスクなどの各種の記録媒体
を用いた場合には、これらの記録媒体に対応した読取装
置を該ディジタル音声データ取込部1として用いること
になる。
Further, the recording medium read by the digital voice data capturing unit 1 is not limited to a PCMCIA card-shaped recording medium, but may be any one that can be used by both a digital voice recording device and this voice recognition device. Various recording media can be used. For example, when various recording media such as a floppy disk and a magneto-optical disk are used, a reading device corresponding to these recording media is used as the digital audio data capturing unit 1. Will be used as

【0036】加えて、上記ディジタル音声データ取込部
1としては、記録媒体を介して音声ファイルを取り込む
手段に限定されるものではなく、ディジタル音声記録装
置からの情報をこの音声認識装置により受け取ることが
できるようなものでありさえすればよく、例えばRS−
232C規格のシリアル通信やIr−DA規格の赤外線
通信等の通信回線によるデータの取り込みも考えられ、
その他にも、USB規格やIEEE1394規格などの
インターフェースを備えるようにしても良いし、LAN
で接続することができるようにしても良い。
In addition, the digital voice data capturing section 1 is not limited to a means for capturing a voice file via a recording medium, but receives information from a digital voice recording apparatus by the voice recognition apparatus. As long as it is possible, for example, RS-
It is also conceivable to take in data through communication lines such as 232C standard serial communication and Ir-DA standard infrared communication.
In addition, an interface such as a USB standard or an IEEE 1394 standard may be provided.
Alternatively, the connection may be made.

【0037】上記操作部2のキーボードは、ポータブル
タイプのパーソナルコンピュータやワードプロセッサの
ように本体と一体となっていても良いし、別体になって
いてケーブルで接続されているようなものであっても構
わない。
The keyboard of the operation section 2 may be integrated with the main body, such as a portable personal computer or a word processor, or may be separate and connected by a cable. No problem.

【0038】また、上記操作部2のマウスは、ケーブル
を介して本体に接続されたものに限らず、本体に内蔵さ
れたトラックボールや、圧電素子等を用いたポインティ
ングデバイスでも良く、あるいは表示部4と一体になっ
たタッチパネルなど、表示部4の画面上の特定の箇所や
範囲等を指示することができるものであれば良い。
The mouse of the operation unit 2 is not limited to a mouse connected to the main unit via a cable, but may be a trackball built in the main unit, a pointing device using a piezoelectric element or the like, or a display unit. Any device, such as a touch panel integrated with the display unit 4, may be used as long as it can indicate a specific location or range on the screen of the display unit 4.

【0039】上記音声認識実行兼制御部3に関しては、
データ圧縮された音声データを高速で処理するために、
DSP(ディジタルシグナルプロセッサ)を備えるよう
にしても良い。
Regarding the voice recognition execution / control unit 3,
In order to process the compressed audio data at high speed,
A DSP (digital signal processor) may be provided.

【0040】また、表示部4は本体と一体であっても良
いし、別体になっていてケーブル等を介して接続するも
のであっても構わない。もちろん、この表示部4は、C
RTに限定されるものではなく、LCDやプラズマディ
スプレイといったものでも良い。
The display section 4 may be integral with the main body, or may be separate and connected via a cable or the like. Of course, this display section 4
The present invention is not limited to the RT, and may be an LCD or a plasma display.

【0041】上記不揮発性記憶部5は、ハードディスク
に限らず、MOやフラッシュROMなどの不揮発性で書
き換え可能な記憶手段であれば良く、また基本的なプロ
グラムがマスクROMなどの書き換え不可能な媒体に記
録されていて、一時的なデータをHDDやMOなどの書
き換え可能な媒体に保存するような構成であっても構わ
ない。
The non-volatile storage section 5 is not limited to a hard disk, but may be any non-volatile and rewritable storage means such as an MO or a flash ROM. And the temporary data may be stored in a rewritable medium such as an HDD or an MO.

【0042】さらに、この不揮発性記憶部5は、本体に
内蔵されていても良いし、本体にSCSI等の適切なイ
ンターフェースを備えさせて、このインターフェースを
介してケーブル等により接続する外部記憶装置として構
成しても良い。
Further, the non-volatile storage unit 5 may be built in the main body, or may be provided with an appropriate interface such as SCSI in the main body, and may be used as an external storage device connected by a cable or the like via this interface. You may comprise.

【0043】この不揮発性記憶部5には、例えばマイク
ロソフト社の「Windows95」や「Window
s98」、もしくはそれに類したOS(オペレーティン
グシステム)と、DSSファイルを読み出して音声認識
処理を行うのに都合の良いデータ形式に変換するプログ
ラムと、音声認識を実行するための音声認識プログラム
と、上記表示部4や例えばプリンタ等のその他の機器を
動作させるための各種のドライバプログラムと、各種の
設定内容を記憶しておくファイルと、複数のフォントフ
ァイルと、複数のテンプレートファイルと、複数の定型
文書ファイルなどが格納されている。
The nonvolatile storage unit 5 stores, for example, “Windows 95” or “Windows” of Microsoft Corporation.
s98 ”or an OS (Operating System) similar thereto, a program for reading a DSS file and converting it into a data format convenient for performing voice recognition processing, a voice recognition program for performing voice recognition, Various driver programs for operating the display unit 4 and other devices such as a printer, a file for storing various setting contents, a plurality of font files, a plurality of template files, and a plurality of standard documents Files are stored.

【0044】上記音声認識プログラムは、上述した録音
ユーザIDや操作者IDなどのID情報と、フォントな
どの表示態様との関連付けを定義する機能を備えてお
り、その定義付け作業が完了すると、その内容を記述し
たID関連付け定義ファイルを作成して、上記不揮発性
記憶部5の特定の記憶領域であるディレクトリに保存す
るようになっている。
The voice recognition program has a function for defining the association between the ID information such as the recording user ID and the operator ID and the display mode such as fonts. An ID association definition file describing the contents is created and stored in a directory which is a specific storage area of the nonvolatile storage unit 5.

【0045】なお、図示はしていないが、画面の表示内
容、すなわち音声認識の結果得られた文章を印刷するた
めに、プリンタを内蔵するか、もしくは接続することが
できるように構成しても良い。
Although not shown, a printer may be built in or connected to print the contents displayed on the screen, that is, the text obtained as a result of the voice recognition. good.

【0046】次に、図3は音声認識プログラムが起動さ
れたとき表示画面の一例を示す図である。
Next, FIG. 3 is a diagram showing an example of a display screen when the voice recognition program is started.

【0047】この表示画面11には、上段にプルダウン
メニュー12が設けられるとともに、その下側にアイコ
ンなどで構成されるボタン13が配列され、さらにその
下側が認識結果の文章を表示するための文書表示窓14
となっている。
On the display screen 11, a pull-down menu 12 is provided in the upper part, buttons 13 composed of icons and the like are arranged below the pull-down menu 12, and a document for displaying the text of the recognition result is further displayed below the button 13. Display window 14
It has become.

【0048】上記プルダウンメニュー12は、機能を示
す各単語とその機能を起動させる各ショートカットキー
(括弧書きで示される英文字)とを横一列に表示して、
該プログラムで実現可能な機能の一覧を表示している部
分である。
The pull-down menu 12 displays each word indicating a function and each shortcut key (English character shown in parentheses) for activating the function in a horizontal line.
This is a part displaying a list of functions that can be realized by the program.

【0049】このプルダウンメニュー12は、この図3
に示した例においては、左側から順に、ファイル
(F)、編集(E)、表示(V)、挿入(I)、ディク
テーション(D)、読み上げ(R)、フォーマット
(F)、ヘルプ(H)などが表示されている。
The pull-down menu 12 is shown in FIG.
In the example shown in (1), file (F), edit (E), display (V), insert (I), dictation (D), read out (R), format (F), and help (H) are arranged in order from the left side. Is displayed.

【0050】こうしたメニューは、多くの場合、階層構
造になっていて、項目の何れか一つを選択してマウス等
によりクリックすると、下層のメニューの一覧がそのす
ぐ下に表示されるようになっている。このような表示メ
ニューは、プルダウンメニューと呼ばれている。
In many cases, such menus have a hierarchical structure. When any one of the items is selected and clicked with a mouse or the like, a list of lower menus is displayed immediately below the menu. ing. Such a display menu is called a pull-down menu.

【0051】例えば、上述した項目の中の「フォーマッ
ト」をマウスでクリックすると、図示しない下層のメニ
ューのリストが表示される。このリストの中から「ID
関連設定メニュー」の項目を選択すると、図4に示すよ
うな画面が表示されるようになっている。
For example, when "format" in the above-mentioned items is clicked on with a mouse, a list of a lower layer menu (not shown) is displayed. From this list, "ID
When an item of the "related setting menu" is selected, a screen as shown in FIG. 4 is displayed.

【0052】図4は、ID関連設定メニューが選択され
たときの表示画面の一例を示す図である。
FIG. 4 is a diagram showing an example of a display screen when the ID-related setting menu is selected.

【0053】この表示画面21は、最上段の符号22に
示す部分に「ID関設定メニュー」である表示がなされ
て、ID情報とフォントなどとの関連付けを設定するた
めの画面である旨が表示されている。
In the display screen 21, an "ID-related setting menu" is displayed in a portion indicated by reference numeral 22 at the top, indicating that the screen is a screen for setting an association between ID information and a font or the like. Have been.

【0054】この表示画面21内には、上から下に向か
って順に、符号23に示すようなID情報を設定する部
分と、符号24に示すようなページ設定を定義する部分
と、符号25に示すようなフォントを定義する部分と、
符号26に示すようなレイアウトやスタイルなどを選択
する部分と、符号27に示すようなヘッダやフッタの有
無を選択したりページ番号を設定したりする部分と、符
号28に示すような上記各設定を確定やキャンセル等す
る部分と、が配置されている。
In the display screen 21, a portion for setting ID information as indicated by reference numeral 23, a portion for defining page settings as indicated by reference numeral 24, and A part that defines the font as shown,
A part for selecting a layout or a style as shown by reference numeral 26, a part for selecting the presence or absence of a header or footer as shown by reference numeral 27, and setting a page number, and the above-mentioned respective settings as shown by reference numeral 28 And a part for confirming or canceling are arranged.

【0055】上記符号23に示す部分には、「録音ユー
ザID」と「操作者ID」のどちらのIDと関連付ける
かを選択するチェックボックスと、IDを表す英数字を
入力する入力用のボックスとが表示されている。
In the portion indicated by the reference numeral 23, a check box for selecting which one of the "recording user ID" and the "operator ID" is to be associated, and an input box for inputting alphanumeric characters representing the ID are provided. Is displayed.

【0056】操作者が例えば「録音ユーザID」の方の
チェックボックスをマウスでクリックすると、「録音ユ
ーザID」がオンになり、チェックボックスに図示のよ
うにチェックマークが表示される。次に、マウスで右側
の入力ボックスをクリックしてからキーボードで英数字
を入力すれば、「録音ユーザID」の入力が完了する。
When the operator, for example, clicks on the check box for "recording user ID" with the mouse, "recording user ID" is turned on, and a check mark is displayed in the check box as shown in the figure. Next, by clicking the input box on the right side with the mouse and then inputting alphanumeric characters with the keyboard, the input of the “recording user ID” is completed.

【0057】これまでに既にID情報との関連付けの定
義を幾つか行っている場合には、ID入力ボックスの右
側にある逆三角形のマークが付されたボタンをマウス等
を用いてクリックすることにより、該入力ボックスのす
ぐ下部に、今まで入力されたID情報のリストが表示さ
れるようになっている。すなわち、今までに入力された
ID情報は、重複するものを除いて、上記不揮発性記憶
部5等の内部に記憶されて蓄積されるようになってい
る。
In the case where some associations with ID information have already been defined, a button with an inverted triangle mark on the right side of the ID input box is clicked using a mouse or the like. A list of ID information input so far is displayed immediately below the input box. That is, the ID information that has been input so far is stored and accumulated inside the nonvolatile storage unit 5 and the like, except for duplicate information.

【0058】こうして表示されるリストの中から一つの
ID情報(図示の例では「録音ユーザID」として「J
007」が設定されている)を選択すると、そのID情
報が該入力ボックスに表示されると共に、画面内の他の
ボックスにはそのID情報への関連付けが定義された各
パラメータが表示される。
One piece of ID information from the list displayed in this manner (in the example shown in the figure, "J" as "recording user ID")
When “007” is set), the ID information is displayed in the input box, and in the other boxes on the screen, parameters defining the association with the ID information are displayed.

【0059】そして、この「録音ユーザID」がJ00
7の人に対して、上記符号24に示す部分においては、
ページ設定の用紙サイズとして幅8インチ×高さ11イ
ンチのUSレターサイズが選択されており、用紙は縦長
に選択されている。
The "recording user ID" is J00
In the part indicated by the reference numeral 24 for the person 7
The US letter size of 8 inches wide and 11 inches high is selected as the paper size for the page setting, and the paper is selected to be portrait.

【0060】さらに、この符号24に示す部分におい
て、余白が上下左右それぞれ各1インチとなるように選
択されている。
Further, in the portion indicated by reference numeral 24, the margins are selected so as to be 1 inch each in the upper, lower, left and right directions.

【0061】次に、符号25に示す部分において、フォ
ントとして「Times New Roman」の標準スタイルかつ1
0ポイントのサイズのものが選択されている。
Next, in the portion indicated by reference numeral 25, the font is a standard style of "Times New Roman" and 1
The one with the size of 0 points is selected.

【0062】符号26に示す部分においては、句の配置
として上寄せの左寄せ、インデントが左右1インチとな
るように選択されている。また、スタイルとして「Jame
s’sformal letter」というものが選択されている。こ
のスタイルに関する詳細情報は、別のウィザードを使っ
て作成されたテンプレートファイルとして上記不揮発性
記憶部5の特定のディレクトリに記録されている。この
例でいえば、ジェームズ(James)さんの住所や電
話番号などを所定の位置に配置したようなものを想定し
ている。これらのスタイルや句の配置などで設定される
状態の概要は、符号26に示す部分の右側に表示される
プレビューという小画面により確認することができるよ
うになっている。
In the portion indicated by reference numeral 26, the arrangement of the phrases is selected such that the upper left position and the indent are 1 inch on the left and right. Also, the style "Jame
"s'sformal letter" is selected. Detailed information on this style is recorded in a specific directory of the nonvolatile storage unit 5 as a template file created using another wizard. In this example, it is assumed that James's address and telephone number are arranged at predetermined positions. An overview of the state set by the arrangement of these styles and phrases can be confirmed on a small screen called a preview displayed on the right side of the portion indicated by reference numeral 26.

【0063】また、符号27に示す部分において、この
図4に示した例では、ヘッダとフッタの項目には共にチ
ェックマークが表示されていないために、両方ともオフ
の状態になるように選択されていることになる。ページ
番号については、ページ下部の中央に表示される設定が
選択されている。
In the example shown in FIG. 4 in the portion indicated by the reference numeral 27, since neither the header nor the footer is marked with a check mark, both items are selected so as to be turned off. Will be. As for the page number, the setting displayed at the center of the lower part of the page is selected.

【0064】こうして現在表示されている状態でよけれ
ば、符号28に示す画面最下部の左側にあるOKボタン
をマウスでクリックすれば、ID情報関連付け定義ファ
イルが上記不揮発性記憶部5内の特定ディレクトリに作
成される。なおこのとき、既に同名のファイルが存在す
る場合には上書きされて新しい設定が有効となるように
構成されている。
If the currently displayed state is acceptable, the OK button at the bottom left of the screen indicated by reference numeral 28 is clicked on with a mouse, and the ID information association definition file is stored in the specified directory in the nonvolatile storage unit 5. Is created. At this time, if a file with the same name already exists, the file is overwritten and the new setting becomes effective.

【0065】また、符号28に示す部分の左から2番目
にあるキャンセルボタンをクリックした場合には、ID
情報関連付け定義ファイルが新たに作成されたり上書き
されたりすることなく、このID関連設定メニューを終
了するようになっている。
When the user clicks the second cancel button from the left of the portion indicated by reference numeral 28, the ID
This ID-related setting menu is ended without newly creating or overwriting the information-related definition file.

【0066】一方、符号28に示す部分の左から3番目
にあるデフォルトのボタンをクリックした場合には、上
述したような全てのパラメータが予め定められた標準値
であるデフォルト値(既定値)に設定されるようになっ
ている。
On the other hand, when the default button at the third position from the left of the portion indicated by reference numeral 28 is clicked, all the parameters as described above are reset to the default values (predetermined values) which are predetermined standard values. It is to be set.

【0067】さらに、符号28に示す部分の右端にある
ヘルプボタンをクリックすると、このID関連設定メニ
ューに関する補足説明等が表示されるようになってい
る。
Further, when the help button on the right end of the portion indicated by the reference numeral 28 is clicked, a supplementary explanation on the ID-related setting menu is displayed.

【0068】上述したようなパラメータを設定するボッ
クス部分で、その右側に逆三角形のマークが付されたボ
タンがある箇所は、そのボタンをマウスでクリックする
ことにより、選択肢の一覧が表示されるようになってい
る。
In the box portion for setting parameters as described above, where there is a button marked with an inverted triangle on the right side, a list of options is displayed by clicking the button with the mouse. It has become.

【0069】例えば符号26や符号27に示した部分の
配置の項目のところでは、逆三角形のマークが付された
ボタンをクリックすることにより、左寄せ,中央,右寄
せなどの選択肢が表示される。
For example, at the item of the arrangement of the parts indicated by reference numerals 26 and 27, by clicking a button marked with an inverted triangle, options such as left alignment, center, right alignment and the like are displayed.

【0070】また、上述したような数字が表示されてい
るボックス部分で、その右側に三角形のマークが付され
たボタンと逆三角形のマークが付されたボタンとが上下
に隣り合って配置されている箇所では、何れかのボタン
をマウスでクリックする度に、最下位の数字が1ステッ
プずつ変化するようになっている。
In the box portion in which the numbers are displayed as described above, a button with a triangle mark on the right side thereof and a button with an inverted triangle mark are arranged vertically adjacent to each other. In each of the locations, the lowest digit changes by one step each time one of the buttons is clicked with the mouse.

【0071】例えば符号24や符号26に示した1.0
インチ(1.0”)と表示されているボックス部分にお
いて、三角形のマークが付されたボタンをクリックする
と、1回クリックする毎にその数字が1.1、1.2、
1.3と変化して行き、一方、1.0インチと表示され
ている状態から逆三角形のマークが付されたボタンをク
リックすると、1回クリックする毎に数字が0.9、
0.8、0.7と変化して行くようになっている。
For example, 1.0 shown in reference numerals 24 and 26
When a button with a triangle mark is clicked in a box portion displayed as inches (1.0 "), the number is changed to 1.1, 1.2,
When the button with the inverted triangle mark is clicked from the state where 1.0 inch is displayed, the number becomes 0.9 each time the button is clicked.
It changes to 0.8 and 0.7.

【0072】このような操作により、文章の表示態様を
設定するための各パラメータとID情報との関連付けの
定義を行うことができるようになっている。
By such an operation, it is possible to define the association between each parameter for setting the display mode of the text and the ID information.

【0073】次に、図5は音声認識装置の全体的な動作
を示すフローチャートである。
FIG. 5 is a flowchart showing the overall operation of the speech recognition apparatus.

【0074】図中の破線で囲んだ処理は、この音声認識
装置の操作者が操作する部分であり、その他は当該音声
認識装置が自動的に処理を行う部分である。
The process enclosed by a broken line in the figure is a portion operated by the operator of the voice recognition device, and the other portion is a portion that the voice recognition device automatically performs a process.

【0075】また、PCMCIA規格に準拠したフラッ
シュメモリカードには、上述したように、この音声認識
装置とは別体の装置として構成されているディジタル音
声記録装置等で録音されたディジタル音声ファイルが、
既に保存されているものとする。
As described above, the flash memory card conforming to the PCMCIA standard contains a digital voice file recorded by a digital voice recorder or the like which is separate from the voice recognition device.
It is assumed that it has already been saved.

【0076】そして、このフラッシュメモリカードを、
PCMCIAカードインターフェースでなる上記ディジ
タル音声データ取込部1のスロットに装着する。
Then, this flash memory card is
It is installed in the slot of the digital audio data acquisition unit 1 which is a PCMCIA card interface.

【0077】操作者は、特定の音声ファイルを音声認識
させたい場合は、上記図3の表示画面中のメニューの中
から「ディクテーション」の項目を選択する。すると、
プルダウン表示された下層のメニューの一覧の中に「操
作者用フォーム」(英語では「Transcribe From」)と
いう図示しない項目が表示される。そこで、この項目を
マウスでクリックすることにより、音声ファイルを選択
するための図示しない画面が表示される。
When the operator wants to recognize a specific voice file by voice, the operator selects the item “dictation” from the menu on the display screen of FIG. Then
An item (not shown) such as "operator form"("TranscribeFrom" in English) is displayed in the lower-level menu list displayed in a pull-down display. Therefore, by clicking this item with a mouse, a screen (not shown) for selecting an audio file is displayed.

【0078】この表示画面内で、上記ディジタル音声デ
ータ取込部1のスロットに装着したフラッシュメモリカ
ードが割り当てられているドライブを選択すると、読込
み可能な音声ファイル、つまり拡張子がDSSとなって
いるファイルの一覧が表示される。
On this display screen, when a drive to which a flash memory card mounted in the slot of the digital audio data capturing section 1 is assigned is selected, a readable audio file, that is, the extension is DSS. A list of files will be displayed.

【0079】そこで、これらの中から音声認識をさせよ
うとする音声ファイルを選択して(ステップS1)、マ
ウスで「開く」ボタンをクリックすることにより、その
ファイルを開く操作を行う(ステップS2)。
Then, a voice file to be subjected to voice recognition is selected from these (step S1), and an operation of opening the file is performed by clicking an "open" button with a mouse (step S2). .

【0080】これによりファイル読み出しコマンドが実
行されて、この音声認識装置は、上記フラッシュメモリ
カード内の選択された音声ファイルにアクセスを行い、
該音声ファイルのヘッダ部に記録されている情報を読込
む(ステップS3)。
As a result, the file read command is executed, and the voice recognition device accesses the selected voice file in the flash memory card,
The information recorded in the header of the audio file is read (step S3).

【0081】続いて、該音声ファイルのヘッダ部から読
み出したID情報と関連付けてフォントなどの表示態様
を自動的に設定するプロセスを実行する(ステップS
4)。このプロセスについては、後で詳細に説明する。
Subsequently, a process of automatically setting a display mode such as a font in association with the ID information read from the header of the audio file is executed (step S).
4). This process will be described later in detail.

【0082】このプロセスが完了すると、上記ディジタ
ル音声データ取込部1により今度は該音声ファイル内の
音声データを一定量ずつ順次読込み(ステップS5)、
それを上記音声認識実行兼制御部3により解析して音声
認識することにより文章への変換処理を行う(ステップ
S6)。
When this process is completed, the digital audio data acquisition unit 1 sequentially reads the audio data in the audio file by a fixed amount (step S5).
This is analyzed by the voice recognition execution / control unit 3 and subjected to voice recognition to perform a conversion process into a sentence (step S6).

【0083】そして、音声認識の結果得られた文章を、
CRT等でなる表示部4の上記図3に示した文書表示窓
14に表示する(ステップS7)。このとき、先にID
情報と関連付けて設定されたフォントや書式などの表示
態様に従って表示が行われる。
Then, the sentence obtained as a result of the speech recognition is
It is displayed on the document display window 14 shown in FIG. 3 of the display unit 4 such as a CRT (step S7). At this time, ID
The display is performed according to a display mode such as a font and a format set in association with the information.

【0084】その後、音声データが終了したか否かを判
断し(ステップS8)、音声データがまだ残っていれ
ば、上記ステップS5に戻って、先に読込んだ部分の続
きのところから再び音声データを一定量読込み、音声認
識を行いその結果得られた文章を、先に表示した文章に
順に付け加えて表示する。
Thereafter, it is determined whether or not the voice data has been completed (step S8). If voice data still remains, the process returns to step S5, where the voice is read again from the continuation of the previously read portion. A certain amount of data is read in, speech recognition is performed, and the resulting sentence is added to the previously displayed sentence in order and displayed.

【0085】このようにして音声データを全て音声認識
し終わるまでこのルーチンを繰り返して実行する。上記
ステップS8において音声データを全て文章に変換して
表示し終えたことが確認されたら、この一連の音声認識
処理が終了する。
This routine is repeatedly executed until all voice data has been recognized. If it is confirmed in step S8 that all of the voice data has been converted into text and displayed, this series of voice recognition processing ends.

【0086】次に、図6は上記図5のステップS4にお
けるID関連付自動設定処理の詳細を示すフローチャー
トである。このID関連付自動設定処理は、上述したよ
うに、ID情報と関連付けてフォントなどを自動的に設
定するプロセスである。
FIG. 6 is a flowchart showing the details of the ID association automatic setting process in step S4 in FIG. The ID association automatic setting process is a process for automatically setting a font and the like in association with ID information as described above.

【0087】この図6では、「録音ユーザID」と「操
作者ID」の両方についての関連付けの設定がなされて
いた場合は、「録音ユーザID」の方を優先する例を示
しているが、「操作者ID」を優先することも可能であ
るのはいうまでもない。
FIG. 6 shows an example in which, when the association has been set for both the “recording user ID” and the “operator ID”, the “recording user ID” has priority. It goes without saying that the “operator ID” can be prioritized.

【0088】まず「録音ユーザID」との関連付けの設
定が既に行われている場合について説明する。
First, a case will be described in which the association with the “recording user ID” has already been set.

【0089】上記ステップS3においてフラッシュメモ
リカードから読み込んだディジタル音声ファイルのヘッ
ダ部を調べて、「録音ユーザID」が記録されているか
否かを判断し(ステップS11)、「録音ユーザID」
が記録されている場合には、上記不揮発性記憶部5の特
定ディレクトリ内に該「録音ユーザID」との関連付け
を定義したID情報関連付け定義ファイルが存在してい
るかどうかを検索して(ステップS17)、存在の可否
を判断する(ステップS18)。
The header of the digital audio file read from the flash memory card in step S3 is examined to determine whether or not the "recording user ID" is recorded (step S11).
If the ID information association definition file defining the association with the "recording user ID" exists in the specific directory of the non-volatile storage unit 5 if it is recorded (step S17). ), It is determined whether or not it exists (step S18).

【0090】該当するID情報関連付け定義ファイルが
見つかった場合は、その中に記録されている情報を次々
に調べて、それに従って文章表示に係る各種パラメータ
の設定を変更して行く。
When the corresponding ID information association definition file is found, the information recorded therein is checked one after another, and the setting of various parameters related to the text display is changed accordingly.

【0091】すなわち、先ずフォントについてID情報
との関連付けが定義されているかどうかを調べ(ステッ
プS20)、定義されていればそれに従ってフォントを
変更し(ステップS21)、定義されていなければデフ
ォルトのフォントに設定する(ステップS22)。
That is, first, it is checked whether or not the association between the font and the ID information is defined (step S20). If the font is defined, the font is changed according to the definition (step S21). (Step S22).

【0092】次に、ページ設定に関してID情報との関
連付けが定義されているかどうかを調べて(ステップS
23)、定義されていればそれに従ってページ設定を変
更し(ステップS24)、定義されていなければデフォ
ルトのページ設定にする(ステップS25)。
Next, it is checked whether or not the association with the ID information is defined for the page setting (step S).
23) If it is defined, the page setting is changed accordingly (step S24), and if it is not defined, the default page setting is made (step S25).

【0093】続いて、書式についてID情報との関連付
けが定義されているかどうかを調べ(ステップS2
6)、定義されていればそれに従って書式を変更し(ス
テップS27)、定義されていなければデフォルトの書
式に設定する(ステップS28)。
Subsequently, it is checked whether or not the association with the ID information is defined for the format (step S2).
6) If it is defined, the format is changed according to it (step S27), and if it is not defined, the default format is set (step S28).

【0094】そして、文章の雛形を示すテンプレートに
関してID情報との関連付けが定義されているかどうか
を調べ(ステップS29)、定義されていれば指定され
ているテンプレートファイルを読込み(ステップS3
0)、定義されていなければデフォルトのテンプレート
ファイルを読込む(ステップS16)。
Then, it is checked whether or not the association with the ID information is defined for the template indicating the template of the text (step S29). If the association is defined, the specified template file is read (step S3).
0), if not defined, the default template file is read (step S16).

【0095】このようにして、音声ファイルのヘッダ部
に記録された「録音ユーザID」に関連付けて、文章の
表示態様に関する各種の設定が自動的に行われる。
In this way, various settings relating to the display mode of the sentence are automatically performed in association with the “recording user ID” recorded in the header portion of the audio file.

【0096】この設定が該音声データを音声認識して得
られた文章に反映されて、上記文書表示窓14に表示さ
れたり、あるいは印刷されたりすることになる。
This setting is reflected on the text obtained by voice recognition of the voice data, and is displayed on the document display window 14 or printed.

【0097】また、上記ステップS11において音声フ
ァイルのヘッダ部に「録音ユーザID」の記録が存在し
ない場合には、次に、該音声ファイルのヘッダ部に「操
作者ID」が記録されているか否かを検出する(ステッ
プS12)。
If the recording of the "recording user ID" does not exist in the header of the audio file in step S11, it is determined whether the "operator ID" is recorded in the header of the audio file. Is detected (step S12).

【0098】この「操作者ID」が検出された場合に
は、上述したような「録音ユーザID」の場合と同様
に、上記不揮発性記憶部5の特定ディレクトリ内に該
「操作者ID」との関連付けを定義したID情報関連付
け定義ファイルが存在していないかどうかを検索する
(ステップS19)。
When the “operator ID” is detected, the “operator ID” is stored in the specific directory of the nonvolatile storage unit 5 as in the case of the “recording user ID” as described above. A search is performed to determine whether or not an ID information association definition file defining the association exists (step S19).

【0099】該当するID情報関連付け定義ファイルが
発見された場合には、上述したステップS20以降の処
理を行い、その中に記録されている情報を次々に調べ
て、それに従って文章の表示態様を変更して行く。
If the corresponding ID information association definition file is found, the above-described processing from step S20 is performed, the information recorded therein is checked one after another, and the display mode of the text is changed accordingly. Go.

【0100】すなわち、上述した「録音ユーザID」の
場合と同様に、「操作者ID」について、フォントとの
関連付け、ページ設定との関連付け、書式設定との関連
付け、テンプレートとの関連付けの有無を調べて、関連
付けが定義されている項目についてはその情報に従って
設定を変更し、定義のない項目についてはデフォルトの
状態に設定する。
That is, similarly to the case of the above-mentioned “recording user ID”, the presence / absence of the association of the “operator ID” with the font, with the page setting, with the format setting, and with the template is checked. For items for which association is defined, the setting is changed in accordance with the information, and for items without definition, the default state is set.

【0101】このようにして音声ファイルのヘッダ部に
記録された「操作者ID」に関連付けて、文章の表示態
様に関する各種の設定が自動的に行われる。
As described above, various settings relating to the display mode of the text are automatically performed in association with the “operator ID” recorded in the header portion of the audio file.

【0102】なお、音声ファイルのヘッダ部に「録音ユ
ーザID」または「操作者ID」が記録されている場合
でも、これらのID情報と各パラメータとの関連付けが
全く定義されていない場合にはID関連付け定義ファイ
ルが存在しないために、上記ステップS18およびステ
ップS19において、ファイルサーチを行っても定義フ
ァイルが見つからないことになる。
Even when the "recording user ID" or the "operator ID" is recorded in the header portion of the audio file, if the association between the ID information and each parameter is not defined at all, the ID is recorded. Since the association definition file does not exist, the definition file cannot be found even if a file search is performed in steps S18 and S19.

【0103】このような場合は、上述したように全ての
項目をデフォルトの状態に設定することになる。すなわ
ち、フォントをデフォルト状態に設定し(ステップS1
3)、ページ設定をデフォルト状態に設定し(ステップ
S14)、書式をデフォルト状態に設定し(ステップS
15)、そして上記ステップS16においてデフォルト
のテンプレートを読み込む。
In such a case, all the items are set to the default state as described above. That is, the font is set to the default state (step S1).
3) The page setting is set to a default state (step S14), and the format is set to a default state (step S14).
15) Then, in step S16, a default template is read.

【0104】また、上記ステップS11およびステップ
S12において、音声ファイルのヘッダ部に「録音ユー
ザID」も「操作者ID」も記録されていない場合に
は、上記ステップS13からステップS16を行って、
同様に全ての項目をデフォルトの状態に設定する。
If the "recording user ID" and the "operator ID" are not recorded in the header of the audio file in steps S11 and S12, steps S13 to S16 are performed.
Similarly, all items are set to the default state.

【0105】以上のようにして、ID情報関連付け自動
設定処理のプロセスが完了し、次のステップへと進む。
As described above, the ID information association automatic setting process is completed, and the process proceeds to the next step.

【0106】なお、この図6においては説明を簡略化す
るために、ID情報に応じてフォントやページ設定、書
式、テンプレートなどを設定する場合について説明した
が、さらに、上述したようなページのヘッダやフッタ、
定型文、あるいはロゴ、イラストなどとID情報との関
連付けを定義付けしておくようにすれば、これらを読み
出したディジタル音声ファイルのヘッダ部に記録されて
いるID情報に対応した設定に自動的に変更することが
可能である。一例を挙げれば、日本語の手紙の場合に
は、挨拶文などの定型文を文例集から選択してID情報
と関連付けるようにすると良い。
In FIG. 6, the font, page setting, format, template, etc. are set according to the ID information for the sake of simplicity. And footer,
If the association between ID information and fixed phrases, logos, illustrations, etc. is defined, these are automatically set to the settings corresponding to the ID information recorded in the header of the read digital audio file. It is possible to change. As an example, in the case of a Japanese letter, it is preferable to select a fixed sentence such as a greeting from a collection of sentence examples and associate it with ID information.

【0107】また、文章の表示態様に関する各種パラメ
ータを自動的に設定して行く順番は、上述した順番に限
定されるものではないことはいうまでもない。
It is needless to say that the order in which the various parameters relating to the display mode of the sentence are automatically set is not limited to the order described above.

【0108】このような実施形態によれば、音声ファイ
ルのヘッダ部に記録されたID情報を利用して、録音者
の好みを自動的に反映した文章を簡単に表示させること
ができる。
According to such an embodiment, it is possible to easily display a sentence automatically reflecting the preference of the recorder by utilizing the ID information recorded in the header of the audio file.

【0109】また、画面に表示された文章の表示態様
は、自動的に印刷結果にも反映されるために、録音者の
好みを自動的に反映した文章のプリントアウトを簡単に
得ることも可能である。
Further, since the display mode of the sentence displayed on the screen is automatically reflected in the print result, it is also possible to easily obtain a printout of the sentence automatically reflecting the preference of the recorder. It is.

【0110】こうして、ディジタル音声記録装置で録音
したディジタル音声ファイルを音声認識させて文章に変
換する場合に、面倒な設定を行うことなく、文章の表示
態様に関して録音者や操作者の好みを自動的に反映させ
ることができる。
In this way, when a digital voice file recorded by a digital voice recording device is converted into a text by performing voice recognition, the preference of the recorder or the operator regarding the display mode of the text can be automatically determined without complicated settings. Can be reflected.

【0111】なお、本発明は上述した実施形態に限定さ
れるものではなく、発明の主旨を逸脱しない範囲内にお
いて種々の変形や応用が可能であることは勿論である。
The present invention is not limited to the above-described embodiment, and it is needless to say that various modifications and applications can be made without departing from the gist of the invention.

【0112】[付記]以上詳述したような本発明の上記
実施形態によれば、以下のごとき構成を得ることができ
る。
[Appendix] According to the above-described embodiment of the present invention, the following configuration can be obtained.

【0113】(1) 音声データとID情報とを含んで
なる音声ファイルを取り込むファイル取込手段と、この
ファイル取込手段により取り込んだ音声ファイルの音声
データを音声認識して文章に変換する音声認識手段と、
文章の表示態様に係るパラメータを設定して、上記ID
情報との関連付けを行うための設定手段と、上記ファイ
ル取込手段により取り込んだ音声ファイルのID情報を
検出して、該ID情報に関連付けられた上記パラメータ
に基づき上記音声認識手段により変換した上記文章の表
示態様を制御する制御手段と、この制御手段により制御
される表示態様に従って、音声認識された文章を表示す
る表示手段と、を具備したことを特徴とする音声認識装
置。
(1) File capturing means for capturing a voice file including voice data and ID information, and voice recognition for voice-recognizing voice data of the voice file captured by the file capturing means and converting it into text. Means,
Set the parameters related to the display mode of the sentence and set the above ID
Setting means for associating with the information, ID information of the voice file fetched by the file fetching means, and the sentence converted by the voice recognition means based on the parameter associated with the ID information A speech recognition apparatus, comprising: a control unit for controlling the display mode of the above;

【0114】(2) 上記制御手段は、取り込んだ音声
ファイルにID情報が含まれていない場合には、該音声
ファイルの音声データを変換した文章の表示態様を、予
め設定された標準の表示態様に係るパラメータに基づき
制御するものであることを特徴とする付記(1)に記載
の音声認識装置。
(2) When the captured audio file does not include ID information, the control means changes the display mode of the text converted from the audio data of the audio file into a standard display mode set in advance. (1) The speech recognition device according to (1), wherein control is performed based on parameters according to (1).

【0115】(3) 上記制御手段は、取り込んだ音声
ファイルのID情報に関連付けられるパラメータが複数
であって、これらのパラメータの内の1つ以上が設定さ
れていない場合には、そのパラメータに関しては、予め
設定された標準の表示態様に係るパラメータに基づき、
該音声ファイルの音声データを変換した文章の表示態様
を制御するものであることを特徴とする付記(1)に記
載の音声認識装置。
(3) If there are a plurality of parameters associated with the ID information of the fetched audio file and one or more of these parameters are not set, the control means , Based on preset parameters related to the standard display mode,
The speech recognition device according to claim 1, wherein the speech recognition device controls a display mode of a sentence obtained by converting the speech data of the speech file.

【0116】(4) 取り込んだ音声ファイルのID情
報を、重複するものを除いて蓄積する記憶手段を備え、
上記制御手段は、この記憶手段に蓄積されたID情報を
上記表示手段に一覧表示させるべく制御を行うものであ
り、上記設定手段は、上記表示手段に表示された一覧の
中からID情報を選択して、文章の表示態様に係るパラ
メータとの関連付けを設定することができるように構成
されたものであることを特徴とする付記(1)、付記
(2)、または付記(3)に記載の音声認識装置。
(4) There is provided storage means for storing the ID information of the fetched audio file, excluding duplication.
The control means controls the display so that the ID information accumulated in the storage means is displayed in a list on the display means. The setting means selects the ID information from the list displayed on the display means. (1), (2), or (3), characterized in that it is configured to be able to set an association with a parameter related to a display mode of a sentence. Voice recognition device.

【0117】(5) 上記ファイル取込手段は、音声デ
ータとID情報を含むヘッダ部とがディジタル化された
音声ファイルとして記録されている記録媒体から、該音
声ファイルを取り込むものであることを特徴とする付記
(1)に記載の音声認識装置。
(5) The file fetching means fetches the audio file from a recording medium in which audio data and a header section including ID information are recorded as a digitized audio file. (1).

【0118】(6) 上記ファイル取込手段は、上記音
声ファイルを通信回線を介して取り込むものであること
を特徴とする付記(1)に記載の音声認識装置。
(6) The voice recognition apparatus according to (1), wherein the file capturing means captures the voice file via a communication line.

【0119】(7) 上記表示態様は、音声認識した文
章のフォントとレイアウトに係る態様を含むものである
ことを特徴とする付記(1)に記載の音声認識装置。
(7) The voice recognition apparatus according to the additional remark (1), wherein the display mode includes a mode relating to the font and the layout of the text that has been voice-recognized.

【0120】(8) 上記表示態様は、文章の雛形を示
すテンプレートに係る態様を含むものであることを特徴
とする付記(1)に記載の音声認識装置。
(8) The speech recognition apparatus according to the appendix (1), wherein the display mode includes a mode relating to a template indicating a template of a sentence.

【0121】(9) 上記ID情報は、録音ユーザを識
別するための録音ユーザIDを含むことを特徴とする付
記(1)に記載の音声認識装置。
(9) The voice recognition device according to the appendix (1), wherein the ID information includes a recording user ID for identifying a recording user.

【0122】(10) 上記ID情報は、当該音声認識
装置を操作する操作者を識別するための操作者IDを含
むことを特徴とする付記(1)に記載の音声認識装置。
(10) The voice recognition device according to (1), wherein the ID information includes an operator ID for identifying an operator operating the voice recognition device.

【0123】従って、付記(1)に記載の発明によれ
ば、音声認識した文章の表示態様に録音者や操作者の好
みを自動的に反映させることが可能となるために、作業
の効率化を図ることができる。
Therefore, according to the invention described in the appendix (1), it is possible to automatically reflect the preference of the recorder or the operator in the display mode of the sentence recognized by the voice, thereby improving the work efficiency. Can be achieved.

【0124】また、付記(2)に記載の発明によれば、
付記(1)に記載の発明と同様の効果を奏するととも
に、音声ファイルにID情報が含まれていない場合で
も、特別な設定を行うことなく、標準の表示態様をとる
ことができる。
According to the invention described in Appendix (2),
The same effects as those of the invention described in Appendix (1) can be obtained, and even when the audio file does not include ID information, a standard display mode can be obtained without performing special settings.

【0125】さらに、付記(3)に記載の発明によれ
ば、付記(1)に記載の発明と同様の効果を奏するとと
もに、ID情報に関連付けられる複数のパラメータの中
に設定されていないものがある場合でも、そのパラメー
タに関しては標準の表示態様をとることができる。
Further, according to the invention described in the supplementary note (3), the same effects as those of the invention described in the supplementary note (1) can be obtained, and some of the plurality of parameters associated with the ID information are not set. Even in such a case, a standard display mode can be adopted for the parameter.

【0126】付記(4)に記載の発明によれば、付記
(1)、付記(2)、または付記(3)に記載の発明と
同様の効果を奏するとともに、ID情報を蓄積すること
により、そのID情報を選択して表示態様に係るパラメ
ータと関連付けることができ、操作性が向上する。
According to the invention described in Supplementary Note (4), the same effect as the invention described in Supplementary Note (1), (2), or (3) can be obtained, and by storing ID information, The ID information can be selected and associated with the parameter related to the display mode, and the operability is improved.

【0127】付記(5)に記載の発明によれば、付記
(1)に記載の発明と同様の効果を奏するとともに、記
録媒体を用いて、音声データを取り込むことができる。
According to the invention described in the supplementary note (5), the same effects as those of the invention described in the supplementary note (1) can be obtained, and audio data can be captured using a recording medium.

【0128】付記(6)に記載の発明によれば、付記
(1)に記載の発明と同様の効果を奏するとともに、通
信回線を介して、音声データを取り込むことができる。
According to the invention described in the supplementary note (6), the same effects as those of the invention described in the supplementary note (1) can be obtained, and audio data can be captured via a communication line.

【0129】付記(7)に記載の発明によれば、付記
(1)に記載の発明と同様の効果を奏するとともに、フ
ォントとレイアウトを、録音者や操作者の好みに容易に
設定することが可能となる。
According to the invention described in Supplementary Note (7), the same effect as the invention described in Supplementary Note (1) can be obtained, and the font and layout can be easily set to the preference of the recorder or the operator. It becomes possible.

【0130】付記(8)に記載の発明によれば、付記
(1)に記載の発明と同様の効果を奏するとともに、文
章の雛形を示すテンプレートを、録音者や操作者の好み
に容易に設定することが可能となる。
According to the invention described in the supplementary note (8), the same effect as the invention described in the supplementary note (1) can be obtained, and a template indicating a template of a sentence can be easily set to a preference of a recorder or an operator. It is possible to do.

【0131】付記(9)に記載の発明によれば、付記
(1)に記載の発明と同様の効果を奏するとともに、少
なくとも録音ユーザをID情報により容易に識別するこ
とが可能となる。
According to the invention described in the supplementary note (9), the same effect as that of the invention described in the supplementary note (1) can be obtained, and at least the recording user can be easily identified by the ID information.

【0132】付記(10)に記載の発明によれば、付記
(1)に記載の発明と同様の効果を奏するとともに、少
なくとも操作者をID情報により容易に識別することが
可能となる。
According to the invention described in the supplementary note (10), the same effects as those of the invention described in the supplementary note (1) can be obtained, and at least the operator can be easily identified by the ID information.

【0133】[0133]

【発明の効果】以上説明したように請求項1による本発
明の音声認識装置によれば、音声認識した文章の表示態
様を付加情報に基づいて制御するようにしたために、表
示態様に録音者や操作者の好みを自動的に反映させるこ
とが可能となり、作業の効率化を図ることができる。
As described above, according to the speech recognition apparatus of the first aspect of the present invention, the display mode of a sentence that has undergone voice recognition is controlled based on the additional information. It is possible to automatically reflect the preference of the operator, and work efficiency can be improved.

【0134】また、請求項2による本発明の音声認識装
置によれば、請求項1に記載の発明と同様の効果を奏す
るとともに、付加情報がない場合や無効なものである場
合にも、特別な設定を行うことなく、所定の表示態様を
とることができる。
Further, according to the speech recognition apparatus of the present invention according to the second aspect, the same effects as those of the first aspect can be obtained, and even when there is no additional information or when the additional information is invalid, the special effect can be obtained. A predetermined display mode can be obtained without making any necessary settings.

【0135】さらに、請求項3による本発明の音声認識
装置によれば、請求項1に記載の発明と同様の効果を奏
するとともに、設定手段によりパラメータを設定するこ
とができるために、変換された文章を所望の表示態様に
制御することができる。
Further, according to the speech recognition apparatus of the present invention according to the third aspect, the same effect as that of the first aspect can be obtained, and the parameters can be set by the setting means. The sentence can be controlled to a desired display mode.

【0136】そして、請求項4による本発明の音声認識
装置によれば、請求項3に記載の発明と同様の効果を奏
するとともに、付加情報に対応付けられていないパラメ
ータがある場合でも、そのパラメータについては予め決
められた値に設定されるために、適切に表示態様を制御
することができる。
According to the speech recognition apparatus of the present invention according to the fourth aspect, the same effect as that of the third aspect can be obtained, and even if there is a parameter not associated with the additional information, the parameter Is set to a predetermined value, so that the display mode can be appropriately controlled.

【0137】加えて、請求項5による本発明の音声認識
装置によれば、請求項1に記載の発明と同様の効果を奏
するとともに、ユーザID情報に基づいて文章の表示態
様を制御することができる。
In addition, according to the speech recognition apparatus of the present invention, the same effects as those of the first aspect can be obtained, and the display mode of the text can be controlled based on the user ID information. it can.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の一実施形態の音声認識装置の構成を示
すブロック図。
FIG. 1 is a block diagram showing a configuration of a speech recognition device according to an embodiment of the present invention.

【図2】上記実施形態において、DSSファイルのヘッ
ダ部に記録される情報の要部を示す図。
FIG. 2 is a diagram showing a main part of information recorded in a header part of a DSS file in the embodiment.

【図3】上記実施形態において、音声認識プログラムが
起動されたとき表示画面の一例を示す図。
FIG. 3 is a diagram showing an example of a display screen when a voice recognition program is started in the embodiment.

【図4】上記実施形態において、ID関連設定メニュー
が選択されたときの表示画面の一例を示す図。
FIG. 4 is a diagram showing an example of a display screen when an ID-related setting menu is selected in the embodiment.

【図5】上記実施形態の音声認識装置の全体的な動作を
示すフローチャート。
FIG. 5 is a flowchart showing an overall operation of the speech recognition device of the embodiment.

【図6】上記図5のステップS4におけるID関連付自
動設定処理の詳細を示すフローチャート。
FIG. 6 is a flowchart showing details of an ID association automatic setting process in step S4 of FIG. 5;

【符号の説明】[Explanation of symbols]

1…ディジタル音声データ取込部(読取手段、ファイル
取込手段) 2…操作部(設定手段) 3…音声認識実行兼制御部(音声認識手段、制御手段) 4…表示部(表示手段) 5…不揮発性記憶部(記憶手段)
DESCRIPTION OF SYMBOLS 1 ... Digital voice data taking-in part (reading means, file taking-in means) 2 ... Operation part (setting means) 3 ... Voice recognition execution and control part (speech recognition means, control means) 4 ... Display part (display means) 5 ... Non-volatile storage unit (storage means)

Claims (5)

【特許請求の範囲】[Claims] 【請求項1】 音声データおよびこの音声データに付加
された該音声データに関する付加情報を音声認識して文
章に変換する音声認識装置において、 上記付加情報を読み取る読取手段と、 上記付加情報に基づいて上記変換された文章の表示態様
を制御する制御手段と、 を具備したことを特徴とする音声認識装置。
1. A voice recognition apparatus for voice-recognizing voice data and additional information relating to the voice data added to the voice data and converting the voice data into a sentence, wherein: a reading unit for reading the additional information; And a control means for controlling a display mode of the converted sentence.
【請求項2】 上記制御手段は、上記付加情報がない、
あるいは無効なものである場合には、所定の表示態様に
関する情報に基づいて上記変換された文章の表示態様を
制御することを特徴とする請求項1に記載の音声認識装
置。
2. The method according to claim 1, wherein the control unit does not have the additional information.
2. The speech recognition device according to claim 1, wherein, when invalid, the display mode of the converted text is controlled based on information on a predetermined display mode. 3.
【請求項3】 上記制御手段は、上記付加情報に基づい
て文章の表示態様に関するパラメータを設定する設定手
段を含み、上記パラメータに基づいて上記変換された文
章の表示態様を制御することを特徴とする請求項1に記
載の音声認識装置。
3. The control means includes a setting means for setting a parameter relating to a display mode of a sentence based on the additional information, and controls a display mode of the converted sentence based on the parameter. The voice recognition device according to claim 1.
【請求項4】 上記設定手段は、上記付加情報に基づい
て一つ以上のパラメータを設定する際に、設定されるべ
きパラメータの内、上記付加情報に対応付けられていな
いパラメータについては予め決められた値に設定するこ
とを特徴とする請求項3に記載の音声認識装置。
4. When setting one or more parameters based on the additional information, the setting means determines in advance, among parameters to be set, parameters not associated with the additional information. 4. The speech recognition device according to claim 3, wherein the value is set to a predetermined value.
【請求項5】 上記制御手段は、上記付加情報の内、ユ
ーザID情報に基づいて上記変換された文章の表示態様
を制御することを特徴とする請求項1に記載の音声認識
装置。
5. The speech recognition apparatus according to claim 1, wherein the control means controls a display mode of the converted text based on user ID information among the additional information.
JP10245531A 1998-08-31 1998-08-31 Voice recognizing device Withdrawn JP2000076041A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10245531A JP2000076041A (en) 1998-08-31 1998-08-31 Voice recognizing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10245531A JP2000076041A (en) 1998-08-31 1998-08-31 Voice recognizing device

Publications (1)

Publication Number Publication Date
JP2000076041A true JP2000076041A (en) 2000-03-14

Family

ID=17135088

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10245531A Withdrawn JP2000076041A (en) 1998-08-31 1998-08-31 Voice recognizing device

Country Status (1)

Country Link
JP (1) JP2000076041A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002041417A (en) * 2000-07-31 2002-02-08 Olympus Optical Co Ltd Voice mail processor and recording medium recorded with voice mail processing program

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002041417A (en) * 2000-07-31 2002-02-08 Olympus Optical Co Ltd Voice mail processor and recording medium recorded with voice mail processing program

Similar Documents

Publication Publication Date Title
EP1091346B1 (en) Background system for audio signal recovery
US7505911B2 (en) Combined speech recognition and sound recording
KR101120850B1 (en) Scaled text replacement of ink
US6581033B1 (en) System and method for correction of speech recognition mode errors
US7577569B2 (en) Combined speech recognition and text-to-speech generation
US7313526B2 (en) Speech recognition using selectable recognition modes
US7809574B2 (en) Word recognition using choice lists
US7444286B2 (en) Speech recognition using re-utterance recognition
US7225130B2 (en) Methods, systems, and programming for performing speech recognition
US7793233B1 (en) System and method for customizing note flags
US7467089B2 (en) Combined speech and handwriting recognition
US7634403B2 (en) Word recognition using word transformation commands
US7526431B2 (en) Speech recognition using ambiguous or phone key spelling and/or filtering
US7716058B2 (en) Speech recognition using automatic recognition turn off
JP2006515073A (en) Method, system, and programming for performing speech recognition
WO1999063425A1 (en) Method and apparatus for information processing, and medium for provision of information
WO2004072846A2 (en) Automatic processing of templates with speech recognition
JP3795692B2 (en) Character processing apparatus and method
JP2000076041A (en) Voice recognizing device
JP2001101162A (en) Document processor and storage medium storing document processing program
JPH09325787A (en) Voice synthesizing method, voice synthesizing device, method and device for incorporating voice command in sentence
JP2004054811A (en) Input display method, input display device, input display program and recording medium to record input display program
JP3877975B2 (en) Keyboardless input device and method, execution program for the method, and recording medium therefor
JP2003167768A5 (en)
JPH10133849A (en) Personal computer and method for error notification

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20051101