JPS595298A - 文節単位の音声認識方式 - Google Patents

文節単位の音声認識方式

Info

Publication number
JPS595298A
JPS595298A JP57114418A JP11441882A JPS595298A JP S595298 A JPS595298 A JP S595298A JP 57114418 A JP57114418 A JP 57114418A JP 11441882 A JP11441882 A JP 11441882A JP S595298 A JPS595298 A JP S595298A
Authority
JP
Japan
Prior art keywords
clause
independent word
phrase
word
adjective
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP57114418A
Other languages
English (en)
Inventor
奈良 泰弘
繁 佐々木
晋太 木村
小林 敦仁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP57114418A priority Critical patent/JPS595298A/ja
Publication of JPS595298A publication Critical patent/JPS595298A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔発明の技術分野〕 本発明は音声認識装置に係わシ、特に日本語文章を効率
よく音声入力できる音声認識方式に関する。
〔従来技術と問題点〕
従来、音声認識技術を利用して日本語文章を音声によっ
て入力しようとする各種試みがなされてきた。これらは
、以下のように3種類に分類できる。
:)単音節単位で音声の発声・認識を行う。
++)  語幹は単語として発声・認識し、附属語や活
用語尾は単音節単位で発声囃認識する。
111)文節を単語の一種として扱い゛、文節単位で発
声・認識する。
これらの利点−1欠点を考えると、 1)は、日本語が68〜200程度の種類の音節で構成
されていることに注目したもので、単音節単位の認識が
できる音声認識装置を作れば、従来のかな漢字変換技術
と組み合せることにょシ、あらゆる日本語を入力できる
というものである。しかしこの方式には、使いにくいと
いう欠点がある。
つマシー音節ごとに「わ・た・く・し・は」というよう
に区切って発声することは緊張を要し、話者を疲れさせ
る。また、入力速度もあまシ速くならない。
11)は、1)よシも発声単位を長くしようとするもの
で、名詞、副詞など語尾変化しない言葉は単語単位で入
力し、おくりがな(附属語)は単音節単位で入力しよう
というものである。また、動詞、形容詞、形容動詞とい
うような活用する語については終止形で入力し、カーソ
ルを語幹の後ろに戻して活用語尾を単音節単位で入力す
るというものである。例えば「少年は歩いた」という言
葉を入力するためには「しょうねん」 「は」 「ある
く」(1文字カーソルを戻す)「い」 「た」というよ
うに発声するわけである。この方式はカーソルを戻すと
いう面倒な操作が必要である点、おくシがなを単音節単
位で入力するために話者を疲れさせてしまうという欠点
を持っている。
111)は、文節単位で発声すれば良いので発声が非常
に楽である。「文節」は「ネ」をはさむことのできる最
小単位で、例えば「わたしは会社で働いています」とい
う文章は「わたしはネ」 「会社でネ」 「働いてネ」
 「いますネ」というような文節群に分けることができ
る。しかし、この方式では「山は」 「山を」 「山と
」 「山の」 「山から」・・・をそれぞれ別の単語と
して扱うので音声認識装置が持たなければならない辞書
の容量が多くなってしまうという欠点がある。
〔発明の目的〕
本発明の目的は、日本語の1文節を2つの部分に分割し
たものを発声・uR単位とすることによ位の発声・認識
よシも大幅に辞書の容量を減少させようとすることにあ
る。
〔発明の構成〕
そしてそのため、本発明の文節単位の音声認識方式は、
日本語文章を読み上げた音声を機械認識ヂる音声認鵞シ
ステムにおいて、日本語の1文節が1つの自立語、又は
1つの自立語といくつかの付属語によって構成されてい
ることに基づき、自立語が名詞のときは、名詞を文節前
部、付属語を文節後部、 自立語が副詞のときは、副詞を文節前部、文節後部なし
、 自立語が連体詞のときは、連体詞を文節前部、文節後部
なし、   〜 自立語が接続詞のときは、接続詞を文節前部、文節後部
なし、 自立語が感動詞のときは、感動詞を文節前部、文節後部
なし、 自立語が動詞のときは、不変化部を文節前部、「変化部
子付属語」を文節後部、 自立語が形容詞のときは、不変化部を文節前部、「変化
部子付属語」を文節後部、 自立語が形容詞のときは、不変化部を文節前部、「変化
部子付属語」を文節後部、 とすることによって、1文節を文節前部、文節後部の2
つの部分に分け、文節前部の音声情報と対応する文字情
報を関連付けて文節前部辞書メモリに格納し、文節後部
の音声情報と対応する文字情報を関連付けて文節後部辞
書メモリに格納することをf[とするものである。
〔発明の要点〕
日本語の1文節は必ず1つの自立語だけ、又は1つの自
立語といくつかの付属語から構成されている。
自立語には活用しないもの: 名詞、副詞、連体詞、接続詞、感動詞 J用するもの: 動詞、形容詞、形容動詞 の2種類がある。副詞、連体詞、接続詞、感動詞はそれ
自体で文節を構成する。まだ、名詞はそれ自体で文節を
構成することがある他、助詞を伴って文節を構成するこ
とがある。
付属語には活用しないもの:助詞 活用するもの:助動詞 02種類がある。
そこでこれらをまとめ、1文節を 活用しない自立語+付属語 文節前部      文節後部 の2つのタイプに分類することを考える。
音声認識によって日本語を入力する場合の辞書項目数を
考えると、文節前部(自立語)は無数に存在し一般には
数千語〜数万語の辞書が必要であるが、話題に応じて必
要な単語セットを数千に限定すればよい。これに対して
、付属語は、話題にあまり影響されないという性質があ
υ、特に上記のような境界を用いると、文体を例えば「
論文調」とか「会話調jなどに限定すれば文節後部は数
千語あれば十分である。
文節後部が約2000種あればよいことを示す。
例えば、「歩(ある)」や「磨(みが)」など「か行五
段活用動詞」、の語幹(文節前部)につなぎ得る「論文
調」の語尾(文節後部)は第1図のように普通の語尾1
10種、イ音便語尾20種ある。ここでは語尾の数が多
くなるのを防ぐために助動詞「ない」 「らしい」は形
容詞、「そうだ」「ようだ」は形容動詞として扱ってい
る。このような語尾セットが「わあ行、か行、さ行、た
行、な行、ま行、ら行、が行、ば行」の9セツトあり、
音便には「イ音便、撥音便(巧、促音便(ツ)」の3種
があるので五段活用動詞については110X9+20X
3=1050種の語尾があればよいことKなる。
うに文法上の活用語尾の第−字が共通なため、「試み」
のように共通文字を語幹の一部とすれば、活用語尾とし
ては行に関係なく1セツトあればよいことKなる。下一
段活用動詞についても同様である。
この他にか行変格活用動詞の語尾、さ行変格活用の語尾
、形容詞の語尾、形容動詞の話尾名詞につく付属語など
を合せて、活”用語尾(文節後部)は2000種以下で
十分である。
〔発明の実施例〕
以下、本発明を図面を参照しつつ説明する。
第2図は本発明の1実施例のブロック図、第3図は文節
前部辞書メモリと文節後部辞書メモリとの構成の1例を
説明する図である。
第2図において、1はマイクロフォン、2は増幅器、3
−1ないし3−16はアナログ・フィルタ、4−1はマ
ルチプレクサ、4−2はサンプル&ホールド回路、4−
3はA/D変換器、4−4は発振回路、4−5は1/1
6分周回路、5−1はバッファΦメモリ、5−2は圧縮
回路、6−1は距離計算回路、6−2は最小値決定回路
、7は文節前部辞書メモリ、8は文節後部辞書メモリ、
9はディスプレイをそれぞれ示している。
マイクロフォン1により入力された音声信号は増幅器2
により増幅された後、16個のアナログ・フィルタ3−
1ないし3−16により周波数分析を行う。アナログ−
フィルタ3−1ないし3−16の出力は16種類の周波
数に対するスペクトル強度を表わすが、この信号をio
ong秒毎にマ、It/チプレクサ4−1で時分割し、
サンプル&ホールド回路4−2でサンプリングし、A/
D変換器4−3でディジタル量に変換する。A/D変換
器4−3は10112秒毎に16個−組のデータを出力
するが、このデータはいったんバッファ・メモリ5−1
にたくわ見られる。圧縮回路5−2は一発声(約0.3
〜0.7秒)の音声に対して得られる30ないし70組
のデータを時間軸方向に平均値圧縮し、16組にする。
この16x16=256次元のデータをマツチング・ユ
ニットと呼ぶ。
音声登録時は先ずスイッチ11を文節前部辞書メモリ7
の方へ切υ換え、指定された順序で開枠の発声を行い、
つぎつぎに語幹のマツチング・ユニットを登録する。次
に、スイッチ11を文節後部辞書メモリ8の方に切り換
え、指定された順序で語尾の発声を行い、つぎつぎに語
尾のマツチング・ユニットを登録する。1文節は文節前
部と文節後部に分けられるが、この区分は、 (イ) 自立語が名詞のときは、名詞を文節前部、付属
語を文節後部 (ロ) 自立語が副詞のときは、副詞を文節前部、文節
後部なし e→ 自立語が連体詞のときは、連体詞を文節前部、文
節後部なし くニ) 自立語が接続詞のときは、接続詞を文節前部、
文節後部なし くホ) 自立語が感動詞のときは、感動詞を文節前部、
文節後部なし くへ) 自立語が動詞のときは、不変化部を文節前部、
「変化部子付属語」を文節後部 (ト)  自立語が形容詞のときは、不変化部を文節前
部、「変化部子付属語」を文節後部、 (イ) 自立語が形容動詞のときは、不変化部を文節前
部、「変化部子付属語」を文節後部 という規則にしたがって行われる。
第3図は文節前部辞書メモリ7および文節後部辞書メモ
リ8の構成の1例を示すものである。文節前部辞書メモ
リ7のマツチング・ユニット1は「ある」という音声を
圧縮したものであり、これに対応して「歩」という文字
コードが登録されている。文節前部辞書メモリ7のマツ
チング・ユニット2は「はな」という音声を圧縮したも
のであり、マツチング・ユニット3は「おく」という音
声を圧縮したものである。文節後部辞書メモリ8のマツ
チング・ユニット1は「かされた」という音声を圧縮し
たものであシ、これに対応して「かされた」という文字
コード列が登録されている。
このように、文節前部辞書メモリ7にはマツチング・ユ
ニット群と、それらに対応するラベル(文字情報)から
構成されている。文節後部辞書メモリ8も同様である。
音声認識時には、認識装置使用者は、文節前部を入力す
るときにはスイッチ10によって文節部辞書メモリ7を
選択し、文節後部を入力するときKはスイ2Lf−,t
、 OKよって文節後部辞書メモリ8を選択し、しかる
後に音声で入力を行う。入力音声のマツチング・ユニッ
トと文節前部辞書メモリ7又は文節後部辞書メモリ8か
ら出力されるマツチング・ユニットとは、距離計算回路
6−1に入力される。辞書1項目のマツチング曝ユニッ
トの要素をll(i=1ないし256) 、入力音声の
マツチング・ユニットの要素を、1i(i=1ないし2
56)とすると  ≧(Ii−Ri)により距離を求め
ること+−l が出来る。距離計算回路6−1はこのよう准距離計算を
入力音声と全辞書項目の間に計算し、最小値決定回路6
−2は最も距離の小さい辞書項目を選択する。選び出さ
れた辞書項目のラベルは認識結果としてディスプレイ9
に表示される。
文節前部を発声する場合、文節のどこまでが文節前部で
、どこまでが文節後部であるかを判定するのは煩わしい
が、音声情報としては終止形を用い、ラベルをその文節
前部とすることも出来る。
すなわち、第3図(イ)において、ラベル「歩」、「話
」、「送」をそのま\とし、マツチング・ユニット1を
「あるく」という音声を圧縮したもの、マツチングΦユ
ニット2を1はなす」という音声を圧縮したもの、マツ
チング・ユニット3を「おくる」という音声を圧縮した
ものとすることが出来る。
このような構成によって下記のような効果が期待できる
。つまυ、文節の活用語を終止形で発声すると、認識結
果として文節前部が表示されるので、残りを文節後部と
して発声、認識すれば良い。例えば、「歩いだが」とい
う文節を入力するためにスイッチ10を文節前部辞書メ
モリ7の側に倒した後「あろく」を発声すると、認識結
果として「歩」と表示されるので、文節後部として「い
たが」と;発声すれば良い。
〔発明の効果〕
本発明によれば、日本語の1文節を2つの部分に分割し
たものを発声争認識単位とすることによシ、 ■ 従来の単音節単位の入力による音声認識装置や、単
語単位と単音節単位の入力を組合せた認識装置よシも楽
な発声で日本語を音声で入力できる。
■ 文節単位の発声・認識よりも大幅に辞書の容量を減
少させることが出来る。例えば、語索を限定した200
0語で「論文調」の場合、本発明によれば文節前部辞書
2000項目十項目後部辞書2000項目の計4000
項目で認識できるが、従来の文節単位の認識方式を用い
ると2000X2000=4000000項目が必要に
なる。
【図面の簡単な説明】
第1図は本発明のための「力行五段活用動詞の論文調活
用語尾」を示す図、第2図は本発明の1実施例のブロッ
ク図、第3図は文節前部辞書メモリと文節後部辞書メモ
リの構成の1例を示す図である。 1・・・マイクロフォン、2・・・増幅器、3−1ない
L3−16・・・アナログ・フィルタ、4−1・・・マ
ルチプレクサ、4−2・・・サンプル&ホールド回路、
4−3・・・A/D変換器、4−4・・・発振回路、4
−5・・・1/16分周回路、5−1・・・バッファ・
メモリ、・・・文節後部辞書メモリ、9・・・ディスプ
レイ。 手続補正書(自発) 昭和57年7月78 2、発明の名称 文節単位の音声認識方式3、補正をす
る者 事件との関係  %if’F出願人 住 所  神奈川県用崎市中原区上小田中1015番地
氏名  (522)富士通株式会社 代表者山本卓眞 4、代理人 住 所  東京都荒川区西日暮里4丁目17番1号補 
 正 の  内  容 うむA 以   上

Claims (3)

    【特許請求の範囲】
  1. (1)  日本語文章を読み上げた音声を機械認識する
    音声認識システムにおいて、日本語の1文節が1つの自
    立語、又は1つの自立語といくつかの付属語によって構
    成されていることに基づき、自立語が名詞のときは、名
    詞を文節前部、付属語を文節後部、 自立語が副詞のときは、副詞を文節前部、文節後部なし
    、 自立語が連体詞のときは、連体詞を文節前部、文節後部
    なし、 自立語が接続詞のときは、接続詞を文節前部、文節後部
    なし、 自立語が感動詞のときは、感動詞を文節前部、文節後部
    なし、 自立語が動詞のときは、不変化部を文節前部、「変化部
    子付属語」を文節後部、 自立語が形容詞のときは、不変化部を文節前部、「変化
    部子付属語」を文節後部、 自立語が形容動詞のときは、不変化部を文節前部、「変
    化部子付属語」を文節後部、 とすることによって、1文節を文節前部、文節後部の2
    つの部分に分け、文節前部の音声情報と対応する文字情
    報を関連付けて文節前部辞書メモリに格納し、文節後部
    の音声情報と対応する文字情報を関連付けて文節後部辞
    書メモリに格納することを特徴とする文節単位の音声認
    識方式。
  2. (2)助動詞「ない」 「らしい」を形容詞、「そうだ
    」 「ようだ」を形容詞として扱うことを特徴とする特
    許請求の範囲第(1)項記載の文節単位の音声認識方式
  3. (3)  自立語が動詞、形容詞、形容動詞の場合、こ
    れら自立語の終止形の音声情報と不変化部の文字情報と
    を関連付けて文節前部辞書メモリに格納することを特徴
    とする特許請求の範−第(1)項又は第(2)項の文節
    単位の音声認識方式。
JP57114418A 1982-06-30 1982-06-30 文節単位の音声認識方式 Pending JPS595298A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57114418A JPS595298A (ja) 1982-06-30 1982-06-30 文節単位の音声認識方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57114418A JPS595298A (ja) 1982-06-30 1982-06-30 文節単位の音声認識方式

Publications (1)

Publication Number Publication Date
JPS595298A true JPS595298A (ja) 1984-01-12

Family

ID=14637203

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57114418A Pending JPS595298A (ja) 1982-06-30 1982-06-30 文節単位の音声認識方式

Country Status (1)

Country Link
JP (1) JPS595298A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01140369A (ja) * 1987-11-27 1989-06-01 Hitachi Ltd 音声対話型文書作成装置
JPH01265298A (ja) * 1988-04-15 1989-10-23 Fujitsu Ltd 音声認識方式

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01140369A (ja) * 1987-11-27 1989-06-01 Hitachi Ltd 音声対話型文書作成装置
JPH01265298A (ja) * 1988-04-15 1989-10-23 Fujitsu Ltd 音声認識方式

Similar Documents

Publication Publication Date Title
US6990450B2 (en) System and method for converting text-to-voice
US20020077822A1 (en) System and method for converting text-to-voice
Cutler et al. Explaining cross-linguistic differences in effects of lexical stress on spoken-word recognition
US6549883B2 (en) Method and apparatus for generating multilingual transcription groups
Aarti et al. Spoken Indian language identification: a review of features and databases
McLarty et al. Corpus-based sociophonetic approaches to postvocalic r-lessness in African American Language
Kishore et al. Experiments with unit selection speech databases for Indian languages
Carlson et al. Linguistic processing in the KTH multi-lingual text-to-speech system
US20020077821A1 (en) System and method for converting text-to-voice
JPS595298A (ja) 文節単位の音声認識方式
JP3009636B2 (ja) 音声言語解析装置
JP2758851B2 (ja) 自動翻訳装置及び自動通訳装置
KR100369507B1 (ko) 표준 발음법 분석에 기반한 음성 인식/합성 시스템 및 방법
Umeda et al. The parsing program for automatic text-to-speech synthesis developed at the Electrotechnical Laboratory in 1968
Meng et al. CU VOCAL: corpus-based syllable concatenation for Chinese speech synthesis across domains and dialects.
JP3518340B2 (ja) 読み韻律情報設定方法及び装置及び読み韻律情報設定プログラムを格納した記憶媒体
Wong et al. Acoustic modeling and language modeling for cantonese LVCSR.
JP3446342B2 (ja) 自然言語処理方法および音声合成装置
JP3029403B2 (ja) 文章データ音声変換システム
Büyük Sub-world language modelling for Turkish speech recognition
Kato et al. Multilingualization of speech processing
Lindström et al. A two-level approach to the handling of foreign items in Swedish speech technology applications.
JP3121530B2 (ja) 音声認識装置
Lee et al. Modeling cross-morpheme pronunciation variations for korean large vocabulary continuous speech recognition.
Mariani Hamlet: a prototype of a voice-activated typewriter