JP2555009B2

JP2555009B2 - 音声フアイル装置

Info

Publication number: JP2555009B2
Application number: JP60108119A
Authority: JP
Inventors: 邦晃田畑; 匡利樋野; 哲夫町田
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1985-05-22
Filing date: 1985-05-22
Publication date: 1996-11-20
Anticipated expiration: 2011-11-20
Also published as: JPS61267099A

Description

【発明の詳細な説明】〔発明の利用分野〕本発明は、音声によるメツセージの蓄積・転送が可能
な音声フアイル装置に関する。

〔発明の背景〕

音声によるメツセージの蓄積・転送が可能な音声フア
イル装置は、例えば、文献（日経エレクトロニクス、19
83.8.15,pp.199〜208）に記載されるような各種システ
ムが既に実用化されている。これらの音声フアイル装置
は、利用者が通話中ないしは不在の場合にもメツセージ
伝達を可能にするなど、オフイス業務の生産性向上に貢
献する機能を有している。しかし、従来の音声フアイル
装置では、蓄積した音声メツセージの内容を知るために
は、個々のメツセージを逐一、音声再生して聴覚で確認
する必要があつた。つまり、複数のメツセージの概略内
容を利用者が瞬時に理解できるような「一覧性」や「視
覚性」に欠けていた。このため、利用者にとつて関心度
や重要度の高いメツセージから順に選択して音声再生す
るといつた臨機の対応が困難であり、また、メツセージ
を逐一再生して内容確認するシーケンシヤルな作業を余
儀なくされるために大きな時間的損失をともなうという
問題があつた。

〔発明の目的〕

本発明の目的は、メツセージ内容やフアイルの一覧表
示機能を有する音声フアイル装置を提供することにあ
る。

〔発明の概要〕

蓄積された音声メツセージの中から抽出すべきキーワ
ード（単語）を、利用者が事前に設定し、これをキーワ
ード・テーブルに登録しておく。この登録の方法は、想
定するメツセージ発信者が発声したキーワードの音声波
形を周波数分析等の処理を施し、単語音声としての特徴
量に変換して登録するものである。各キーワードには、
文字符号等の識別名や属性データを付する。キーワード
・テーブルに登録する特徴量は可能な限り、話者依存度
の少ないパラメータが望ましいが、場合によつては、同
一キーワードに対して、性別・年代別または何らかの分
類基準にもとづく話者群別に、複数の特徴量を登録して
もよい。

このようにして作成したキーワード・テーブルの特徴
量が、音声フアイル装置に到着する音声メツセージに含
まれるか否かを照合する。ここで、音声メツセージは、
連続発声あるいは離散発声された音声パターンであり、
キーワード・テーブルへの登録データを語彙とする単語
認識の技術を用いて、上記の照合処理を行なう。音声フ
アイル装置に蓄積された音声メツセージのなかから、抽
出されたキーワードの識別名や属性等を一覧表形式で表
示（可視化）する。このような表示によつて、利用者
は、各メツセージの概略内容を知り、あるいは、利用者
にとつて関心度や重要度の高いメツセージから順に音声
再生するための選択判断が可能になる。

以上のように、本発明は単語音声認識技術を応用した
キーワード抽出機能と音声フアイル機能を結合すること
によつて、音声メツセージを可視化したところに特徴が
ある。さらに本発明は音声キーワードを認識した結果と
同じデータを一般のフアイルのキーワードとして使用
し、各フアイルのキーワードを一覧表にして可視化表示
し各フアイルの索引とすることも可能であり、本発明は
音声キーワードによるフアイル索引方式をも提供するも
のである。

なお、本発明では、到着する音声メツセージを構成す
る全ての単語を認識することを必要とするわけではな
い。事前に登録した特定のキーワードのみを音声メツセ
ージから抽出できればよいのであり、また、登録するキ
ーワードの特徴量は、特定の話者に関するデータに限定
してよい。すなわち、限定話者・限定語彙の単語認識を
行なえばよいので、当面本発明を実用化する上での大き
な技術的困難はない。

〔発明の実施例〕

本発明の基本原理を第１図に示す。図中、１はキーワ
ード・テーブル、２は音声認識部、３は管理テーブル、
４は表示部、５はメツセージの入力音声、６は音声入力
部、７はデータ圧縮部、８は音声記憶部、９はデータ伸
長部、10は音声出力部、11はメツセージの出力音声、12
は再生指示部である。

本装置に判着した音声メツセージ５は、連続発声ある
いは離散発声された音声パターンであり、これを音声入
力部６でA/D（Analogue to Digital）変換し、データ圧
縮の後、音声記憶部８に格納する。到着した音声メツセ
ージ５は、また、音声認識部２にも送出され、キーワー
ド・テーブル１に事前に登録された特徴量と照合され
る。キーワード・テーブル１には、通常、単語音声を単
位にして、複数のキーワードの特徴量が登録されている
が、このうち、入力音声の特徴量と合致するキーワード
があれば、その識別名と属性等を管理テーブル３に登録
する。管理テーブル３は、第２図の構造をもち、到着し
たメツセージ単位に、メツセージ識別子，到着時刻，終
了時刻、抽出したキーワードの識別名とその出現頻度等
を記憶する。

キーワード・テーブル１は第３図の構造をもち、各キ
ーワードごとに、識別子、記述文、話者群コード、優先
度、特徴量の格納アドレス31等を記憶する。ここに、話
者群コードとは、音声メツセージの話者を特定するため
の符号であり、性別・年代別または何らかの基準にもと
づいて分類した話者群を表す。勿論、各個人の話者に対
応して話者群コードを定めてもよい。なお、特徴量を示
すデータは全て同一の長さ（Ｌ）をもつと仮定する。ま
た、記述文とは、各キーワードが意味する内容を表わし
た文字列である。例えば、「シキユウ」と離散発声した
単語音声をキーワードとして登録する場合、「至急」と
いう文字列を記述文として登録する。第３図の例では、
キーワード・テーブル１に登録された第１番目のキーワ
ードは、識別子が“ABC"で、記述文が「至急」、話者群
コードが“G"、優先度が“0"であることを示す。また、
第２番目のキーワードは、識別子が“BCD"で、記述文が
「連絡」、話者群コードが“G"、優先度が“1"であるこ
とを示す。

一例として、上記のようにキーワード・テーブルが設
定されている時、第ｎ番目に到着した音声メツセージ
（到着時刻が10:07、終了時刻が10:09）が、メツセージ
中の６ケ所に、キーワード“ABC"を含み、３ケ所にキー
ワード“BCD"を含むものとすれば、このメツセージは音
声認識部２の処理の結果、管理テーブル３に第２図に示
すように、抽出したキーワードの識別子（“ABC"と“BC
D"）および頻度、到着時刻，終了時刻が登録される。

この管理テーブル３とキーワード・テーブル１の情報
をもとに、到着した音声メツセージの概略内容を一覧表
示する。第４図は表示内容の一例を示したもので、到着
時刻の早い順あるいは優先度の高い順に、音声メツセー
ジの識別子（項番）、抽出したキーワードの記述文と出
現頻度、話者群コード等を表示する。１つの音声メツセ
ージから複数個のキーワードを抽出した場合は、出現頻
度あるいは優先度の高い順に、キーワードの記述文を表
示してもよい。

また、到着した音声メツセージのなかから、優先度が
０（最高の優先度）をもつキーワード（例えば、第３図
の“ABC"）を抽出した場合は、アラーム等により、当該
メツセージが到着したことを利用者に通知する。

第４図の表示画面によつて、利用者は音声メツセージ
の概要や緊急度を推定できるので、このうち、重要度が
高いと判断した音声メツセージの識別子（項番）を指定
して、音声メツセージを再生する。音声記憶部８に蓄積
された音声メツセージはデータ伸長の後、音声出力部10
でD/A（Digital to Analogue）変換して再生する。

音声認識部２は連続発声あるいは離散発声の音声パタ
ーンを単語認識する機能を有する。この単語認識の処理
は、基本的には、特徴抽出、パターンの類似度計算、参
照パターンと入力パターンの時間補正、判定からなる。
各処理の内容と実現方法については、文献（例えば、日
経エレクトロニクス、1983.8.15,pp.199〜208）に詳し
いので説明を省略するが、単語認識装置は既に各種の方
式が実用済（例えば、テキサス・インスツルメント社製
のデイジタル信号処理ボード“SBSP−3001"は、最大約5
0個の語彙を登録でき、１回の発声で最大21個の単語を
連続発声した音声パターンのなかから単語を認識する）
であるのが本発明はこれらの技術を自在に適用して実現
することが可能である。なお、キーワード・テーブル１
に登録する特徴量とは、例えば、ホルマント抽出や線形
予測符号化の手法を用いて音声パターンから抽出したも
のであり、何を特徴量とするかは、採用する音声認識方
式に依存する。

第４図の特徴量の一覧表は各対応するフアイルごとの
特徴的キーワードを示しているものとすることも出来
る。これらのフアイルは音声フアイルに限らず、音声フ
アイルと視覚的文書や帳票のフアイルまたはデータのフ
アイルの結合されたものでもよい。すなわち一般のフア
イルのキーワードを音声によるキーワードとしてこれら
フアイルの検索を行うことを可能とする。この場合第４
図の一覧表は複数のフアイルの音声索引（インデツク
ス）を与えるものであり、これにより、音声ベースでの
フアイル検索を容易にしている。

第５図に、本発明を適用した一実施例でのハードウエ
ア構成を示す。図中、21は電話網インタフエス、22は音
声処理装置、23はスピーカ、24はCRTデイスプレイ、25
は磁気デイスク、26はプロセツサ、27はメモリ、28はキ
ーボードである。21は電話網と本装置に接続するもの
で、到着する音声メツセージを取込みあるいは、蓄積し
た音声メツセージを他に転送する。到着した音声メツセ
ージは、音声処理装置22において、A/D変換しデータ圧
縮して磁気デイスク25に格納する。25には音声フアイル
または音声認識されたキーワードを含むフアイルが格納
されている。同時に、音声処理装置22は到着した音声メ
ツセージからキーワードを抽出する。音声処理装置22
は、音声認識部、キーワード・テーブル、A/D,D/A、デ
ータ圧縮部、データ伸長部を内蔵する。メモリ27は、管
理テーブル３、プログラムやデータを格納する。第４図
の画面は、CRTデイスプレイに表示する。この表示され
たキーワードを索引として欲しいフアイルを見出したユ
ーザはそのキーボードの入力を音声で行うことも、キー
ボード等で行なうことも可能である。

このようにして入力したキーワードにより音声メツセ
ージを抽出することが可能である。

例えば、キーボード28で選択した音声メツセージは磁
気デイスク25から取出し、音声処理装置22を経由してス
ピーカ23に再生出力する。

〔発明の効果〕

本発明によれば、単語音声認識技術を応用したキーワ
ード抽出機能と音声フアイル機能を結合することによ
り、音声メツセージに含まれるキーワードの抽出と出現
頻度の定量化、話者群の特定化などと行ない、一覧表形
式で視覚的に表示するので次の効果がある。

（１）複数の音声メツセージやフアイルの概略内容や
話者（あるいはその性別・年代別の話者群）を容易に、
かつ、瞬時に推定できる。

（２）到着した音声メツセージのうち、利用者にとつ
て関心度や重要度の高いメツセージから順に選択して音
声再生するといつた臨機の対応が可能である。

（３）指定したキーワードや話者群を含むメツセージ
が到着したことを、メツセージ到着時点で利用者に通知
できるので、重要度の高いメツセージやフアイルに迅速
に対応できる。

（４）従来方式のように、メツセージを逐一再生して
内容確認する必要がないので、利用者の負担が軽く、ま
た、時間的損失が少ない。

（５）音声をキーワードとした音声メツセージや一般
のフアイルの索引を表示し、希望するフアイルやメツセ
ージの検索を音声で行うことが出来る。

【図面の簡単な説明】第１図は本発明の原理を示すデータフロー図、第２図は
本発明の管理テーブルの構成図、第３図は本発明キーワ
ード・テーブルのテーブル構成図、第４図は本発明の出
力を表示した画面の例を示す説明図、第５図は本発明の
適用実施例のハードウエア構成図である。１……キーワード・テーブル、２……音声認識部、３…
…管理テーブル、４……表示部、５……入力音声、６…
…音声入力部、７……データ圧縮部、８……音声記憶
部、９……データ伸長部、10……音声出力部、11……出
力音声、12……再生指示部。

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁶ 識別記号庁内整理番号ＦＩ技術表示箇所Ｇ１０Ｌ 3/00 ５５１Ｇ１０Ｌ 3/00 ５５１ＤＨ０４Ｍ 1/65 Ｈ０４Ｍ 1/65 Ｈ (56)参考文献特開昭61−109356（ＪＰ，Ａ) 特開昭57−167184（ＪＰ，Ａ) 実開昭58−139746（ＪＰ，Ｕ)

Claims

(57)【特許請求の範囲】

【請求項１】入力された音声メッセージおよび入力され
た音声メッセージ単位に付された識別子をファイル手段
に蓄積しておき、蓄積された音声メッセージを選択的に
出力するようにした音声ファイル装置において、予め決められた複数個のキーワードについて音声として
の特徴量と文字列表示するためのコードとを記憶する第
１の記憶手段と、入力された音声メッセージの中から上記第１の記憶手段
に記憶された音声特徴量をもつキーワードを認識するた
めの認識手段と、上記認識手段によって認識されたキーワードに対応する
文字列表示コードと、上記音声メッセージの識別子とを
対応づけて記憶するとともに１つの音声メッセージ中に
出現したキーワード毎の頻度を示す情報である頻度情報
を記憶する第２の記憶手段と、上記第２の記憶手段に記憶された文字列表示コードに基
づいて、各音声メッセージ中に含まれるキーワードを音
声メッセージの識別子と対応づけて表示するとともに上
記第２の記憶手段に記憶された上記頻度情報をキーワー
ドに対応させて文字表示する表示手段と、上記表示手段に表示された音声メッセージ識別子の１つ
を特定するための手段と、上記ファイル手段から上記特定された音声メッセージの
識別子をもつ音声メッセージを選択して出力するための
音声出力手段とを備えたことを特徴とする音声ファイル装置。
【請求項２】前記第２の記憶手段が、１つの音声メッセ
ージの到着時刻を示す情報を記憶し、前記表示手段が、
前記音声メッセージの識別子に対応させて上記到着時刻
情報を文字表示することを特徴とする特許請求の範囲第
１項に記載の音声ファイル装置。