JPS60217395A - Critical state detector by voice - Google Patents

Critical state detector by voice

Info

Publication number
JPS60217395A
JPS60217395A JP59073970A JP7397084A JPS60217395A JP S60217395 A JPS60217395 A JP S60217395A JP 59073970 A JP59073970 A JP 59073970A JP 7397084 A JP7397084 A JP 7397084A JP S60217395 A JPS60217395 A JP S60217395A
Authority
JP
Japan
Prior art keywords
speech
crisis
crisis state
voice
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP59073970A
Other languages
Japanese (ja)
Inventor
洋一 竹林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP59073970A priority Critical patent/JPS60217395A/en
Publication of JPS60217395A publication Critical patent/JPS60217395A/en
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.

Description

【発明の詳細な説明】 [発明の技術分野] この発明は人間の発生した音声を利用して、そあ人間が
表現しようとしている危機状態を検出する装置に関する
DETAILED DESCRIPTION OF THE INVENTION [Technical Field of the Invention] The present invention relates to an apparatus for detecting a crisis state that a human being is trying to express by using the voice generated by the human being.

[発明の技術的背景とその問題点] 近年、エレクトロニクス、メカトロニクス、大規模シス
テム技術、ロボット技術等の科学技術の進歩は目覚まし
く、ファクトリ・オートメーション、オフィス・オート
メーション、ラバラトリ・オートメーション等の導入に
より、様々な産業分虹で合理化が図られ、業務の効率化
がなされてきている。また、ホーム・オートメーション
もより高度なものが導入さ゛れるようになってきた。
[Technical background of the invention and its problems] In recent years, advances in science and technology such as electronics, mechatronics, large-scale system technology, and robot technology have been remarkable, and with the introduction of factory automation, office automation, laboratory automation, etc. Industrial division has led to rationalization and improved operational efficiency. Furthermore, more advanced home automation systems are being introduced.

一方、パタニン認識技術も着実に進歩してきており、例
えば郵便番号め読取り装置、および英数字jカナ、さら
には漢字等を!!!l!′議する光学的文字認識装置や
オンライン文字認識装置が実用化されている。さらに、
音声認識の分野でも特定話者を対象とする単語音声認識
装置、連続音声認識装置や単音節認識装置と日本語処理
技術による音声ワードプロセッサも実用化されている。
On the other hand, pattern recognition technology is also steadily progressing, such as postal code reading devices, alphanumeric characters, j-kana, and even kanji! ! ! l! Optical character recognition devices and online character recognition devices have been put into practical use. moreover,
In the field of speech recognition, word speech recognition devices, continuous speech recognition devices, monosyllable recognition devices, and speech word processors based on Japanese language processing technology have also been put into practical use for specific speakers.

不特定話者用の単語音声認識装置も実用化されており、
銀行等における残額紹介等のテレホンサービスで多数の
ユーザーに利用されている。また、研究レベルでは連続
音声認識や話者認識に関する研究も盛んになされており
、このような研究の進展と半導体技術やLSI技術の進
歩とにより、広範な分野で音声認識装置が利用されよう
としている。この発明はこうした音声認識技術の発展を
利用したものである。
Word speech recognition devices for non-specific speakers have also been put into practical use.
It is used by many users for telephone services such as balance introductions at banks, etc. Furthermore, at the research level, research on continuous speech recognition and speaker recognition is actively being conducted, and with the progress of such research and advances in semiconductor technology and LSI technology, speech recognition devices are being used in a wide range of fields. There is. This invention utilizes the development of such voice recognition technology.

ところで、上述のような科学技術の進歩により合理化、
効率化が達成される反面、システムが複雑化、巨大化す
るにつれて、人間は従来とは異なる様々な危険に遭遇す
ることが多くなってくる。
By the way, due to the advancement of science and technology as mentioned above, rationalization and
While efficiency has been achieved, as systems become more complex and larger, humans increasingly encounter various dangers that are different from those in the past.

例えば最近急速に進歩してきたロボット技術を見ると、
ロボットはコンピュータにより制御されて極めて精密な
動作9作業を行ない、部品の組立てや運搬等の多くの面
で人間の負担を軽減するのに寄与している。しかし、ロ
ボットはあくまで人間ではないので、電気的な雑音やプ
ログラムの誤りが原因で誤動作をを行なうことがある。
For example, if we look at robot technology, which has progressed rapidly recently,
Robots are controlled by computers and perform extremely precise movements9, helping to reduce the burden on humans in many aspects such as assembling and transporting parts. However, since robots are not humans, they may malfunction due to electrical noise or programming errors.

このような誤動作の結果、物品を破壊したり、人間に危
害を加えることもあるのが現状である。
As a result of such malfunctions, the current situation is that items may be destroyed or people may be harmed.

また、ロボットに限らず種々のプラントや発電所等の大
規模システムでも、効率化のため人員削減を進めている
。従って、限られた人員で地震等の異常状態の検出をい
かに適確、かつ迅速に行なうかが大きな課題となってい
る。
Furthermore, not only robots but also large-scale systems such as various plants and power plants are reducing personnel in order to improve efficiency. Therefore, how to accurately and quickly detect abnormal conditions such as earthquakes with a limited number of personnel has become a major issue.

人間の情報伝達手段のなかで、音声は最も基本的かつ迅
速なものである。従って人間は危機状態を認識したり、
危機感をいだいたとき、身振り・手振りよりもまず声を
出す。例えば日本人の場合は、「危ない!」「止まれ!
」 「ストップ!」「助けて!」「アー!」「待て!」
「キャーツ!」等である。従って、音声認識技術により
上記のような発話をmlすることで危機状態を検出でき
れば好都合であるが、先に挙げたような従来の音声認識
技術では言語的内容のみで、発話者が表現しようとして
いる危機状態までは検出できないという問題があった。
Among humans' means of transmitting information, voice is the most basic and quickest. Therefore, humans can recognize a crisis situation,
When you feel a sense of crisis, speak out before making gestures. For example, if you are a Japanese person, you might say things like "Danger!" or "Stop!"
” “Stop!” “Help!” “Ah!” “Wait!”
"Cats!" etc. Therefore, it would be convenient if voice recognition technology could detect a crisis state by analyzing the above-mentioned utterances, but conventional voice recognition technology, as mentioned above, only uses the linguistic content to detect what the speaker is trying to express. There was a problem in that it was not possible to detect a crisis state.

[発明の目的] この発明の目的は、人間が音声により危機状態を表現し
たときにそれを検出する装置を提供することである。
[Object of the Invention] An object of the present invention is to provide a device that detects when a human expresses a crisis state by voice.

[発明の概要コ この発明は、人間が危機状態を知らせるために発声した
音声の言語的内容を通常の音声認識技術により認識する
と同時に、音声の発話絶対レベル。
[Summary of the Invention] This invention recognizes the linguistic content of a voice uttered by a human to notify a state of crisis using ordinary voice recognition technology, and at the same time recognizes the absolute level of voice utterance.

アクセント、イントネーション等の韻律的特徴を抽出し
て感情を認識し、これらから人間が表現しようとしてい
る危機状態を適確に検出するものである。
It extracts prosodic features such as accent and intonation, recognizes emotions, and uses these to accurately detect the crisis state that a person is trying to express.

すなわち、この発明に係る検出装置は入力された音声を
分析する手段と、この分析結果より得られる音声の特徴
ベクトルと予め作成されている音声認識辞書とを照合し
、音声の言語的内容を認識する手段と、この手段により
認識された音声の言語的内容と前記分析結果より得られ
る音声の韻律5− 的特徴とから、発話者が表現した危機状態の発生を検出
する手段とを備えたことを特徴としている。
That is, the detection device according to the present invention recognizes the linguistic content of the speech by comparing the means for analyzing the input speech and the feature vector of the speech obtained from the analysis result with a speech recognition dictionary created in advance. and a means for detecting the occurrence of a crisis state expressed by a speaker from the linguistic content of the speech recognized by this means and the prosodic features of the speech obtained from the analysis results. It is characterized by

[発明の効果] この発明によれば危機状態の検出に韻律的特徴を利用し
ているため、通常の会話中に現われる音声による誤動作
は低減され信頼性が高く、また言語的内容が不明確でも
発話の大きさや韻律の変化パターンにより危機状態の検
出が確実になされるという利点がある。
[Effects of the Invention] According to the present invention, prosodic features are used to detect a crisis state, so malfunctions due to speech that appear during normal conversation are reduced and reliability is high, and even if the linguistic content is unclear, This method has the advantage that a crisis state can be reliably detected based on the change pattern of the loudness and prosody of the utterance.

さらに、話者照合の機能を付加し、上記の言語的内容と
韻律的特徴とによる危機状態の検出結果を話者照合結果
と併用して危機状態の有無を判定すれば、他人の音声に
よる誤動作も減少し、さらに信頼性を高めることができ
る。
Furthermore, if a speaker verification function is added and the detection results of a crisis state based on the linguistic content and prosodic features described above are used together with the speaker verification results to determine the presence or absence of a crisis state, malfunctions caused by other people's voices can be made. This can further improve reliability.

この発明の検出装置を用いると、例えばロボットが人間
に危害を加えそうになったときや、プラン]・が故障し
て緊急を要する場合等に、作業者等が発声した音声から
危機状態を自動的に検出して、その危機状態に対応した
処置を速やかに、かつ自動的に行なうことが可能となり
、種々のシステム−〇− の安全性向上、人間の安全性確保に大きく寄与すること
ができる。
When the detection device of this invention is used, for example, when a robot is about to harm a human, or when an emergency situation is required due to a failure of the robot, a crisis situation can be automatically detected based on the voice uttered by a worker. This makes it possible to quickly and automatically take action in response to a crisis situation, greatly contributing to improving the safety of various systems and ensuring human safety. .

[発明の実施例] 第1図はこの発明の一実施例の検出装置の概略的構成を
示すものである。
[Embodiment of the Invention] FIG. 1 shows a schematic configuration of a detection device according to an embodiment of the invention.

図において、分析部1には図示しないマイクロフォンに
よって入力された音声が増幅器等を適宜介して電気信号
として入力される。この分析部1では入力された音声信
号を低域フィルタでO〜5.6kl−1zに帯域制限し
た後、A/D変換器において例えば12kHzの標本化
周波数で12ビツトのディジタル信号に変換する。そし
て16チヤネルのディジタル帯域通過フィルタで周波数
分析を行ない、自乗した後、16msの時定数で平滑化
を行ない、6mS毎に16次元のパワースペクトルを抽
出して、言語1lili部2と韻律情報処理部3に出力
する。
In the figure, voice inputted by a microphone (not shown) is inputted to the analysis section 1 as an electrical signal via an amplifier or the like as appropriate. In the analysis section 1, the input audio signal is band-limited to 0 to 5.6 kl-1z using a low-pass filter, and then converted into a 12-bit digital signal at a sampling frequency of, for example, 12 kHz using an A/D converter. Then, frequency analysis is performed using a 16-channel digital bandpass filter, squared, smoothed with a time constant of 16 ms, and a 16-dimensional power spectrum is extracted every 6 ms. Output to 3.

また、分析部1ではさらに上述した周波数分析を行なう
ほか、例えば新美康永著「音声認識」pp、56−59
 :昭和54年共立出版に記載された相関法等の手法に
より音声波形の基本周波数(ピッチ周期)を抽出し、こ
れを8mS毎に韻律情報処理部3に出力する。さらにエ
ネルギーレベルの情報もやはり8mS毎に韻律情報処理
部3に与えられる。
In addition, the analysis section 1 further performs the frequency analysis described above, and also performs, for example, "Speech Recognition" by Yasunaga Niimi, pp. 56-59.
: The fundamental frequency (pitch period) of the speech waveform is extracted by a technique such as the correlation method described in Kyoritsu Shuppan in 1974, and this is output to the prosody information processing section 3 every 8 mS. Furthermore, energy level information is also given to the prosody information processing unit 3 every 8 mS.

言N認識部2では話者の発声した音声の言語的内容をW
gilシ、認識結果を危機状態検出部4へ送る。言語認
識部2は例えば第2図に示すように、音素等の音韻を基
本単位として認識を行なうように構成すると効果的であ
る。第2図においては入力音声の分析結果として得られ
る16次元ベクトル複数フレーム分、例えば5フレ一ム
分の16X5=80次元ベクトルからなる音素特徴ベク
トルと音素辞書7とを音素認識部5で複合類似度法等に
より照合し、各音節に対する類似度値を得る。
The word N recognition unit 2 recognizes the linguistic content of the voice uttered by the speaker.
gil, and sends the recognition result to the crisis state detection section 4. It is effective to configure the language recognition unit 2 to perform recognition using phonemes such as phonemes as basic units, as shown in FIG. 2, for example. In FIG. 2, the phoneme recognition unit 5 uses a phoneme recognition unit 5 to combine a phoneme feature vector consisting of 16×5=80-dimensional vectors for multiple frames of 16-dimensional vectors obtained as a result of analysis of input speech, for example, 5 frames, and a phoneme dictionary 7. A similarity value for each syllable is obtained by matching using the degree method or the like.

そして、この類似度値を用いて入力音声を音素に分割し
、音素記号系列を単語認識部6に出力する。
Then, the input speech is divided into phonemes using this similarity value, and a phoneme symbol sequence is output to the word recognition unit 6.

単語認識部6では単語辞書8と入力音素系列とを音素の
コンフユージヨンマトリクスを用いて動的計画法により
照合ル、単語認識結果を得る。
The word recognition unit 6 compares the word dictionary 8 and the input phoneme sequence by dynamic programming using a phoneme fusion matrix to obtain a word recognition result.

このように音素を言語認識の基本単位とすれば、人間が
危機状態のときに発声しうる音声の言語的内容を予め登
録のために発声する必要はなく、単語辞書8の変更のみ
で任意の発話に対応できるという利点がある。また、言
語認識部2は上述したように単語認識だけでなく、連続
単語認識を行なうように構成することもでき、さらに危
機を表わす語案だけに焦点を合す、ワード支ボッティン
グの技術を用いるように構成することもできる。
If phonemes are used as the basic unit of language recognition in this way, there is no need to utter in advance the linguistic content of sounds that can be uttered by humans in a crisis state in order to register them. It has the advantage of being able to respond to speech. In addition, the language recognition unit 2 can be configured to perform not only word recognition but also continuous word recognition as described above, and furthermore, it can be configured to perform word support botting technology that focuses only on word ideas that express crisis. It can also be configured to use

一方、第1図における韻律情報処理部3では分析部1か
らのフィルタ出力と基本周波数とエネルギーの時系列か
ら、人間の発話に含まれる危機状態の表現に関係のある
韻律的特徴を抽出する。第3図に韻律情報処理部3の一
構成例を示す。分析部1から出力されるエネルギーおよ
びピッチ周波数(基本周波数)の時系列を用いて、発話
レベルの測定やアクセントおよびイントネーションの解
析が行なわれる。
On the other hand, the prosodic information processing unit 3 in FIG. 1 extracts prosodic features related to the expression of a crisis state contained in human speech from the filter output from the analysis unit 1 and the time series of fundamental frequency and energy. FIG. 3 shows an example of the configuration of the prosody information processing section 3. Using the time series of energy and pitch frequency (fundamental frequency) output from the analysis unit 1, speech level is measured and accent and intonation are analyzed.

まず、発話レベル測定部9では入力音声の発話の最大値
を測定し、危機状態検出部4へ出力する。
First, the speech level measurement section 9 measures the maximum speech level of the input voice and outputs it to the crisis state detection section 4 .

9− また、アクセント核抽出部10ではアクセント核の存在
をピッチパターンより抽出し、危機状態検出部4へ出力
する。イントネーション判定部11では危機状態のとき
に発話しうるピッチパターンか否かを判定し、その確か
らしさ、すなわち尤度を危機状態検出部4へ出力する。
9- Also, the accent kernel extraction section 10 extracts the presence of an accent kernel from the pitch pattern and outputs it to the crisis state detection section 4. The intonation determining section 11 determines whether or not the pitch pattern can be uttered in a crisis state, and outputs its certainty, that is, the likelihood, to the crisis state detecting section 4 .

上述した韻律情報処理部3を設けた点がこの発明の特徴
の一つであり、危機に際して人間が行なう発話のレベル
およびピッチパターンの性質に着目して、人間の表現し
た危機状態(危機感)の検出を高精度に行ならことを可
能にしている。
One of the features of the present invention is that the above-mentioned prosodic information processing section 3 is provided, and the crisis state (sense of crisis) expressed by a human is focused on the level of speech and the nature of the pitch pattern of human speech during a crisis. This makes it possible to perform highly accurate detection.

第1図における危機□状態検出回路4では、言語 ″認
識部2から出力される単語音声認識結果と韻律情報処理
部3から出力される最大エネルギー、アクセント核情報
および栖ントネーション情報を、予め与えられている危
機状態の検出に関する知識と照合して総合判定を行ない
、危機状態か否かを表わす信号を出力する。
The crisis state detection circuit 4 in FIG. Comprehensive judgment is made by comparing the knowledge regarding the detection of a crisis state, and a signal indicating whether or not there is a crisis state is output.

第4図に危機状態検出回路4の一構成例を示す。FIG. 4 shows an example of the configuration of the crisis state detection circuit 4.

単語認識結果、例えば「危ない!」「アー!」10− 「待て!」等の言語的内容に関する情報と、最大エネル
ギーレベルに関する情報、アクセント核の位置、イント
ネーションの傾向等を総合判定部12で危機状態検出用
知識辞書13と照合し、危機状態か否かを判定する。例
えば「危ない!」と認識された場合、発話レベルが小さ
くとも、あるいはアクセントやイントネーションが多少
違っていても、危機状態を表わすよう知識辞書13内の
知識を埋めておく。また、「アー!」と認識した場合は
、レベルが大きいときやピッチパターンが危機感を表わ
しているときのみ危機状態と判定するように知識辞書1
3を作成しておけばよい。すなわち、言語的内容と感情
的内容を総合的に判断して危機状態か否かの判定を下す
ようにする。
Word recognition results, such as "Danger!", "Ah!" 10- "Wait!", etc., information on the linguistic content, information on the maximum energy level, the position of the accent core, intonation tendency, etc. are evaluated by the comprehensive judgment unit 12. It is checked against the state detection knowledge dictionary 13 to determine whether or not there is a crisis state. For example, when it is recognized as "dangerous!", the knowledge in the knowledge dictionary 13 is filled in to represent the crisis state even if the utterance level is low or the accent or intonation is slightly different. In addition, when recognizing "Ah!", the knowledge dictionary 1 determines that it is a crisis state only when the level is high or the pitch pattern expresses a sense of crisis.
3 should be created. In other words, the linguistic content and emotional content are comprehensively judged to determine whether or not there is a crisis state.

第5図はこの発明の他の実施例を示すもので、上)ホし
た実施例で説明した危機状態の検出機能に話者照合の技
術を組合わせることにより、特定話者用に高性能化した
危機状態の検出装置である。
FIG. 5 shows another embodiment of the present invention, in which high performance is achieved for a specific speaker by combining the crisis state detection function explained in the embodiment above with speaker verification technology. This is a device for detecting critical situations.

すなわち、この実施例では分析部1で入力音声の分析結
果から得られる話者照合用特徴ベクトルと話者照合用辞
書15とを話者照合部14で照合し、その話者照合結果
を総合判定部16へ送る。
That is, in this embodiment, the speaker matching feature vector obtained from the analysis result of the input speech by the analysis unit 1 and the speaker matching dictionary 15 are matched by the speaker matching unit 14, and the speaker matching result is used for comprehensive judgment. Send to Department 16.

総合判定部16では、危機状態検出部4から出力される
危機状態に関する情報と上記話者照合結果とを総合的に
判断して、最終的な危機状態の有無を判定する。
The comprehensive determination unit 16 comprehensively determines the information regarding the crisis state outputted from the crisis state detection unit 4 and the above-mentioned speaker verification results to ultimately determine the presence or absence of the crisis state.

このように構成することにより、ある特定の利用者以外
の人間による危機状態の誤検出を防ぐことができ、さら
に信頼性が向上する。
With this configuration, it is possible to prevent false detection of a crisis state by a person other than a specific user, and further improve reliability.

以上説明したように、この発明によれば人間の最も自然
、かつ迅速な情報伝達手段である音声に含まれる情報を
用いて1、シの人間が危機感を音声で表現したとき、そ
れを高精度かつ安定に検出することができる。従って、
この発明の検出装置をロボットに適用すれば、例えば人
間がロボットに危害が加えられそうなとき、人間が発声
によってロボットの動作を制御して停止させたり、ある
いは回避動作を行なわせることが可能となる。また、プ
ラントのような大規模システムにおいて作業者等が危機
状態を認識したとき、発声するだけで自動的にそれに対
する処置を実行することが可能となる。
As explained above, according to the present invention, when a person expresses a sense of crisis vocally, the information contained in voice, which is the most natural and quickest means of transmitting information for humans, is used to enhance the sense of crisis. Accurate and stable detection is possible. Therefore,
If the detection device of this invention is applied to a robot, for example, if a human is about to harm the robot, the human can control the robot's movement by vocalizing to stop the robot or make it take an evasive action. Become. Furthermore, when a worker or the like recognizes a crisis state in a large-scale system such as a plant, it becomes possible to automatically take measures to deal with it simply by uttering a voice.

なお、この発明は上記実施例に限定されるものではなく
、各ブロック内の具体的構成等については、要旨を逸脱
しない範囲で種々変形実施することが可能である。
It should be noted that the present invention is not limited to the above-mentioned embodiments, and the specific structure of each block can be modified in various ways without departing from the scope of the invention.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図はこの発明の一実施例に係る音声による危機状態
の検出装置の構成図、第2図は言語認識部の一構成例を
示す図、第3図は韻律情報処理部の一構成例を示す図、
第4図は危機状態検出部の一構成例を示す図、第5図は
この発明の他の実施例の構成図である。 1・・・分析部、2・・・言語認識部、3・・・韻律情
報処理部、4・・・危機状態検出部、14・・・話者照
合部。 出願人代理人 弁理士 鈴江武彦 13−
FIG. 1 is a block diagram of a voice-based crisis detection device according to an embodiment of the present invention, FIG. 2 is a diagram showing an example of the configuration of a language recognition section, and FIG. 3 is an example of the configuration of a prosodic information processing section. A diagram showing
FIG. 4 is a diagram showing an example of the configuration of the crisis state detection section, and FIG. 5 is a diagram showing the configuration of another embodiment of the present invention. DESCRIPTION OF SYMBOLS 1... Analysis section, 2... Language recognition section, 3... Prosodic information processing section, 4... Crisis state detection section, 14... Speaker matching section. Applicant's agent Patent attorney Takehiko Suzue 13-

Claims (1)

【特許請求の範囲】 (1)入力された音声を分析する手段と、この分析結果
より得られる音声の特徴ベクトルと予め作成されている
音声認識辞書とを照合し、音声の言語的内容を認識する
手段と、この手段により認識された音声の言語的内容と
前記分析結果より得られる音声の韻律的特徴とから、発
話者が表現した危機状態の発生を検出する手段とを備え
たことを特徴とする音声による危機状態の検出装置。 (21発話者の表現した危機状態を検出する手段の検出
結果は、ロボット1御に用いられるものであることを特
徴とする特許請求の範囲第1項記載の音声による危機状
態の検出−置。 (3) 発話者が表現した危機状態を検′出する手段の
検出結果は、話者照合結果と共に最終的な危機状態の有
無の判定に用いられるもの゛であることを特徴とする特
許請求の範囲第1項記載の音声による危機状態の検出装
置。
[Claims] (1) A means for analyzing input speech, and comparing the feature vector of the speech obtained from the analysis result with a speech recognition dictionary created in advance, and recognizing the linguistic content of the speech. and means for detecting the occurrence of a crisis state expressed by a speaker from the linguistic content of the speech recognized by this means and the prosodic features of the speech obtained from the analysis result. A crisis state detection device using voice. (21) Detection and placement of a crisis state by voice according to claim 1, wherein the detection result of the means for detecting the crisis state expressed by the speaker is used to control the robot 1. (3) A patent claim characterized in that the detection result of the means for detecting a crisis state expressed by a speaker is used together with the speaker verification result to ultimately determine the presence or absence of a crisis state. A device for detecting a crisis state by sound as described in Scope 1.
JP59073970A 1984-04-13 1984-04-13 Critical state detector by voice Pending JPS60217395A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59073970A JPS60217395A (en) 1984-04-13 1984-04-13 Critical state detector by voice

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59073970A JPS60217395A (en) 1984-04-13 1984-04-13 Critical state detector by voice

Publications (1)

Publication Number Publication Date
JPS60217395A true JPS60217395A (en) 1985-10-30

Family

ID=13533445

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59073970A Pending JPS60217395A (en) 1984-04-13 1984-04-13 Critical state detector by voice

Country Status (1)

Country Link
JP (1) JPS60217395A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62299898A (en) * 1986-06-18 1987-12-26 日本電気株式会社 Character generator
JPS63123100A (en) * 1986-11-12 1988-05-26 松下電器産業株式会社 Voice recognition
JP2001236091A (en) * 2000-02-23 2001-08-31 Nippon Telegr & Teleph Corp <Ntt> Method and device for error correcting voice recognition result

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62299898A (en) * 1986-06-18 1987-12-26 日本電気株式会社 Character generator
JPS63123100A (en) * 1986-11-12 1988-05-26 松下電器産業株式会社 Voice recognition
JP2001236091A (en) * 2000-02-23 2001-08-31 Nippon Telegr & Teleph Corp <Ntt> Method and device for error correcting voice recognition result

Similar Documents

Publication Publication Date Title
CN109686383B (en) Voice analysis method, device and storage medium
Christiansen et al. Detecting and locating key words in continuous speech using linear predictive coding
KR20040073291A (en) appraisal system of foreign language pronunciation and method thereof
CN110782902A (en) Audio data determination method, apparatus, device and medium
Czap et al. Intensity feature for speech stress detection
Këpuska et al. Improving wake-up-word and general speech recognition systems
JP2996019B2 (en) Voice recognition device
JPS60217395A (en) Critical state detector by voice
JP3523382B2 (en) Voice recognition device and voice recognition method
KR20210000802A (en) Artificial intelligence voice recognition processing method and system
JP2797861B2 (en) Voice detection method and voice detection device
KR100391123B1 (en) speech recognition method and system using every single pitch-period data analysis
Tverdokhleb et al. Implementation of accent recognition methods subsystem for eLearning systems
JPH0466999A (en) Device for detecting clause boundary
Mishra et al. Speaker identification, differentiation and verification using deep learning for human machine interface
JP3110025B2 (en) Utterance deformation detection device
JPH1097269A (en) Device and method for speech detection
Dalal Deciphering Gender: Exploring Correlation and Voice-based Classification
KR100570262B1 (en) Method for estimating fluency of pronunciation
Seman et al. Hybrid methods of Brandt’s generalised likelihood ratio and short-term energy for Malay word speech segmentation
Tohkura Speaker‐independent recognition of isolated digits using a weighted cepstral distance
Panat et al. Affective state analysis of speech for speaker verification: Experimental study, design and development
Jain et al. Emotion Analysis from Human Voice Using Various Prosodic Features and Text Analysis
JPS63161499A (en) Voice recognition equipment
JPH0316038B2 (en)