JP2002252705A - Method and device for detecting talker id - Google Patents

Method and device for detecting talker id

Info

Publication number
JP2002252705A
JP2002252705A JP2001050871A JP2001050871A JP2002252705A JP 2002252705 A JP2002252705 A JP 2002252705A JP 2001050871 A JP2001050871 A JP 2001050871A JP 2001050871 A JP2001050871 A JP 2001050871A JP 2002252705 A JP2002252705 A JP 2002252705A
Authority
JP
Japan
Prior art keywords
speaker
data
caller
telephone
identifying
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001050871A
Other languages
Japanese (ja)
Inventor
Tetsuya Muroi
哲也 室井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2001050871A priority Critical patent/JP2002252705A/en
Publication of JP2002252705A publication Critical patent/JP2002252705A/en
Pending legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To provide a method and device for detecting a talker ID that limits number of recognition objects to recognize a talker's voice and to identify the talker in the case of recognizing and identifying the talker making a phone call. SOLUTION: Upon the receipt of a phone call, a caller number is detected (S1), the detected caller number and telephone numbers in a data storage table are compared (S2) by using the data storage table where each telephone number, each talker ID and each of voice data to identify the talker are recorded as each set, the data storage table including a telephone number in matching with the detected caller number is extracted as an object. If there exist a plurality of extracted objects, the voice data to identify the talker are collated with a phone voice of the caller (S4), and the talker ID with the highest similarity is selected and the talker is identified.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、話者ID検出方法
及び装置、より詳細には、留守番電話や電話自動応答シ
ステム、コールセンターなどにおいて、電話をかけてき
た話者IDを特定する機器に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a method and an apparatus for detecting a speaker ID, and more particularly, to a device for specifying a speaker ID of an incoming call in an answering machine, an automatic telephone answering system, a call center, and the like.

【0002】[0002]

【従来の技術】電話をかけてきた話者IDを特定する方
法として、例えば、特開平10−285286号公報に
記載された発信者の電話番号の検出に検出装置を使う方
法が広く知られている。しかし、電話番号を検出するだ
けでは、話者を特定することができない場合がある。例
えば、会社や家庭の電話では、同じ電話番号で複数の人
が電話を掛けるので、その中の誰かを特定することがで
きない。また、逆に企業などで複数の電話回線を持って
いる場合には、電話を掛けるたびに異なった回線を使っ
てしまうため、それを同じ話者である、と判定すること
ができない。
2. Description of the Related Art As a method of specifying a caller ID of a caller, for example, a method of using a detecting device for detecting a telephone number of a caller disclosed in Japanese Patent Application Laid-Open No. 10-285286 is widely known. I have. However, it may not be possible to identify the speaker only by detecting the telephone number. For example, in the case of a company or home telephone, since a plurality of people call using the same telephone number, it is not possible to identify any of them. Conversely, when a company has a plurality of telephone lines, each time a call is made, a different line is used, and it cannot be determined that they are the same speaker.

【0003】一方、特開平10−322450号公報に
記載された電話を掛けてきた話者の音声や電話を受けた
話者(企業の受付オペレータなど)の音声、あるいはそ
の両方の音声を認識して、話者IDを特定する方法も知
られている。しかし、企業の受付など、話者IDを得る
べき対象の顧客データベースなどが膨大な場合には、認
識対象が非常に多くなってしまうので、誤認識の可能性
が大きい、という不具合があった。このため、正確な話
者IDが得られないので、過去の注文内容や修理依頼内
容、質問内容などの顧客情報が正確に得られず、発信者
と受信者の円滑な会話ができないという不具合があっ
た。
On the other hand, Japanese Patent Laid-Open Publication No. Hei 10-322450 recognizes the voice of a caller, the voice of a speaker who receives a call (such as a receptionist in a company), or both. Thus, a method of specifying a speaker ID is also known. However, when the customer database from which a speaker ID is to be obtained is large, such as in a company reception, the number of recognition targets is very large, and there is a problem that the possibility of erroneous recognition is large. For this reason, since an accurate speaker ID cannot be obtained, customer information such as past order contents, repair request contents, and question contents cannot be accurately obtained, and a problem that a smooth conversation between a sender and a receiver cannot be performed. there were.

【0004】[0004]

【発明が解決しようとする課題】本発明は、上述の点に
鑑みてなされたものであり、認識対象を絞って音声を認
識することで、正確に話者IDを取得すること、を目的
としてなされたものである。
SUMMARY OF THE INVENTION The present invention has been made in view of the above points, and has as its object to accurately acquire a speaker ID by recognizing speech by narrowing down a recognition target. It was done.

【0005】[0005]

【課題を解決するための手段】請求項1の発明は、電話
を受信した時に発信者番号を検出し、電話番号と話者I
Dと話者を識別するための音声データを組としてなるデ
ータ保持テーブルを用いて前記検出された発信者番号と
該データ保持テーブルの電話番号とを比較し、該検出さ
れた発信者番号に一致する電話番号を有するデータ保持
テーブルを候補として、前記話者を識別するための音声
データと発信者の電話音声とを照合し、最も類似度が高
い話者IDを得ることを特徴としたものである。
According to the first aspect of the present invention, when a telephone call is received, a caller ID is detected, and the telephone number and the speaker ID are detected.
The detected caller number is compared with the telephone number in the data hold table using a data holding table as a set of D and voice data for identifying the speaker, and matches with the detected caller number. A data holding table having a telephone number to be used as a candidate, collating the voice data for identifying the speaker with the telephone voice of the caller, and obtaining a speaker ID having the highest similarity. is there.

【0006】請求項2の発明は、電話を受信した時に発
信者番号を検出し、電話番号と話者IDと話者を識別す
るための音声データを組としてなるデータ保持テーブル
を用いて前記検出された発信者番号と該データ保持テー
ブルの電話番号とを比較し、該検出された発信者番号に
先頭から部分一致する電話番号を有するデータ保持テー
ブルを候補として、前記話者を識別するための音声デー
タと発信者の電話音声とを照合し、最も類似度が高い話
者IDを得ることを特徴としたものである。
According to a second aspect of the present invention, when a call is received, a caller number is detected, and the detection is performed using a data holding table in which a telephone number, a speaker ID, and voice data for identifying the speaker are combined. Comparing the detected caller number with the telephone number of the data holding table, and identifying the speaker as a data holding table having a telephone number that partially matches the detected caller number from the beginning as a candidate. The voice data is compared with the caller's telephone voice to obtain a speaker ID having the highest similarity.

【0007】請求項3の発明は、電話を受信した時に発
信者番号を検出し、電話番号と話者IDと話者を識別す
るための音声データと話者を識別するためのIDデータ
を組としてなるデータ保持テーブルを用いて前記検出さ
れた発信者番号と該データ保持テーブルの電話番号とを
比較し、該検出された発信者番号に一致する電話番号を
有するデータ保持テーブルを候補として、前記話者を識
別するためのIDデータと受信者の前記話者に対する応
答音声とを照合し、最も類似度が高い話者IDを得るこ
とを特徴としたものである。
According to a third aspect of the present invention, a caller number is detected when a telephone call is received, and a telephone number, a speaker ID, voice data for identifying the speaker, and ID data for identifying the speaker are combined. Compare the detected caller number and the telephone number of the data holding table using a data holding table as a, and as a candidate a data holding table having a telephone number that matches the detected caller number, ID data for identifying a speaker is compared with a response voice of the receiver to the speaker, and a speaker ID having the highest similarity is obtained.

【0008】請求項4の発明は、電話を受信した時に発
信者番号を検出し、電話番号と話者IDと話者を識別す
るための音声データと話者を識別するためのIDデータ
を組としてなるデータ保持テーブルを用いて前記検出さ
れた発信者番号と該データ保持テーブルの電話番号とを
比較し、該検出された発信者番号に先頭から部分一致す
る電話番号を有するデータ保持テーブルを候補として、
前記話者を識別するためのIDデータと受信者の前記話
者に対する応答音声とを照合し、最も類似度が高い話者
IDを得ることを特徴としたものである。
According to a fourth aspect of the present invention, a caller number is detected when a telephone call is received, and a telephone number, a speaker ID, voice data for identifying the speaker, and ID data for identifying the speaker are combined. The detected caller number is compared with the telephone number in the data hold table using the data hold table as a candidate for the data hold table having a telephone number that partially matches the detected caller number from the beginning. As
ID data for identifying the speaker is compared with a response voice of the receiver to the speaker, and a speaker ID having the highest similarity is obtained.

【0009】請求項5の発明は、電話を受信した時に発
信者番号を検出する発信者番号検出手段と、電話番号と
話者IDと話者を識別するための音声データを組として
なるデータ保持テーブルを保持するデータ保持手段とを
具備し、前記発信者番号検出手段を用いて検出された発
信者番号と前記データ保持テーブルの電話番号とを比較
し、該検出された発信者番号に一致する電話番号を有す
るデータ保持テーブルを候補として、前記話者を識別す
るための音声データと発信者の電話音声とを照合して最
も類似度が高い話者IDを得ることを特徴としたもので
ある。
According to a fifth aspect of the present invention, there is provided a caller number detecting means for detecting a caller number when receiving a telephone call, and a data holding unit comprising a telephone number, a speaker ID, and voice data for identifying the speaker. A data holding means for holding a table, comparing the caller number detected by using the caller number detecting means with a telephone number in the data holding table, and matching the detected caller number. The data holding table having a telephone number is set as a candidate, and the voice data for identifying the speaker is compared with the telephone voice of the caller to obtain a speaker ID having the highest similarity. .

【0010】請求項6の発明は、電話を受信した時に発
信者番号を検出する発信者番号検出手段と、電話番号と
話者IDと話者を識別するための音声データを組として
なるデータ保持テーブルを保持するデータ保持手段とを
具備し、前記発信者番号検出手段を用いて検出された発
信者番号と前記データ保持テーブルの電話番号とを比較
し、該検出された発信者番号に先頭から部分一致する電
話番号を有するデータ保持テーブルを候補として、前記
話者を識別するための音声データと発信者の電話音声の
データとを照合して最も類似度が高い話者IDを得るこ
とを特徴としたものである。
According to a sixth aspect of the present invention, there is provided a caller number detecting means for detecting a caller number when a telephone call is received, and a data holding unit comprising a telephone number, a speaker ID, and voice data for identifying the speaker. Data holding means for holding a table, comparing the caller number detected by using the caller number detecting means and the telephone number of the data holding table, from the top to the detected caller number Assuming that a data holding table having a partially matching telephone number is a candidate, voice data for identifying the speaker is compared with telephone call data of the caller to obtain a speaker ID having the highest similarity. It is what it was.

【0011】請求項7の発明は、電話を受信した時に発
信者番号を検出する発信者番号検出手段と、電話番号と
話者IDと話者を識別するための音声データと話者を識
別するためのIDデータを組としてなるデータ保持テー
ブルを保持するデータ保持手段とを具備し、前記発信者
番号検出手段を用いて検出された発信者番号と前記デー
タ保持テーブルの電話番号とを比較し、該検出された発
信者番号に一致する電話番号を有するデータ保持テーブ
ルを候補として、前記話者を識別するためのIDデータ
と受信者の前記話者に対する応答音声とを照合して最も
類似度が高い話者IDを得ることを特徴としたものであ
る。
According to a seventh aspect of the present invention, a caller number detecting means for detecting a caller number when a call is received, a telephone number, a speaker ID, and voice data for identifying the speaker and the speaker are identified. And a data holding means for holding a data holding table as a set of ID data for comparing the caller number detected by using the caller number detecting means and the telephone number of the data holding table, Using the data holding table having a telephone number that matches the detected caller number as a candidate, the ID data for identifying the speaker is compared with the response voice of the receiver to the speaker, and the similarity is determined to be the highest. It is characterized by obtaining a high speaker ID.

【0012】請求項8の発明は、電話を受信した時に発
信者番号を検出する発信者番号検出手段と、電話番号と
話者IDと話者を識別するための音声データと話者を識
別するためのIDデータを組としてなるデータ保持テー
ブルを保持するデータ保持手段とを具備し、前記発信者
番号検出手段を用いて検出された発信者番号と前記デー
タ保持テーブルの電話番号とを比較し、該検出された発
信者番号に先頭から部分一致する電話番号を有するデー
タ保持テーブルを候補として、前記話者を識別するため
のIDデータと受信者の前記話者に対する応答音声とを
照合して最も類似度が高い話者IDを得ることを特徴と
したものである。
[0012] The invention of claim 8 is a caller number detecting means for detecting a caller number when receiving a telephone call, a telephone number, a speaker ID, and voice data for identifying the speaker and the speaker. And a data holding means for holding a data holding table as a set of ID data for comparing the caller number detected by using the caller number detecting means and the telephone number of the data holding table, A candidate is a data holding table having a telephone number that partially matches the detected caller number from the beginning, and compares the ID data for identifying the speaker with the response voice of the receiver to the speaker. The feature is that a speaker ID having a high degree of similarity is obtained.

【0013】請求項9の発明は、請求項1に記載の話者
ID検出方法をコンピュータに実行させるプログラムを
記録したコンピュータ読み取り可能な記録媒体である。
According to a ninth aspect of the present invention, there is provided a computer-readable recording medium storing a program for causing a computer to execute the speaker ID detecting method according to the first aspect.

【0014】請求項10の発明は、請求項2に記載の話
者ID検出方法をコンピュータに実行させるプログラム
を記録したコンピュータ読み取り可能な記録媒体であ
る。
According to a tenth aspect of the present invention, there is provided a computer-readable recording medium storing a program for causing a computer to execute the speaker ID detecting method according to the second aspect.

【0015】請求項11の発明は、請求項3に記載の話
者ID検出方法をコンピュータに実行させるプログラム
を記録したコンピュータ読み取り可能な記録媒体であ
る。
According to an eleventh aspect of the present invention, there is provided a computer-readable recording medium storing a program for causing a computer to execute the speaker ID detecting method according to the third aspect.

【0016】請求項12の発明は、請求項4に記載の話
者ID検出方法をコンピュータに実行させるプログラム
を記録したコンピュータ読み取り可能な記録媒体であ
る。
According to a twelfth aspect of the present invention, there is provided a computer-readable recording medium storing a program for causing a computer to execute the speaker ID detecting method according to the fourth aspect.

【0017】[0017]

【発明の実施の形態】(実施例1)図1は、本発明が適
用される話者ID検出装置の構成例を示すブロック図
で、図中、1は、発信者番号検出手段、2は、データ保
持手段、3は、照合手段である。公衆網などの外部から
掛けられた電話に対し、発信者番号検出手段1によっ
て、発信者番号が検出される。発信者番号の検出手段に
関しては、既に製品化されて広く利用されており、ここ
での説明は省略する。
(Embodiment 1) FIG. 1 is a block diagram showing a configuration example of a speaker ID detecting apparatus to which the present invention is applied. , Data holding means 3 and collation means. A caller number is detected by a caller number detecting means 1 for a call made from outside such as a public network. The means for detecting the caller ID has already been commercialized and widely used, and a description thereof will be omitted.

【0018】図2は、本発明におけるデータ保持テーブ
ルの一例を示す図で、図中、2aは、データ保持手段2
に記録されたデータ保持テーブルで、該データ保持テー
ブル2aは、顧客番号など電話を掛けてきた話者を特定
するための話者IDと電話番号と話者を識別するための
音声データを1つの組として保持している。
FIG. 2 is a diagram showing an example of a data holding table according to the present invention. In FIG.
The data holding table 2a stores a speaker ID such as a customer number, a telephone number, and a voice number for identifying a speaker. Holding as a pair.

【0019】話者を識別するための情報として、広く公
知である話者認識や話者照合と呼ばれる話者を識別する
技術で用いられるデータ(パラメータ)を準備すれば良
い。詳細は省略するが、例えば、言葉によらない長時間
スペクトルやあるいは、「ひらけゴマ」のような話者ご
とに特定の言葉と話者性を同時に計測するようなパラメ
ータがある。
As information for identifying a speaker, data (parameters) used in a widely known technique for identifying a speaker called speaker recognition or speaker verification may be prepared. Although details are omitted, for example, there is a long-time spectrum that does not depend on words, or a parameter such as “Hiraki Sesame” that simultaneously measures a specific word and speaker characteristics for each speaker.

【0020】図3は、本発明が適用される話者ID検出
処理の一例を説明するフローチャートである。まず、電
話を掛けてきた発信者の番号を取得し(ステップS
1)、図2に示したデータ保持テーブル2aを用いて検
出された電話番号に一致するデータの組を検出し、候補
とする(ステップS2)。その候補が1つかどうか判断
し(ステップS3)、候補が1つしかない場合(YES
の場合)には、話者IDは1つに決定されるので処理を
終了する。一方、一致する電話番号を有するデータの組
が複数ある場合(NOの場合)には、これらをすべて候
補として、電話音声と照合を行ない(ステップS4)、
最も類似度の高い候補を検出し、この話者IDを出力す
る(ステップS5)。
FIG. 3 is a flowchart illustrating an example of the speaker ID detection processing to which the present invention is applied. First, the caller number of the caller is obtained (step S).
1) Using the data holding table 2a shown in FIG. 2, a data set that matches the detected telephone number is detected and set as a candidate (step S2). It is determined whether there is one candidate (step S3), and if there is only one candidate (YES)
In this case, the number of speaker IDs is determined to be one, and the process ends. On the other hand, when there are a plurality of data sets having the same telephone number (in the case of NO), these are all set as candidates and collation with the telephone voice is performed (step S4).
The candidate with the highest similarity is detected, and this speaker ID is output (step S5).

【0021】図3に示した話者ID検出処理フローの他
の実施例として、検出された電話番号とデータ保持テー
ブル2aの電話番号とを比較し、電話番号の先頭部分か
ら部分一致するデータの組を検出する。例えば、部分一
致の桁数を6桁とする場合、発信者番号が012345
6789であったとすると、データ保持テーブル2aの
中で電話番号が012345xxxx(xは任意の数
字)であるデータの組の検出を行ない、これらをすべて
候補として、電話音声と照合を行ない、最も類似度の高
い候補を検出し、この話者IDを出力する。
As another embodiment of the flow of the speaker ID detection processing shown in FIG. 3, the detected telephone number is compared with the telephone number in the data holding table 2a, and the data of the partially coincident data from the head of the telephone number is compared. Find pairs. For example, when the number of digits of the partial match is 6 digits, the caller number is 012345.
If it is 6789, a data set having a telephone number of 012345xxxx (x is an arbitrary number) in the data holding table 2a is detected, all of them are set as candidates, collation with telephone voice is performed, and And outputs the speaker ID.

【0022】また、図3に示した話者ID検出処理フロ
ーの他の実施例として、発信者を識別するためのID情
報として、発信者の名称などをデータ保持テーブル2a
に登録する。照合の際には、受信者の音声でこの名称を
認識する。受信者は、企業の電話オペレータなどあらか
じめ話者が特定できるので、特定話者型の音声認識方式
や話者適応型の音声認識方式など、話者が特定できない
不特定話者型の音声認識方式に比べて、認識率の高い音
声認識方式を利用することができる。また、発信者と受
信者との会話の自然性を考えると、受信者が認識のため
だけに、発信者の名称を発声するのは不自然で、通常は
復唱「はい、XXさんですね」のような発声から受信者
の名称(XXの部分)を認識する方が望ましい。そのた
め、あらかじめ想定される復唱のパターンに沿った文法
を利用する連続音声認識か、あるいはワードスポッティ
ングのような方式でXXの部分を抜き出すような認識方
式が良い。
As another embodiment of the flow of the speaker ID detection processing shown in FIG. 3, as the ID information for identifying the sender, the name of the sender and the like are stored in the data holding table 2a.
Register with. At the time of verification, the name is recognized by the voice of the recipient. Since the receiver can identify the speaker in advance, such as a company telephone operator, an unspecified speaker-type speech recognition method that cannot identify the speaker, such as a specific speaker-type speech recognition method or a speaker-adaptive speech recognition method. , A voice recognition method having a higher recognition rate can be used. Also, given the natural nature of the conversation between the sender and the recipient, it is unnatural for the recipient to utter the name of the sender just for recognition, and the repetition is usually "Yes, XX." It is desirable to recognize the name of the recipient (XX part) from the utterance like this. Therefore, a continuous speech recognition using a grammar according to a presumed repetition pattern or a recognition method of extracting the XX portion by a method such as word spotting is preferable.

【0023】本実施例の手順としては、まず、発信者の
電話番号と一致するデータの組を検出する。このデータ
の組が複数あるときは、それらの組を候補とする。そし
て、受信者の復唱「はい、XXさんですね」という発声
と候補の名称との照合を行ない、最も類似度の高い候補
の話者IDを出力する。また、発信者の電話番号と先頭
から部分一致するデータの組を候補として、その後、受
信者の復唱と候補の名称との照合を行ない、最も類似度
の高い話者IDを出力することもできる。
As a procedure of this embodiment, first, a data set that matches the telephone number of the caller is detected. When there are a plurality of data sets, those sets are set as candidates. Then, the utterance of the receiver, "Yes, XX-san," is collated with the candidate name, and the speaker ID of the candidate with the highest similarity is output. In addition, a set of data that partially matches the telephone number of the caller from the beginning is set as a candidate, and then the repetition of the receiver and the name of the candidate are collated to output the speaker ID with the highest similarity. .

【0024】(実施例2)図4は、本発明が適用される
話者ID検出装置の構成例を示すブロック図で、図中、
4は、受信者音声入力手段である。本実施例は、公衆網
などからかかってきた電話に対し、コールセンターなど
企業の電話受付機関が応対するための装置に関するもの
である。
(Embodiment 2) FIG. 4 is a block diagram showing a configuration example of a speaker ID detection apparatus to which the present invention is applied.
Reference numeral 4 denotes a receiver voice input unit. The present embodiment relates to a device for allowing a telephone receiving organization of a company such as a call center to answer a call received from a public network or the like.

【0025】公衆網などからかかってきた電話に対し、
まず発信者番号検出手段1が発信者番号を検出する。こ
の発信者番号検出手段1に関しては、広く知られている
のでここでは説明を省く。検出された発信者番号は、デ
ータ保持テーブル2aの各データの組の電話番号と比較
され、一致した電話番号あるいは電話番号の先頭から部
分一致した電話番号を有するデータの組が候補として検
出される。その候補が複数あった場合には、まず、電話
オペレータによって発声された音声は、受話器などの受
信者音声入力手段4によって入力され、照合手段3へ送
られる。
For a call received from a public network or the like,
First, the caller number detecting means 1 detects a caller number. The caller number detecting means 1 is widely known and will not be described here. The detected caller number is compared with the telephone number of each data set in the data holding table 2a, and a matched telephone number or a data set having a partially matched telephone number from the beginning of the telephone number is detected as a candidate. . If there are a plurality of candidates, first, the voice uttered by the telephone operator is input by the receiver voice input means 4 such as a receiver and sent to the matching means 3.

【0026】対象となる音声は、「はい、XXさんです
ね」のような発信者の名乗りを復唱する部分であるの
で、会話の先頭部分のみを対象にして認識するようにす
れば良い。また、受信者が、復唱する際に入力スイッチ
を押して、スイッチが押されたときだけ認識するように
しても良い。スイッチを利用する場合には、長い会話音
声の中で音声認識すべき時間的な対象区間を正確に限定
できるのでより一層精密な照合が可能になる。認識を行
なった結果、最も類似度の高い話者IDを出力する。
Since the target voice is a part where the caller's name is repeated, such as "Yes, Mr. XX", it is sufficient to recognize only the head part of the conversation. Further, the receiver may press the input switch at the time of reciting and recognize only when the switch is pressed. When a switch is used, a temporal target section to be subjected to voice recognition in a long conversation voice can be accurately limited, so that more precise collation can be performed. As a result of the recognition, a speaker ID having the highest similarity is output.

【0027】(実施例3)図5は、本発明が適用される
話者ID検出装置の構成例を示すブロック図で、図中、
5は、データ提示手段である。本実施例は、家庭用など
の電話機に関するものである。データ保持手段2には、
話者ID、電話番号、話者を識別するための音声デー
タ、および発信者の名称などの話者IDを提示する情報
が組として格納されている。ここで、話者を識別するた
めの音声データは、周知の話者照合技術で使用される話
者固有のデータとする。例えば、長時間スペクトルとい
ったデータである。
(Embodiment 3) FIG. 5 is a block diagram showing a configuration example of a speaker ID detecting apparatus to which the present invention is applied.
Reference numeral 5 denotes data presentation means. This embodiment relates to a telephone for home use or the like. The data holding means 2 includes:
Information for presenting a speaker ID such as a speaker ID, a telephone number, voice data for identifying the speaker, and the name of the caller is stored as a set. Here, the voice data for identifying the speaker is speaker-specific data used in a well-known speaker verification technique. For example, it is data such as a long-time spectrum.

【0028】まず、発信者番号検出手段1が発信者番号
を検出し、この番号に一致するデータをデータ保持手段
2から検出する。一致するデータが1つのときは、その
話者IDをデータ提示手段5に出力する。また、一致す
るデータが複数あった場合には、電話を掛けてきた話者
の音声を照合手段3で照合し、最も類似度の高い話者の
データを選択して、その話者IDを出力する。
First, the caller number detecting means 1 detects the caller number, and detects data corresponding to this number from the data holding means 2. When there is one matching data, the speaker ID is output to the data presenting means 5. If there is a plurality of matching data, the voices of the callers are collated by the collation means 3, the data of the speaker having the highest similarity is selected, and the speaker ID is output. I do.

【0029】データ提示手段5は、ディスプレイなど視
覚的な提示を行なう。この場合には、データ保持手段2
に保持される話者IDの提示情報は、話者の名前や愛称
などのテキスト情報となる。また、データ提示手段5
は、「XXさんから電話です」のように音声で出力する
ようにしても良い。この場合には、データ保持手段2の
話者ID提示情報はテキスト情報として、テキスト音声
変換の音声合成装置で音声を出力するようにする。ある
いは、データ提示情報として音声波形をそのまま保持
し、再生機でその音声波形を再生するようにしても良
い。図6は、話者ID提示情報を追加したデータ保持テ
ーブル2aを示す図である。
The data presenting means 5 performs visual presentation such as a display. In this case, the data holding means 2
The presentation information of the speaker ID held in is the text information such as the name and nickname of the speaker. Data presentation means 5
May be output as a voice such as "Call from XX". In this case, the speaker ID presentation information of the data holding unit 2 is output as text information by a text-to-speech conversion speech synthesizer. Alternatively, an audio waveform may be held as it is as data presentation information, and the audio waveform may be reproduced by a reproducing device. FIG. 6 is a diagram showing a data holding table 2a to which speaker ID presentation information is added.

【0030】図5に示した実施例の他の例を示す。基本
的な動作は、実施例3と同様である。異なる点は、発信
者番号検出手段1で検出された電話番号と先頭から部分
一致する電話番号を検出することである。部分一致の桁
数は、目的によって異なるが、同じ企業内で使用される
ときに、識別することを主な目的とすれば、おおよそ先
頭から8桁程度の部分一致するものを検出するようにす
れば良い。また、外出先の公衆電話から掛けてきた場合
にも識別することを主な目的とすれば、市外局番に相当
する先頭から6桁程度の部分一致する電話番号を検出す
るようにすれば良い。以下の処理は、図5に示した実施
例と同様で部分一致したデータが1つのときは、そのま
まデータ提示手段5にその話者IDを出力し、複数ある
場合には、話者照合を行なって最も類似度の高い話者I
Dを出力するようにする。
Another example of the embodiment shown in FIG. 5 is shown. The basic operation is the same as in the third embodiment. The difference is that a telephone number that partially matches the telephone number detected by the caller number detecting means 1 from the beginning is detected. The number of digits of the partial match varies depending on the purpose, but when used within the same company, if the main purpose is to identify, a partial match of approximately eight digits from the beginning should be detected. Good. In addition, if the main purpose is to identify a call from a pay phone on the go, it is sufficient to detect a partially coincident telephone number of about six digits from the beginning corresponding to the area code. . In the following processing, similar to the embodiment shown in FIG. 5, when there is one partially matched data, the speaker ID is output to the data presenting means 5 as it is, and when there are a plurality of data, speaker verification is performed. Speaker I with the highest similarity
D is output.

【0031】[0031]

【発明の効果】請求項1、5、9の発明によると、正確
に発信者の話者IDが特定できるようになる。つまり、
発信者番号が一致するだけでは、家族や企業など同じ電
話番号を使う話者間の区別ができないが、その識別がで
きるようになり、正しく発信者が特定できるようにな
る。また、照合する範囲が発信者番号の一致している部
分だけであるので、高い認識率で照合することが可能に
なる。さらに、正確に発信者が特定できるので、発信者
固有の情報(過去の注文内容など)に精密にアクセスで
きるようになる。
According to the first, fifth and ninth aspects of the present invention, the speaker ID of the caller can be accurately specified. That is,
Just by matching the caller numbers, it is not possible to distinguish between speakers using the same phone number, such as family members and businesses, but it is possible to identify them and to correctly identify the caller. In addition, since the range to be compared is only the part where the caller numbers match, it is possible to perform the comparison with a high recognition rate. Further, since the caller can be specified accurately, it becomes possible to precisely access information unique to the caller (such as past order contents).

【0032】請求項2、6、10の発明によると、正確
に発信者の話者IDが特定できるようになる。企業や事
務所のように電話回線が複数ある場合に、同じ話者であ
りながら、異なる発信者番号で電話を掛けてきた場合
に、この話者を特定することができなかったが、発信者
番号の先頭から部分一致する範囲を対象に照合すること
で、その話者IDを正確に特定することが可能になる。
According to the second, sixth and tenth aspects of the present invention, the speaker ID of the caller can be specified accurately. When there are multiple telephone lines, such as in a company or office, and the same speaker is called with a different caller ID, the caller could not be identified. By collating a range that partially matches from the beginning of the number, the speaker ID can be accurately specified.

【0033】請求項3、4、7、8、11、12の発明
によると、照合する音声の話者が電話オペレータのよう
に事前に特定できるので、特定話者型あるいは話者照合
型のように認識率の高い音声認識方式を利用でき、精密
な照合によって話者IDが得られるようになる。
According to the third, fourth, seventh, eighth, eleventh and twelfth aspects of the present invention, the speaker of the voice to be collated can be specified in advance like a telephone operator. In this case, a voice recognition method having a high recognition rate can be used, and a speaker ID can be obtained by precise collation.

【図面の簡単な説明】[Brief description of the drawings]

【図1】 本発明が適用される話者ID検出装置の構成
例を示すブロック図である。
FIG. 1 is a block diagram illustrating a configuration example of a speaker ID detection device to which the present invention is applied.

【図2】 本発明におけるデータ保持テーブルの一例を
示す図である。
FIG. 2 is a diagram illustrating an example of a data holding table according to the present invention.

【図3】 本発明が適用される話者ID検出処理の一例
を説明するフローチャートである。
FIG. 3 is a flowchart illustrating an example of a speaker ID detection process to which the present invention is applied.

【図4】 本発明が適用される話者ID検出装置の構成
例を示すブロック図である。
FIG. 4 is a block diagram illustrating a configuration example of a speaker ID detection device to which the present invention is applied;

【図5】 本発明が適用される話者ID検出装置の構成
例を示すブロック図である。
FIG. 5 is a block diagram illustrating a configuration example of a speaker ID detection device to which the present invention is applied;

【図6】 話者ID提示情報を追加したデータ保持テー
ブルを示す図である。
FIG. 6 is a diagram showing a data holding table to which speaker ID presentation information is added.

【符号の説明】[Explanation of symbols]

1…発信者番号検出手段、2…データ保持手段、2a…
データ保持テーブル、3…照合手段、4…受信者音声入
力手段、5…データ提示手段。
1 ... Caller ID detecting means, 2 ... Data holding means, 2a ...
Data holding table, 3 ... collation means, 4 ... receiver voice input means, 5 ... data presentation means.

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) H04M 11/00 302 G10L 3/00 551A ──────────────────────────────────────────────────続 き Continued on the front page (51) Int.Cl. 7 Identification symbol FI Theme coat ゛ (Reference) H04M 11/00 302 G10L 3/00 551A

Claims (12)

【特許請求の範囲】[Claims] 【請求項1】 電話を受信した時に発信者番号を検出
し、電話番号と話者IDと話者を識別するための音声デ
ータを組としてなるデータ保持テーブルを用いて前記検
出された発信者番号と該データ保持テーブルの電話番号
とを比較し、該検出された発信者番号に一致する電話番
号を有するデータ保持テーブルを候補として、前記話者
を識別するための音声データと発信者の電話音声とを照
合し、最も類似度が高い話者IDを得ることを特徴とす
る話者ID検出方法。
1. A caller number is detected when a telephone call is received, and the detected caller number is detected using a data holding table in which a telephone number, a speaker ID, and voice data for identifying a speaker are combined. And the telephone number of the data holding table, and using the data holding table having a telephone number that matches the detected caller number as a candidate, voice data for identifying the speaker and telephone sound of the caller And a speaker ID having the highest similarity is obtained.
【請求項2】 電話を受信した時に発信者番号を検出
し、電話番号と話者IDと話者を識別するための音声デ
ータを組としてなるデータ保持テーブルを用いて前記検
出された発信者番号と該データ保持テーブルの電話番号
とを比較し、該検出された発信者番号に先頭から部分一
致する電話番号を有するデータ保持テーブルを候補とし
て、前記話者を識別するための音声データと発信者の電
話音声とを照合し、最も類似度が高い話者IDを得るこ
とを特徴とする話者ID検出方法。
2. A caller number is detected when a telephone call is received, and the detected caller number is detected using a data holding table in which a telephone number, a speaker ID, and voice data for identifying the speaker are combined. And the telephone number in the data holding table, and using the data holding table having a telephone number partially matching the detected caller number from the beginning as a candidate, voice data for identifying the speaker and the caller A speaker ID having the highest similarity is obtained by collating with the telephone voice of the present invention.
【請求項3】 電話を受信した時に発信者番号を検出
し、電話番号と話者IDと話者を識別するための音声デ
ータと話者を識別するためのIDデータを組としてなる
データ保持テーブルを用いて前記検出された発信者番号
と該データ保持テーブルの電話番号とを比較し、該検出
された発信者番号に一致する電話番号を有するデータ保
持テーブルを候補として、前記話者を識別するためのI
Dデータと受信者の前記話者に対する応答音声とを照合
し、最も類似度が高い話者IDを得ることを特徴とする
話者ID検出方法。
3. A data holding table for detecting a caller number when receiving a telephone call, and assembling a telephone number, a speaker ID, voice data for identifying the speaker, and ID data for identifying the speaker. And comparing the detected caller number with the telephone number in the data holding table, and identifying the speaker as a candidate data holding table having a telephone number that matches the detected caller number. I for
A method for detecting a speaker ID, comprising: comparing D data with a response voice of the receiver to the speaker to obtain a speaker ID having the highest similarity.
【請求項4】 電話を受信した時に発信者番号を検出
し、電話番号と話者IDと話者を識別するための音声デ
ータと話者を識別するためのIDデータを組としてなる
データ保持テーブルを用いて前記検出された発信者番号
と該データ保持テーブルの電話番号とを比較し、該検出
された発信者番号に先頭から部分一致する電話番号を有
するデータ保持テーブルを候補として、前記話者を識別
するためのIDデータと受信者の前記話者に対する応答
音声とを照合し、最も類似度が高い話者IDを得ること
を特徴とする話者ID検出方法。
4. A data holding table which detects a caller number when receiving a telephone call, and includes a telephone number, a speaker ID, voice data for identifying the speaker, and ID data for identifying the speaker. And comparing the detected caller number with the telephone number in the data holding table, and selecting the data holding table having a telephone number partially matching the detected caller number from the beginning as a candidate, A speaker ID having the highest similarity is obtained by comparing ID data for identifying the ID with a response voice of the receiver to the speaker.
【請求項5】 電話を受信した時に発信者番号を検出す
る発信者番号検出手段と、電話番号と話者IDと話者を
識別するための音声データを組としてなるデータ保持テ
ーブルを保持するデータ保持手段とを具備し、前記発信
者番号検出手段を用いて検出された発信者番号と前記デ
ータ保持テーブルの電話番号とを比較し、該検出された
発信者番号に一致する電話番号を有するデータ保持テー
ブルを候補として、前記話者を識別するための音声デー
タと発信者の電話音声とを照合して最も類似度が高い話
者IDを得ることを特徴とする話者ID検出装置。
5. A caller number detecting means for detecting a caller number when a telephone call is received, and data holding a data holding table comprising a set of a telephone number, a speaker ID, and voice data for identifying the speaker. Holding means for comparing a caller number detected by using the caller number detecting means with a telephone number in the data holding table, and having a telephone number matching the detected caller number. A speaker ID detection apparatus, wherein a speaker ID having the highest similarity is obtained by collating voice data for identifying said speaker with a telephone voice of a caller using a holding table as a candidate.
【請求項6】 電話を受信した時に発信者番号を検出す
る発信者番号検出手段と、電話番号と話者IDと話者を
識別するための音声データを組としてなるデータ保持テ
ーブルを保持するデータ保持手段とを具備し、前記発信
者番号検出手段を用いて検出された発信者番号と前記デ
ータ保持テーブルの電話番号とを比較し、該検出された
発信者番号に先頭から部分一致する電話番号を有するデ
ータ保持テーブルを候補として、前記話者を識別するた
めの音声データと発信者の電話音声のデータとを照合し
て最も類似度が高い話者IDを得ることを特徴とする話
者ID検出装置。
6. A caller number detecting means for detecting a caller number when a telephone call is received, and data holding a data holding table comprising a set of a telephone number, a speaker ID, and voice data for identifying the speaker. Holding means for comparing a caller number detected by the caller number detecting means with a telephone number in the data holding table, and a telephone number partially coincident with the detected caller number from the beginning. A speaker ID having the highest similarity by comparing the voice data for identifying the speaker with the data of the telephone voice of the caller as a candidate for a data holding table having Detection device.
【請求項7】 電話を受信した時に発信者番号を検出す
る発信者番号検出手段と、電話番号と話者IDと話者を
識別するための音声データと話者を識別するためのID
データを組としてなるデータ保持テーブルを保持するデ
ータ保持手段とを具備し、前記発信者番号検出手段を用
いて検出された発信者番号と前記データ保持テーブルの
電話番号とを比較し、該検出された発信者番号に一致す
る電話番号を有するデータ保持テーブルを候補として、
前記話者を識別するためのIDデータと受信者の前記話
者に対する応答音声とを照合して最も類似度が高い話者
IDを得ることを特徴とする話者ID検出装置。
7. A caller number detecting means for detecting a caller number when a call is received, a telephone number, a speaker ID, voice data for identifying the speaker, and an ID for identifying the speaker.
Data holding means for holding a data holding table as a set of data, comparing the caller number detected by using the caller number detecting means with the telephone number of the data holding table, and A data holding table having a telephone number that matches the caller number
A speaker ID detection device, wherein ID data for identifying the speaker is compared with a response voice of a receiver to the speaker to obtain a speaker ID having the highest similarity.
【請求項8】 電話を受信した時に発信者番号を検出す
る発信者番号検出手段と、電話番号と話者IDと話者を
識別するための音声データと話者を識別するためのID
データを組としてなるデータ保持テーブルを保持するデ
ータ保持手段とを具備し、前記発信者番号検出手段を用
いて検出された発信者番号と前記データ保持テーブルの
電話番号とを比較し、該検出された発信者番号に先頭か
ら部分一致する電話番号を有するデータ保持テーブルを
候補として、前記話者を識別するためのIDデータと受
信者の前記話者に対する応答音声とを照合して最も類似
度が高い話者IDを得ることを特徴とする話者ID検出
装置。
8. A caller number detecting means for detecting a caller number when receiving a telephone call, a telephone number, a speaker ID, voice data for identifying the speaker, and an ID for identifying the speaker.
Data holding means for holding a data holding table as a set of data, comparing the caller number detected by using the caller number detecting means with the telephone number of the data holding table, and The ID data for identifying the speaker and the response voice of the receiver to the speaker are compared with each other as a candidate for a data holding table having a telephone number that partially matches the caller number from the beginning. A speaker ID detection device characterized by obtaining a high speaker ID.
【請求項9】 請求項1に記載の話者ID検出方法をコ
ンピュータに実行させるプログラムを記録したコンピュ
ータ読み取り可能な記録媒体。
9. A computer-readable recording medium on which a program for causing a computer to execute the speaker ID detection method according to claim 1 is recorded.
【請求項10】 請求項2に記載の話者ID検出方法を
コンピュータに実行させるプログラムを記録したコンピ
ュータ読み取り可能な記録媒体。
10. A computer-readable recording medium on which a program for causing a computer to execute the speaker ID detection method according to claim 2 is recorded.
【請求項11】 請求項3に記載の話者ID検出方法を
コンピュータに実行させるプログラムを記録したコンピ
ュータ読み取り可能な記録媒体。
11. A computer-readable recording medium on which a program for causing a computer to execute the speaker ID detection method according to claim 3 is recorded.
【請求項12】 請求項4に記載の話者ID検出方法を
コンピュータに実行させるプログラムを記録したコンピ
ュータ読み取り可能な記録媒体。
12. A computer-readable recording medium storing a program for causing a computer to execute the speaker ID detection method according to claim 4.
JP2001050871A 2001-02-26 2001-02-26 Method and device for detecting talker id Pending JP2002252705A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001050871A JP2002252705A (en) 2001-02-26 2001-02-26 Method and device for detecting talker id

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001050871A JP2002252705A (en) 2001-02-26 2001-02-26 Method and device for detecting talker id

Publications (1)

Publication Number Publication Date
JP2002252705A true JP2002252705A (en) 2002-09-06

Family

ID=18911762

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001050871A Pending JP2002252705A (en) 2001-02-26 2001-02-26 Method and device for detecting talker id

Country Status (1)

Country Link
JP (1) JP2002252705A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006019989A (en) * 2004-06-30 2006-01-19 Casio Comput Co Ltd Data input device and program
JP2008250363A (en) * 2007-03-29 2008-10-16 Ntt Docomo Inc Communication terminal and its program
JP2017103590A (en) * 2015-12-01 2017-06-08 Necエンジニアリング株式会社 Device, system and program for user identification
JP2018170623A (en) * 2017-03-29 2018-11-01 沖電気工業株式会社 Information processing device, information processing method, and program

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006019989A (en) * 2004-06-30 2006-01-19 Casio Comput Co Ltd Data input device and program
JP4655521B2 (en) * 2004-06-30 2011-03-23 カシオ計算機株式会社 Data input device and program
JP2008250363A (en) * 2007-03-29 2008-10-16 Ntt Docomo Inc Communication terminal and its program
JP4676453B2 (en) * 2007-03-29 2011-04-27 株式会社エヌ・ティ・ティ・ドコモ Communication terminal and program thereof
US8473009B2 (en) 2007-03-29 2013-06-25 Ntt Docomo, Inc. Communication terminal and computer readable medium
JP2017103590A (en) * 2015-12-01 2017-06-08 Necエンジニアリング株式会社 Device, system and program for user identification
JP2018170623A (en) * 2017-03-29 2018-11-01 沖電気工業株式会社 Information processing device, information processing method, and program

Similar Documents

Publication Publication Date Title
US10320982B2 (en) Speech recognition method of and system for determining the status of an answered telephone during the course of an outbound telephone call
US6219407B1 (en) Apparatus and method for improved digit recognition and caller identification in telephone mail messaging
US5675704A (en) Speaker verification with cohort normalized scoring
JP3168033B2 (en) Voice telephone dialing
US6687673B2 (en) Speech recognition system
EP2622832B1 (en) Speech comparison
US9236051B2 (en) Bio-phonetic multi-phrase speaker identity verification
US6438520B1 (en) Apparatus, method and system for cross-speaker speech recognition for telecommunication applications
US8515025B1 (en) Conference call voice-to-name matching
US20020196911A1 (en) Methods and apparatus for conversational name dialing systems
US20150149162A1 (en) Multi-channel speech recognition
KR100595610B1 (en) Guidance method and apparatus for telephone number
CN110517697A (en) Prompt tone intelligence cutting-off device for interactive voice response
JP4067481B2 (en) Telephone reception system
US20010056345A1 (en) Method and system for speech recognition of the alphabet
JP2002252705A (en) Method and device for detecting talker id
US20030081738A1 (en) Method and apparatus for improving access to numerical information in voice messages
CN113744742A (en) Role identification method, device and system in conversation scene
JP2002297179A (en) Automatic answering conversation system
JP4067483B2 (en) Telephone reception translation system
JPH01152851A (en) Voice dialing device
CA2712853C (en) Speech recognition method and system to determine the status of an outbound telephone call
KR100229864B1 (en) Method for recognizing recoder in voice mail system
JPH03157696A (en) Voice responding and recognizing system
JPS59195299A (en) Sepecific speaker's voice recognition equipment