CN101547261A - 关联赋予装置、关联赋予方法和记录介质 - Google Patents
关联赋予装置、关联赋予方法和记录介质 Download PDFInfo
- Publication number
- CN101547261A CN101547261A CN200810190522A CN200810190522A CN101547261A CN 101547261 A CN101547261 A CN 101547261A CN 200810190522 A CN200810190522 A CN 200810190522A CN 200810190522 A CN200810190522 A CN 200810190522A CN 101547261 A CN101547261 A CN 101547261A
- Authority
- CN
- China
- Prior art keywords
- similarity
- association
- speaker
- statement
- speech data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 241001269238 Data Species 0.000 claims description 41
- 239000000284 extract Substances 0.000 claims description 10
- 230000014509 gene expression Effects 0.000 claims description 10
- 230000000052 comparative effect Effects 0.000 claims description 5
- 230000006870 function Effects 0.000 description 22
- 230000007246 mechanism Effects 0.000 description 19
- 230000001276 controlling effect Effects 0.000 description 16
- 230000008520 organization Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 10
- 238000004590 computer program Methods 0.000 description 7
- 230000000875 corresponding effect Effects 0.000 description 7
- 238000009795 derivation Methods 0.000 description 7
- 238000003860 storage Methods 0.000 description 7
- 230000033228 biological regulation Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 230000036962 time dependent Effects 0.000 description 4
- 239000000654 additive Substances 0.000 description 2
- 230000000996 additive effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000002860 competitive effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 241001014642 Rasta Species 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012856 packing Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- NGVDGCNFYWLIFO-UHFFFAOYSA-N pyridoxal 5'-phosphate Chemical compound CC1=NC=C(COP(O)(O)=O)C(C=O)=C1O NGVDGCNFYWLIFO-UHFFFAOYSA-N 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
- H04M3/4936—Speech interaction details
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/40—Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
- H04M2201/405—Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition involving speaker-dependent recognition
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明提供在基于各个通话的多个语音数据内,将要件相连续的语音数据关联成为一连串的语音数据的关联赋予装置、关联赋予方法和记录介质。关联赋予装置根据针对所选择的语音数据的语音识别处理的结果,导出各语音数据之间所共用的、且与要件内容有关的要件语句的出现率的数值,作为要件相似度(S102)。并且,关联赋予装置导出表示从多个语音数据中提取出的语音的特征的比较结果的相似度,作为说话者相似度(S103)。然后,关联赋予装置根据要件相似度和说话者相似度,导出表示所选择的多个语音数据相关联的可能性的关联度(S104),并在关联度为预先设定的阈值以上的情况下,将所选择的多个语音数据关联起来(S105)。
Description
技术领域
这里所讨论的实施方式涉及将对说话者所发出的语音进行数据化后的多个语音数据关联起来的关联赋予装置、使用该关联赋予装置的关联赋予方法以及存储用于实现所述关联赋予装置的计算机程序的记录介质。
背景技术
在通过电话与顾客对话的呼叫中心等的业务中,存在利用一次通话没有说完对话所涉及的要件而需要多次通话的情况。例如有:针对来自顾客的询问而委托顾客进行某些确认的情况以及答复客户的答复人(接线员)需要向其他人员进行确认等调查的情况。
并且,有时为了掌握业务的进展状况而要分析对通话内容进行录音的语音数据。在对通话内容进行分析时需要多次通话来对应一个要件的情况下,需要将多次的语音数据关联成为一连串的通话。
因此提出了这样的技术:取得顾客的呼叫者号码,以所取得的呼叫者号码为基准来管理个人信息,并且根据利用针对通话内容的语音识别处理所提取出的关键词来管理要件。请参照例如日本专利第3450250号公报(Japanese Patent No.3450250)。
在根据利用针对通话的语音识别处理所提取出的关键词来管理要件的情况下,可以对作为语音识别处理(语音识别)的结果而获得的、具有最高似然度的关键词赋予语音识别处理的可信度。通话所包含的语音会受到说话者含糊的发音、周围环境引起的噪声以及通话设备引起的电气噪声等影响。由此会得到错误的语音识别结果。由于该原因,可以对关键词赋予语音识别的可信度。这么做的原因是,通过对关键词赋予语音识别的可信度,用户可以根据可信度的高低来受理或放弃语音识别的结果。并且,用户能够避免由错误的语音识别引起的问题。作为导出语音识别的可信度的方法,提出了例如竞争模型方式。在该方法中,计算语音识别所使用的模型与竞争模型之间的似然比,根据该似然比来计算可信度。作为其他方法,提出了利用夹在通话中的2个无声区间之间的1个声响单位即发声单位、或语句单位来计算可信度的方式。例如,参照日本特平开2007—240589号公报,其整个内容通过引用结合于此。
在上述日本专利第3450250号公报(Japanese Patent No.3450250)所公开的装置中,以取得呼叫者号码为前提。因此,装置不适用于不通知号码等的通话。并且,在接收到来自相同的呼叫者号码的呼叫的情况下,装置无法区别不同的说话者。
发明内容
本发明的目的在于提供能够与呼叫者号码无关地通过估计来将作为一连串的通话的语音数据关联起来的关联赋予装置、使用该关联赋予装置的关联赋予方法以及存储用于实现所述关联赋予装置的计算机程序的记录介质。因此,根据针对语音数据的语音识别处理的结果,导出语句相似度,并且根据从语音数据中提取出的语音特征,导出语音数据之间的说话者相似度,其中,所述语句相似度是基于语音数据之间所共用的共用语句的出现率而得到的。然后,根据所导出的语句相似度和说话者相似度导出关联度,根据所导出的关联度判定是否要将多个语音数据关联为一连串的通话。
提供一个方式所涉及的关联赋予装置,其用于将通过对说话者发出的语音进行数据化而得到的多个语音数据关联起来,该关联赋予装置包括:语句相似度导出部,其根据针对各语音数据的语音识别处理的结果,导出与各语音数据之间所共用的共用语句的出现率相关的数值,作为语句相似度;说话者相似度导出部,其导出表示从各语音数据中提取出的各个语音特征的比较结果的相似度,作为说话者相似度;关联度导出部,其根据所导出的语句相似度和说话者相似度,导出表示多个语音数据相关联的可能性的关联度;以及关联赋予部,其将所导出的关联度为预先设定的阈值以上的多个语音数据关联起来。
附图说明
图1是示出一个实施方式的关联赋予装置的硬件的结构例的框图。
图2是概念性地示出本实施方式的关联赋予装置所具有的语音数据库的记录内容的一例的说明图。
图3是示出本实施方式的关联赋予装置的功能结构例的功能框图。
图4是示出本实施方式的关联赋予装置的基干处理的一例的流程图。
图5是示出本实施方式的关联赋予装置所输出的关联赋予结果的一例的说明图。
图6是示出本实施方式的关联赋予装置的要件相似度导出处理中的导出权重的一例的曲线图。
图7是示出本实施方式的关联赋予装置的要件相似度导出处理中的表示异音同义词的列表的一例的说明图。
图8是示出本实施方式的关联赋予装置的要件相似度导出处理的一例的流程图。
图9A和图9B是示出本实施方式的关联赋予装置的要件相似度导出处理的具体例的图表。
图10是示出本实施方式的关联赋予装置的说话者相似度导出处理的一例的流程图。
图11是示出本实施方式的关联赋予装置的关联度导出处理中的罚函数随时间变化的一例的曲线图。
图12是示出本实施方式的关联赋予装置的关联度导出处理中的罚函数所使用的时间的具体例的图表。
图13是示出本实施方式的关联赋予装置的关联度导出处理中的罚函数随时间变化的一例的曲线图。
具体实施方式
在上述日本专利第3450250号公报(Japanese Patent No.3450250)所公开的装置中,以取得呼叫者号码为前提。因此,装置不适用于不通知号码等的通话。并且,在接收到来自相同的呼叫者号码的呼叫的情况下,装置无法区别不同的说话者。
本发明的目的在于提供能够与呼叫者号码无关地通过估计来将作为一连串的通话的语音数据关联起来的关联赋予装置、使用该关联赋予装置的关联赋予方法以及存储用于实现所述关联赋予装置的计算机程序的记录介质。因此,根据针对语音数据的语音识别处理的结果,来导出基于语音数据之间所共用的共用语句的出现率的语句相似度,并且根据从语音数据中提取出的语音特征,来导出语音数据间的说话者相似度。然后,根据所导出的语句相似度和说话者相似度来导出关联度,根据所导出的关联度来判定是否要将多个语音数据作为一连串的通话而关联起来。
以下根据示出本技术的实施方式的附图来对本技术进行详细叙述。实施方式所涉及的关联赋予装置是检测通过对说话者所发出的语音进行数据化得到的多个语音数据的关联性、进而赋予关联、之后进行记录和输出的装置。所谓应该关联起来的多个语音数据是指如下这样的数据:例如在接线员通过电话与顾客对话的呼叫中心等的业务中,在利用一次通话没有说完对话所涉及的要件而需要多次通话的情况下,与各次通话相关的各个语音数据。即,本实施方式的关联赋予装置使与同一顾客的关于同一要件的通话关联成为一连串的通话。
图1是示出一个实施方式的关联赋予装置的硬件的结构例的框图。图1所示的关联赋予装置1使用个人计算机等计算机来构成。关联赋予装置1具有控制机构10、辅助存储机构11、记录机构12和存储机构13。控制机构10是控制装置整体的CPU等机构。辅助存储机构11是从记录本实施方式的计算机程序PRG等程序和数据等各种信息的CD-ROM等记录介质读取各种信息的CD-ROM驱动器等机构。记录机构12是记录由辅助存储机构11读取的各种信息的硬盘等机构。进而,存储机构13是存储临时产生的信息的RAM等机构。并且,使记录机构12中记录的计算机程序PRG存储到存储机构13中,利用控制机构10来进行控制,由此计算机作为本实施方式的关联赋予装置1而工作。
而且,关联赋予装置1具有鼠标、键盘等输入机构14、和监视器、打印机等输出机构15。
并且,关联赋予装置1的记录机构12的记录区域的一部分用作记录语音数据的语音数据库(语音DB)12a。另外,也可以不将记录机构12的记录区域的一部分用作语音数据库12a,而将与关联赋予装置1连接的其他装置用作语音数据库12a。
语音数据库12a中能够以各种形式记录语音数据。例如,可以将与各次通话相关的语音数据记录为彼此独立的文件。并且,可以记录为例如包含多次通话的语音数据和用于确定该语音数据中所包含的各次通话的数据。所谓包含多次通话的语音数据是指例如使用一台电话机记录的一天中的语音数据。所谓用于确定语音数据中包含的各次通话的数据是指表示每次通话的开始时刻和结束时刻的数据。图2是概念性地示出本实施方式的关联赋予装置1所具有的语音数据库12a的记录内容的一例的说明图。图2是示出在作为由每个电话的语音数据和用于确定该语音数据中包含的各次通话的数据、构成语音数据库12的情况下,用于确定通话的数据的记录形式的一例。赋予了通话ID,来作为所记录的用于确定每个电话的语音数据所包含的各次通话的数据,对应于通话ID,以记录内容为单位记录了开始时刻、结束时刻和关联通话ID等各种项目。开始时刻和结束时刻表示在原来的语音数据中,与该通话相对应的区间的开始时刻和结束时刻。另外,各时刻可以是绝对实际时刻,也可以是以原来的语音数据的最初时刻作为“0:00”的相对时刻。关联通话ID是用于确定通过关联赋予装置1的处理而与该通话ID相关联的通话的ID。在图2所示的例子中,通话ID为“0001”、“0005”和“0007”的通话被关联成为表示一连串的会话的通话。另外如上所述,可以将各次通话记录为例如WAV文件等形式的语音数据,例如在该情况下,可以对与通话ID“0001”对应的语音数据赋予“0001.wav”等文件名。
图3是示出本实施方式的关联赋予装置1的功能结构例的功能框图。关联赋予装置1基于控制机构10的控制来执行记录在记录机构12中的本实施方式的计算机程序PRG,由此发挥通话组选择部100、要件相似度导出部101、说话者相似度导出部102、关联度导出部103、关联赋予部104和语句列表105等的各种功能。
通话组选择部100是用于执行以下等的处理的程序模块,即:从记录在语音数据库12a中的语音数据中选择与要判定关联性的多次通话相关的语音数据。
要件相似度导出部(语句相似度导出部)101是用于执行以下等的处理的程序模块,即:导出通话组选择部100选择出的与多次通话相关的语音数据中、表示通话内容的要件的相似度的要件相似度(语句相似度)。
说话者相似度导出部102是用于执行以下等的处理的程序模块,即:导出由通话组选择部100选择出的与多次通话相关的语音数据中、表示说话者的相似度的说话者相似度。
关联度导出部103是用于执行以下处理的程序模块,即:根据要件相似度导出部101所导出的要件相似度和说话者相似度导出部102所导出的说话者相似度,导出关联度,该关联度表示通话组选择部100选择出的与多次通话相关的语音数据相关联的可能性。
关联赋予部104是用于执行以下等的处理的程序模块,即:根据关联度导出部103所导出的关联度,将与通话相关的语音数据关联起来进行记录并输出。
语句列表105记录了在要件相似度导出部101所执行的要件相似度的判定、关联度导出部103所执行的关联度的导出等处理中、影响各个处理的语句。另外,将在后面的处理的说明中,适当地说明记录在语句列表105中的语句的例子和使用方法。
接着,说明本实施方式的关联赋予装置1的处理。图4是示出本实施方式的关联赋予装置1的基干处理的一例的流程图。关联赋予装置1通过通话组选择部100基于执行计算机程序PRG的控制机构10的控制进行的处理,来从语音数据库12a中选择多个语音数据(S101)。在下面的说明中,所谓语音数据是指表示以通话为单位的语音的语音数据。因此,例如在语音数据库12a中记录有包含多次通话的语音数据的情况下,下面说明中的语音数据表示与各次通话相关的语音数据。在之后的处理中,对在步骤S101中所选择的多个语音数据的关联性进行检测。例如,选择通话ID为“0001”的语音数据和通话ID为“0002”的语音数据来检测它们之间的关联性,然后选择通话ID为“0001”的语音数据和通话ID为“0003”的语音数据来检测它们之间的关联性,通过反复进行这样的处理能够检测通话ID为“0001”的语音数据与其他语音数据之间的关联性。进而,检测通话ID为“0002”的语音数据与其他语音数据之间的关联性,检测通话ID为“0003”的语音数据与其他语音数据之间的关联性,通过反复进行这样的处理能够检测所有语音数据的关联性。另外,也可以一次选择三个以上的语音数据来分别检测它们之间的关联性。
一个通话ID的语音数据具有不包含语音的数据区域即非语音区间。并且,该语音数据具有夹在非语音区间之间的语音区间。在所述语音数据中包含一个或多个这样的语音区间。一个语音区间包含说话者所发出的一个或多个语句。在该一个语音区间中可以包含与如下的通话ID的语音数据所包含的、说话者发出的语句共用的共用语句:该通话ID的语音数据是与包含所述一个语音区间的所述一个通话ID的语音数据不同的其他通话ID的语音数据。语音区间的开始时刻可以定义为夹着语音区间的非语音区间与该语音区间之间的时刻。此外,在语音区间从语音数据的开始时刻开始的情况下,语音区间的开始时刻定义为语音数据的开始时刻。语音数据(单个)中所包含的语音区间的开始时刻与共用语句出现的时刻之间的时间间隔被定义为从一个通话ID的语音数据的开始时刻到出现要件语句(共用语句)为止的经过时间。
关联赋予装置1通过要件相似度导出部101基于控制机构10的控制进行的处理,来针对通话组选择部100所选择的多个语音数据进行语音识别处理,根据语音识别处理的结果,导出各语音数据之间所共用的、且与要件内容有关的要件语句的出现率的数值,作为要件相似度(S102)。在步骤S102中,与要件内容有关的要件语句是语句列表105所示的语句。
关联赋予装置1通过说话者相似度导出部102基于控制机构10的控制进行的处理,来从通话组选择部100所选择的多个语音数据中提取各个语音的特征,并导出表示提取出的特征的比较结果的相似度,作为说话者相似度(S103)。
关联赋予装置1通过关联度导出部103基于控制机构10的控制进行的处理,根据要件相似度导出部101所导出的要件相似度和说话者相似度导出部102所导出的说话者相似度,导出表示选择出的多个语音数据相关联的可能性的关联度(S104)。
在关联度导出部103所导出的关联度为预先设定的阈值以上的情况下,关联赋予装置1通过关联赋予部104基于控制机构10的控制进行的处理,将选择出的多个语音数据关联起来(S105),执行向语音数据库12a进行记录等关联赋予结果的输出(S106)。在步骤S105中,在关联度小于阈值的情况下,不将选择出的多个语音数据关联起来。如图2所示,在步骤S106中,以记录为关联通话ID的方式来进行记录。另外,在步骤S106中,示出了通过将关联起来的语音数据记录在语音数据库12a中而输出关联赋予的结果的方式,但是可以进行例如利用向作为监视器的输出机构15进行显示等其他方法进行输出等的各种输出。然后,关联赋予装置1针对作为关联赋予的候选的所有语音数据的组执行步骤S101~S106的处理。
可以采用各种形式来输出记录在语音数据库12a中的关联赋予的结果。图5是示出本实施方式的关联赋予装置1所输出的关联赋予结果的一例的说明图。在图5中,以时间的经过为横轴,以关联起来的内容为纵轴,利用曲线图形式来表示它们的关系。图5的曲线图中的长方形表示与语音数据相关的通话,示于长方形上方的数字表示语音数据的通话ID。长方形的横向的长度和位置表示通话的时间和时刻。连接长方形的虚线表示将各个通话关联起来的状况。纵轴侧所示出的语句表示与导出要件相似度时使用的要件语句对应的要件内容。例如,通话ID为“0001”、“0005”和“0007”的语音数据根据“再发布密码”这一要件内容而关联起来。通过将图5所示的检测结果显示在例如作为监视器的输出机构15上,从而通过目视识别到输出结果的用户能够掌握各语音数据的关联性和内容。另外,只要能够按照每个语音数据来判断通话方向,即是与由来自顾客侧的呼叫相关的通话还是与由接线员侧的呼叫相关的通话,也可以利用明确示出该情况的显示方法来进行输出。
在上述基干处理中,将本实施方式的关联赋予装置1用于在将多个语音数据适当地关联起来后的分类等用途,但是不限于这种方式,可以扩展为各种方式。例如,可以扩展为用于如下用途等各种方式:针对一个语音数据,从预先记录的多个语音数据中选择可以关联起来的语音数据;以及提取与通话中的语音关联起来的语音数据。
接着,说明基干处理中所执行的各处理。首先说明作为基干处理的步骤S102所执行的要件相似度计算处理。另外,在基干处理的步骤S101中,设为选择了通话A的语音数据和通话B的语音数据,从而以下说明导出通话A的语音数据和通话B的语音数据的要件相似度。
关联赋予装置1通过要件相似度计算部102的处理来进行针对语音数据的语音识别处理,并根据语音识别处理的结果来导出通话A的语音数据与通话B的语音数据之间所共用的、且与要件内容有关的要件语句的出现率的数值,作为要件相似度。
语音识别处理采用通常所普及的关键词识别(keyword spotting)方式。但是,不限于关键词识别法,也可以采用针对被称为听写的全文书写方式的识别结果即字符串检测关键词而提取关键词等各种方法。由关键词识别法所检测的关键词和由全文书写方式提取的关键词使用预先记录在语句列表105中的要件语句。所谓要件语句是指“个人电脑”、“硬盘”、“故障”等与要件相关联的语句,以及“昨天”、“刚才”等与要件的说明相关联的语句等语句。另外,也可以仅将与要件相关联的语句作为要件语句看待。
要件相似度(语句相似度)由下式(1)导出,所述式(1)使用了共用语句数Kc和总语句数Kn,共用语句数Kc表示在通话A的语音数据和通话B的语音数据双方中都出现的语句的数量,总语句数Kn表示在通话A的语音数据和通话B的语音数据的至少一方中出现的语句的数量。另外,在对共用语句数Kc和总语句数Kn进行计数时,在同一语句出现多次的情况下,每一次出现该同一语句时,计数为1次。通过这种方式所导出的要件相似度Ry为0以上1以下的值。
Ry=2×Kc/Kn...(1)
其中,Ry:要件相似度
Kc:共用语句数
Kn:总语句数
另外,式(1)在总语句数Kn是自然数的情况下成立。在总语句数Kn为0的情况下,要件相似度Ry作为0来处理。
通过对上述要件相似度导出处理进一步进行各种调整,能够提高所导出的要件相似度Ry的可信度。针对用于提高要件相似度Ry的可信度的调整进行说明。由于要件相似度Ry的导出所涉及的要件语句是由语音识别处理所识别的结果,因此识别结果中有可能包含错误。因此,根据语音识别处理的可信度,使用调整后的下式(2)来导出要件相似度Ry,能够提高要件相似度Ry的可信度。
其中,CAi:通话A的语音数据中的第i个共用语句的语音识别的可信度
CBi:通话B的语音数据中的第i个共用语句的语音识别的可信度
另外,式(2)在总语句数Kn是自然数的情况下成立。在总语句数Kn为0的情况下,要件相似度Ry作为0来处理。并且,在一次通话中出现多次相同的共用语句的情况下,可以使用最高的可信度来导出要件相似度Ry,也可以进一步根据出现次数进行调整,以提高可信度。
并且,由于语音数据是在呼叫中心中对对话进行数据化得到的数据,因此,与本来的要件关系密切的语句在通话的最初,例如从通话开始起到30秒钟以内出现的可能性高。因此,通过使用下式(3)来导出要件相似度Ry,能够提高要件相似度Ry的可信度,所述式(3)是通过对所出现的要件语句乘以基于从对话开始到出现该要件语句为止的时间t得到的权重W(t)来进行调整的。
…(3)
其中,W(t):基于从对话开始起的经过时间t得到的权重
TAi:从通话A的语音数据的开始时刻到出现第i个要件语句为止的经过时间
TBi:从通话B的语音数据的开始时刻到出现第i个要件语句为止的经过时间
Bj(i):作为与要件语句Ai的共用语句的通话B的数据中的要件语句
图6是示出本实施方式的关联赋予装置1的要件相似度导出处理中的导出权重W(t)的一例的曲线图。图6以经过时间t为横轴,以权重W(t)为纵轴,示出了它们的关系。通过使用例如图6所示的曲线,能够根据经过时间t导出式(3)中所使用的权重W(t)。从图6可知,对到经过时间t到达30秒之前所出现的要件语句赋予大的权重,而此后所赋予的权重急剧下降。这样,以在对话开始后的早期阶段、例如30秒以内所出现的要件语句与本来的要件关系密切为前提,根据出现要件语句为止的时间来调整要件相似度Ry,由此能够提高要件相似度Ry的可信度。
并且,由于要件相似度Ry的导出所涉及的要件语句是由语音识别处理识别的结果,因此将“PC”、“个人电脑”、“个人计算机”等相关的要件语句、即异音同义词判定为不同的要件语句。因此,通过基于异音同义词来对要件相似度Ry进行调整,能够提高要件相似度Ry的可信度。
图7是示出本实施方式的关联赋予装置1的要件相似度导出处理中的异音同义词的列表的一例的说明图。如图7所示,例如,将“PC”、“个人电脑”、“个人计算机”视为都可以用“PC”来表示的相同的要件语句,对共用语句数Kc进行计数,由此能够提高要件相似度Ry的可信度。示出这样的异音同义词的列表作为语句列表105的一部分而安装在关联赋予装置1上。
图8是示出本实施方式的关联赋予装置1的要件相似度导出处理的一例的流程图。说明对根据上述各种要因而调整后的要件相似度进行计算的处理。关联赋予装置1通过要件相似度导出部101基于控制机构10的控制进行的处理,来对针对通话A的语音数据和通话B的语音数据的识别处理结果进行异音同义词的变换处理(S201)。通过使用图7所示的列表来进行异音同义词的变换处理。例如,将“PC”、“个人电脑”以及“个人计算机”变换为“PC”。另外,从同一说话者针对一个对象使用相同语句的可能性高的观点考虑,也可以在基于异音同义词的要件相似度高的情况下,进行调整,以减小最终导出的关联度。
关联赋予装置1通过要件相似度导出部101基于控制机构10的控制进行的处理,来导出各要件语句的可信度(S202),进而导出各要件语句的权重(S203)。步骤S202的可信度是针对语音识别的可信度,使用在语音识别处理时利用已经提出的一般的技术而导出的值。步骤S203的权重是根据要件语句的出现时间而导出的。
然后,关联赋予装置1通过要件相似度导出部101基于控制机构10的控制进行的处理,来导出要件相似度Ry(S204)。在步骤S204中,使用上述式(3)来导出要件相似度Ry。在基于出现时刻的权重大的区间中一致的要件语句越多,并且针对该要件语句的语音识别处理时的可信度越高,则通过这种方式导出的要件相似度Ry的值越接近1。另外,也可以不导出要件语句彼此的相似度,而是预先准备将要件语句与要件内容关联起来的表,根据要件语句导出所关联起来的要件内容的相似度。
图9A和图9B是示出本实施方式的关联赋予装置1的要件相似度导出处理的具体例的图表。图9A以记录内容形式来表示与基于针对通话A的语音数据的语音识别处理的结果的要件语句有关的信息。与要件语句有关的信息针对语句编号i、要件语句、变换后的要件语句、出现时刻TAi、权重W(TAi)、可信度CAi、W(TAi)×CAi、对应的通话B的语句编号j等的每个项目进行表示。图9B以记录内容形式来表示与基于针对通话B的语音数据的语音识别处理的结果的要件语句有关的信息。与要件语句有关的信息针对语句编号i、要件语句、变换后的要件语句、出现时刻TBj、权重W(TBj)、可信度CBj、W(TBj)×CBj等的每个项目进行表示。
在图9A和图9B所示的例子中,使用上述式(3)计算出的要件相似度Ry如下所示。其中,总语句数Kn=9+8=17,即Kn>0。
Ry=2×{(1×0.83×1×0.82)+(1×0.82×1×0.91)
+(1×0.86×1×0.88)+(0.97×0.88×1×0.77)}
/(6.29+5.06)
=0.622
这样,执行了要件相似度计算处理。
接着,说明作为基干处理的步骤S103所执行的说话者相似度计算处理。图10是示出本实施方式的关联赋予装置1的说话者相似度导出处理的一例的流程图。在基干处理的步骤S101中,设为选择了通话A的语音数据和通话B的语音数据,从而以下说明导出通话A的语音数据和通话B的语音数据的说话者相似度。
关联赋予装置1通过说话者相似度导出部102基于控制机构10的控制进行的处理,来导出通过将通话A的语音数据和通话B的语音数据的物理特征数值化得到的特征量(S301)。步骤S301的特征量也可以称为特征参数、语音参数等,通过矢量、矩阵等方式来利用该特征量。作为在步骤S301中所导出的特征量,一般使用例如Mel-Frequency CepstrumCoefficient(MFCC:Mel频率倒谱系数)、Bark Frequency CepstrumCoefficient(BFCC:BARK频率倒谱系数)、Linear Prediction filterCoefficients(LPC:线性预测滤波系数)、LPC cepstral(LPC倒普系数)、Perceptual Linear Prediction cepstrum(PLP:感知线性预测倒谱)、动力系数、以及这些特征量的一次、二次回归系数的组合。并且,也可以是RelAtive SpecTrA(RASTA:相对谱)、Differential Mel Frequency CepstrumCoefficient(DMFCC:差分MEL频率倒谱系数)、Cepstrum MeanNormalization(CMN:倒谱均值归一化)、Spectral Subtraction(SS:光谱差减)等归一化处理或与噪声去除处理的组合。
关联赋予装置1通过说话者相似度导出部102基于控制机构10的控制进行的处理,利用基于所导出的通话A的语音数据的特征量和通话B的语音数据的特征量的似然度估计等模型估计,来生成通话A的说话者模型和通话B的说话者模型(S302)。可以利用一般的说话者识别、说话者核对等技术所使用的模型估计技术来生成步骤S302的说话者模型。作为说话者模型,可以应用矢量量化(VQ:Vector Quantization)、HiddenMarkov Model(HMM:隐马尔可夫模型)等模型,而且也可以是将音韵识别用不确定说话者模型应用于说话者的确定说话者音韵HMM。
关联赋予装置1通过说话者相似度导出部102基于控制机构10的控制进行的处理,来计算通话A的说话者模型中的通话B的语音数据的似然度P(B|A)和通话B的说话者模型中的通话A的语音数据的似然度P(A|B)(S303)。在计算步骤S303的似然度P(B|A)和P(A|B)时,可以预先进行语音识别处理,并根据被识别为发出同一语句的区间的数据,按照每个语句分别生成说话者模型,从而计算各似然度。而且,例如通过取得每个语句的各似然度的平均,来计算作为步骤S303的处理结果的似然度P(B|A)和似然度P(A|B)。
关联赋予装置1通过说话者相似度导出部102基于控制机构10的控制进行的处理,来导出似然度P(B|A)和似然度P(A|B)的平均值,作为说话者相似度Rs(S304)。这里,期望进行范围调整(归一化),以使说话者相似度Rs收敛在0以上1以下的范围内。并且,从运算精度的观点考虑,也可以利用取似然度对数值的对数似然度。另外,在步骤S304中,也可以将说话者相似度Rs计算为似然度P(B|A)和似然度P(A|B)的平均值以外的值。例如,在通话B的语音数据短的情况下,也可以视为根据通话B的语音数据而生成的通话B的说话者模型的可信度低,将似然度P(B|A)的值作为说话者似然度Rs。
另外,也可以一次导出3个以上的语音数据的说话者相似度Rs。例如通过如下方式来计算通话A、通话B和通话C的说话者相似度Rs。
Rs={P(B|A)+P(C|A)+P(A|B)
+P(C|B)+P(A|C)+P(B|C)}/6
上述说话者相似度导出处理是以在一个语音数据中只包含一个说话者所发出的语音为前提。但是,在实际的语音数据中,有时在一个语音数据中包含多个说话者所发出的语音。例如,包含呼叫中心的接线员和顾客的语音的情况,以及多个客户交替通话的情况等。因此,优选在说话者相似度导出处理中,采取防止由于在一个语音数据中包含多个人的语音而导致说话者相似度Rs的可信度下降的处理。所谓防止可信度下降的处理是指:使从一个语音数据中使确定用于导出说话者相似度的一个说话者的语音变得容易的处置。
说明从包含多个说话者语音的语音数据中确定作为目的的一个说话者语音的方法之一。首先,执行针对语音数据的说话者分类处理和说话者标签赋予处理,按照说话者来对发声区间进行分类。具体而言,在语音数据中,按照被非语音区间分隔开的每个语音区间来生成说话者的特征矢量,并对所生成的说话者的特征矢量进行分类。然后,针对分类出的各类别来生成说话者模型,进行赋予识别符的说话者标签赋予。在对说话者赋予标签时,求出与各个语音区间相关的语音数据彼此之间的最大似然度,决定最佳说话者模型,由此来决定要赋予标签的说话者。
然后,按照对与各语音区间相关的语音数据贴附标签后的每个说话者来计算通话时间,从计算说话者相似度时所使用的语音数据中排除计算出的时间在预先设定的下限时间以下、或者该说话者的通话时间相对于整个通话时间的比率在预先设定的下限率以下的说话者的语音数据。通过这种方式能够缩小针对语音数据的说话者的范围。
即使缩小了上述说话者的范围,在一个语音数据中包含多个说话者发出的语音时,也仍按照每个说话者来导出说话者相似度。即,在通话A的语音数据中包含说话者SA1、SA2、...的语音,通话B的语音数据中包含说话者SB1、SB2、...的语音的情况下,针对各个说话者的组合导出说话者似然度Rs(SAi,SBj):i=1、2、...,j=1、2、...。然后,导出所有说话者相似度Rs(SAi,SBi)的最大值或平均值,作为说话者相似度Rs。
另外,这里导出的所谓说话者相似度Rs表示针对顾客的说话者相似度。因此,能够通过确定多个说话者语音中由接线员发出的语音,来排除接线员说话的区间。对确定接线员发出的语音的方法的例子进行说明。如前所述,执行针对语音数据的说话者分类处理和说话者标签赋予处理,按照说话者来对发声区间进行分类。然后通过语音识别处理来检测包含规定语句的语音区间,该规定语句是在接到呼叫时接线员说出的概率高的语句,例如“是的,这里是富士通支持中心”等。然后,从计算说话者相似度时所使用的语音数据中排除针对包含该规定语句的语音区间的语音数据赋予了标签的说话者的发声区间。另外,作为规定语句的语句使用预先记录在例如语句列表105中的语句。
对确定接线员发出的语音的其他例子进行说明。首先,针对记录在语音数据库12a中的所有语音数据,执行说话者分类处理和说话者标签赋予处理,按照说话者来对发声区间进行分类。然后,将多个语音数据中包含预先设定的预定频度以上的发声的说话者看作接线员,从计算说话者相似度时所使用的语音数据中排除被赋予了针对该说话者标签的语音区间。
另外,通过将接线员侧的语音和顾客侧的语音设为不同通道中的语音数据,能够容易地排除接线员。但是,即使是将顾客侧的语音设为接听侧的通道来与接线员侧的语音相区分而进行录音的系统,由于录音方法的不同,有时在表示顾客侧的语音的接听侧的通道中,仍会包含接线员侧的语音的回声。针对这样的回声,能够通过执行将接线员侧的语音作为参照信号、将顾客侧的语音作为观测信号的回声消除处理,来去除该回声。
并且,可以预先基于接线员发出的语音生成说话者模型,去除与接线员相关的语音区间。而且,只要能够根据通话时刻和电话台来确定接线员,就能够通过加入该状况来以更高的精度去除与接线员相关的语音区间。
在关联赋予装置1所执行的说话者相似度计算处理中,在一个语音数据中包含多个说话者的语音的情况下,通过并用上述各种方法,根据针对一个语音数据而选择出的一个说话者的语音,导出说话者相似度。例如,在语音数据中包含接线员和顾客的语音的情况下,选择作为顾客的说话者的语音而导出说话者相似度,从而能够提高关联赋予的精度。这样,执行说话者相似度计算处理。
接着,说明基干处理中作为步骤S104所执行的关联度导出处理和作为步骤S105所执行的关联赋予处理。关联度导出处理是这样的处理:根据要件相似度Ry和说话者相似度Rs,导出表示多个语音数据(这里是通话A的语音数据和通话B的语音数据)相关联的可能性的关联度Rc。并且,所谓关联赋予处理是指如下这样的处理:将所导出的关联度Rc与预先设定的阈值Tc进行比较,在关联度Rc为阈值以上的情况下,将通话A的语音数据和通话B的语音数据关联起来。
如下式(4)所示,将关联度Rc作为要件相似度Ry和说话者相似度Rs的积来导出。
Rc=Ry×Rs…(4)
其中,Rc:关联度
Ry:要件相似度
Rs:说话者相似度
式(4)中所使用的要件相似度Ry和说话者相似度Rs取0以上1以下的值,因此利用式(4)而导出的关联度Rc也是0以上1以下的值。另外,作为与关联度Rc进行比较的阈值Tc,设定为例如0.5等的值。
另外,如下式(5)所示,也可以将关联度Rc作为要件相似度Ry和说话者相似度Rs的加权平均值来导出。
Rc=Wy×Ry+Ws×Rs…(5)
其中,Wy和Ws是使Wy+Ws=1的权重系数
由于权重系数Wy、Ws之和为1,因此利用式(5)而导出的关联度Rc也是0以上1以下的值。根据要件相似度Ry和说话者相似度Rs的可信度来设定权重系数Wy、Ws,由此能够导出可信度高的关联度Rc。
例如根据语音数据的时间长度来设定权重系数Wy、Ws。在语音数据的时间长度长的情况下,说话者相似度Rs的可信度高。因此,根据通话A的语音数据和通话B的语音数据中短的一方的通话时间T(分钟)来设定如下所示的权重系数Wy、Ws,由此能够提高关联度Rc的可信度。
Ws=0.3 (T<10)
Ws=0.3+(T—10)×0.02 (10≤T<30)
Ws=0.7 (T≥30)
Wy=1-Ws
另外,可根据其他要因,例如导出说话者相似度Rs时的语音识别处理的可信度等各种要因来适当地设定权重系数Wy、Ws。
并且,在要件相似度Ry和说话者相似度Rs中的一方的值低的情况下,也可以在不考虑基于式(4)或式(5)的导出结果的情况下来导出关联度Rc。即,仅是要件和说话者中的一方相似而另一方不相似时,视为是一连串通话的可能性低,防止利用计算式导出关联度Rc而进行关联赋予的情况。具体而言,在要件相似度Ry小于预先设定的阈值Ty的情况下,或说话者相似度Rs小于预先设定的阈值Ts的情况下,导出为关联度Rc=0。在该情况下,通过省略基于式(4)或式(5)的关联度Rc的导出,能够减轻关联赋予装置1的处理负荷。
而且,在语音数据中包含特定语句的情况下,也可以与要件相似度导出处理中的语音识别处理相协作,来对关联度Rc进行调整。例如,在语音数据中包含“刚才通过电话”、“昨天通过电话”、“关于刚才的事情”、“关于您电话中所述的事情”等表示话题继续的特定语句的情况下,在该语音数据的以前的语音数据中存在应该关联起来的语音数据的可能性高。因此,在包含这样的表示话题继续的特定语句的情况下,通过进行将关联度Rc除以例如0.9等预定值来增大关联度Rc的调整,能够提高关联赋予的可信度。另外,也可以不进行使关联度Rc增大的调整,而是进行对阈值Tc乘以0.9等预定值来减小阈值Tc的调整。但是,这样的调整是在检测语音数据所涉及的时刻、并判定与包含特定语句的语音数据以前的语音数据的关联性的情况下进行的。另外,在包含“暂时挂断一下”、“过一会儿再打电话”等表示之后会继续话题的特定语句的情况下,在判定与包含特定语句的语音数据以后的语音数据的关联性时,进行增大关联度Rc或减小阈值Tc的调整。这样的特定语句作为语句列表105的一部分而安装在关联赋予装置1中。
并且,在语音数据中包含“已经再发布”、“已经确认完毕”、“手续完成”、“已经解决”等表示话题结束的特定语句的情况下,在该语音数据的以后的语音数据中存在应该关联起来的语音数据的可能性低。因此,在包含这样的表示话题结束的特定语句的情况下,通过进行使关联度Rc减小或使关联度Rc为0的调整,能够提高关联赋予的可信度。另外,也可以不进行使关联度Rc减小的调整,而是进行使阈值Tc增大的调整。但是,这样的调整是在检测语音数据所涉及的时刻、并判定与包含特定语句的语音数据以后的语音数据的关联性的情况下进行的。另外,在包含表示话题开始的特定语句的情况下,在判定与包含特定语句的语音数据以前的语音数据的关联性时,进行减小关联度Rc或增大阈值Tc的调整。
而且,在语音数据中包含表示之后会继续话题的特定语句的情况下,有时能够从特定语句的内容中预测到在经过一定时间的时点出现应该关联起来的语音数据的可能性高。在这种情况下,如下式(6)所示,乘以作为时间函数而变化的罚函数来调整关联度Rc,由此能够提高关联度Rc的可信度。
Rc’=Rc×Penalty(t)…(6)
其中,Rc’:调整后的关联度Rc
t:包含特定语句的语音数据后的时间
Penalty(t):罚函数
另外,基于罚函数的关联度Rc的调整不限于式(6)所示的调整。例如也可以按照下式(7)那样,执行基于罚函数的关联度Rc的调整。
Rc’=max[{Rc-(1—Penalty(t)),0}]…(7)
图11是示出本实施方式的关联赋予装置1的关联度导出处理中的罚函数随时间变化的一例的曲线图。图12是示出本实施方式的关联赋予装置1的关联度导出处理中的罚函数所使用的时间的具体例的图表。在图11中,以包含特定语句的语音数据所涉及的通话结束后的经过时间t为横轴,以罚函数为纵轴,示出了它们的关系。如图11所示,罚函数的斜率以经过时间T1、T2、T3和T4为基准而变化。即,示出了以下情况:虽然在包含特定语句的语音数据所涉及的通话结束后,应该关联起来的通话出现在T2~T3的时间带中,但是也有可能最短在T1、最长在T4出现。可以通过以下方式来表示这种罚函数的时间变化。
Penalty(t)=0 (t≦T1)
Penalty(t)=(t—T1)/(T2—T1)
(T1<t<T2)
Penalty(t)=1 (T2≦t≦T3)
Penalty(t)=1—(t—T3)/ (T4—T3)
(T3<t<T4)
Penalty(t)=0 (T4≦t)
图12示出了特定语句和图11所示的T1、T2、T3和T4的具体例。例如,在语音数据中包含特定语句“再发布密码”的情况下,以以下情况为前提来设定各数值,即:从该语音数据所涉及的通话结束开始,在60~180秒后进行应该关联起来的通话的可能性高,而在30秒以前或者300秒以后进行应该关联起来的通话的可能性非常低。另外,也可以不将特定语句与T1、T2、T3和T4的数值对应起来,而将特定语句与要件关联起来,进而将要件与数值关联起来,由此根据特定语句导出T1、T2、T3和T4。并且,也可以不设置T1~T2、T3~T4这样的缓冲期间,而在偏离了根据特定语句而关联起来的时间范围的情况下,设Rc=0。
并且,也可以不采用从包含特定语句的语音数据所涉及的通话结束开始的相对时间,而是设定为以绝对的日期时间为函数而变化的罚函数。例如,在包含“3点左右进行联系”、“明天再次联系”等表示下次通话时期的特定语句的情况下,使用以日期时间为函数而变化的罚函数。
图13是示出本实施方式的关联赋予装置1的关联度导出处理中的罚函数随时间变化的一例的曲线图。图13以通话开始时刻tb为横轴,以罚函数为纵轴,示出了它们的关系。图13示出了根据“3点左右进行联系”这一特定语句而设定的罚函数的值。另外,基于罚函数的关联度Rc的调整使用上述式(6)、式(7)等。
而且,当通话A和通话B在时间上重合时,进行使关联度Rc为0等的各种调整。
上述实施方式只不过是多个实施方式的一部分,可以对各种硬件和软件等的结构进行适当设定。并且,也可以对应于安装方式进行各种设定以提高本技术所涉及的关联赋予的精度。
例如,可以预先从与过去的多个说话者的通话相关的多个语音数据生成全局模型(global model),使用与全局模型的似然比来对说话者相似度进行归一化,由此提高说话者相似度的精度,进而提高关联赋予的精度。
并且,可以预先按照说话者对与过去的多个说话者的通话相关的多个语音数据进行分层分类,将与通话中的说话者矢量接近的说话者的模型作为队列模型(cohort model),使用与队列模型的似然比来对说话者相似度进行归一化,由此提高说话者相似度的精度,进而提高关联赋予的精度。
并且,可以预先按照说话者对与过去的多个说话者的通话相关的多个语音数据进行分层分类,计算正在通话中的说话者矢量与哪个类别接近,由此缩小说话者相似度的导出对象的范围。
并且,可在语音数据中包含表示说话人的交接的要件语句的情况下,也可以只利用要件相似度来导出关联度。
并且,可以在通话时或通话结束时,对规定的装置输入“未结束(之后再次拨打)”、“继续(与之后的通话继续)”、“单独(没有与其他语音数据关联起来)”等表示继续性的信息,并将表示继续性的信息与语音数据关联起来进行记录,由此来提高关联赋予的精度。并且,也可以在每次通话结束时制作说话者模型并进行记录。但是,在将表示“单独”的信息关联起来的情况下,从削减资源的观点来看,期望采取措施以废弃说话者的模型。
根据所公开的内容,从根据基于共用语句的出现率的语句相似度和语音特征而导出的说话者相似度来导出关联度,根据关联度来判定是否要将语音数据关联起来,由此能够将基于要件和说话者的一连串的语音数据关联起来。并且,在确定说话者时,不需要呼叫者号码的通知,而且能够区分与相同呼叫者号码相关的多个人。
本公开内容包含了如下内容:根据针对各语音数据的语音识别处理的结果,导出与各语音数据之间所共用的共用语句的出现率相关的数值,作为语句相似度,导出表示从对说话者发出的语音进行数据化后的多个语音数据中提取出的各个语音特征的比较结果的相似度,作为说话者相似度,根据所导出的语句相似度和说话者相似度来导出表示多个语音数据相关联的可能性的关联度,将所导出的关联度与设定的阈值进行比较,将关联度为阈值以上的多个语音数据关联起来。
根据该结构而发挥如下的出色的效果:能够根据语句和说话者来将要件相连续的一连串的语音数据关联起来。并且,发挥如下的出色的效果:在确定说话者时,不需要通知呼叫者号码,而且能够区分与相同呼叫者号码相关的多个人。
Claims (7)
1.一种关联赋予装置,其用于将通过对说话者发出的语音进行数据化而得到的多个语音数据关联起来,该关联赋予装置包括:
语句相似度导出部,其根据针对各语音数据的语音识别处理的结果,导出所述语音数据之间所共用的共用语句的出现率;
说话者相似度导出部,其导出从语音数据中提取出的语音特征的比较结果;
关联度导出部,其根据所导出的语句相似度和说话者相似度,导出表示多个语音数据相关联的可能性的关联度;以及
关联赋予部,其将所导出的关联度为预先设定的阈值以上的多个语音数据关联起来。
2.根据权利要求1所述的关联赋予装置,其中,
语句相似度导出部根据语音识别处理的可信度、和语音数据中包含的语音区间的开始时刻与共用语句出现的时刻之间的时间间隔中的至少一方,调整语句相似度。
3.根据权利要求1所述的关联赋予装置,其中,
在语音数据中包含多个说话者的语音的情况下,说话者相似度导出部根据一个说话者的语音导出说话者相似度。
4.根据权利要求1所述的关联赋予装置,其中,
关联度导出部通过对语句相似度和说话者相似度进行加权平均来导出关联度,并且根据与语音数据相关的语音的时间长度改变权重系数。
5.根据权利要求1所述的关联赋予装置,其中,
关联赋予部
根据针对语音数据的语音识别处理的结果,判定语音数据中是否包含表示话题的开始或者话题的结束或者话题的继续的特定语句,
在判定为包含有特定语句的情况下,调整关联度或阈值。
6.根据权利要求1~5中的任意一项所述的关联赋予装置,其中,
语音数据包含表示时刻的时刻数据,
在应该成为关联赋予对象的多个语音数据的时间间隔相互重复的情况下,关联度导出部或关联赋予部从关联赋予对象中排除应该成为关联赋予对象的多个语音数据。
7.一种使用关联赋予装置的关联赋予方法,该关联赋予装置用于将通过对说话者发出的语音进行数据化而得到的多个语音数据关联起来,该关联赋予方法包括执行以下处理的步骤:
根据针对各语音数据的语音识别处理的结果,导出语音数据之间所共用的共用语句的出现率,作为语句相似度;
导出表示从语音数据中提取出的语音特征的比较结果的相似度,作为说话者相似度;
根据所导出的语句相似度和说话者相似度,导出表示多个语音数据相关联的可能性的关联度;以及
将所导出的关联度为预先设定的阈值以上的多个语音数据相互关联起来。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008084569A JP5024154B2 (ja) | 2008-03-27 | 2008-03-27 | 関連付け装置、関連付け方法及びコンピュータプログラム |
JP2008-084569 | 2008-03-27 | ||
JP2008084569 | 2008-03-27 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101547261A true CN101547261A (zh) | 2009-09-30 |
CN101547261B CN101547261B (zh) | 2013-06-05 |
Family
ID=41118472
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200810190522.7A Expired - Fee Related CN101547261B (zh) | 2008-03-27 | 2008-12-30 | 关联赋予装置、关联赋予方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20090248412A1 (zh) |
JP (1) | JP5024154B2 (zh) |
CN (1) | CN101547261B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104252464A (zh) * | 2013-06-26 | 2014-12-31 | 联想(北京)有限公司 | 信息处理方法和装置 |
CN105745679A (zh) * | 2013-07-26 | 2016-07-06 | 格林伊登美国控股有限责任公司 | 用于发现和探索概念的系统和方法 |
CN107210040A (zh) * | 2015-02-11 | 2017-09-26 | 三星电子株式会社 | 语音功能的操作方法和支持该方法的电子设备 |
CN107943850A (zh) * | 2017-11-06 | 2018-04-20 | 齐鲁工业大学 | 数据关联方法、系统及计算机可读存储介质 |
CN108091323A (zh) * | 2017-12-19 | 2018-05-29 | 想象科技(北京)有限公司 | 用于自语音中识别情感的方法与装置 |
CN110501918A (zh) * | 2019-09-10 | 2019-11-26 | 百度在线网络技术(北京)有限公司 | 智能家电控制方法、装置、电子设备和存储介质 |
CN111816184A (zh) * | 2019-04-12 | 2020-10-23 | 松下电器(美国)知识产权公司 | 讲话人识别方法、识别装置以及记录介质、数据库生成方法、生成装置以及记录介质 |
CN112992137A (zh) * | 2021-01-29 | 2021-06-18 | 青岛海尔科技有限公司 | 语音交互方法和装置、存储介质及电子装置 |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9117448B2 (en) * | 2009-07-27 | 2015-08-25 | Cisco Technology, Inc. | Method and system for speech recognition using social networks |
US8160877B1 (en) * | 2009-08-06 | 2012-04-17 | Narus, Inc. | Hierarchical real-time speaker recognition for biometric VoIP verification and targeting |
KR101060183B1 (ko) * | 2009-12-11 | 2011-08-30 | 한국과학기술연구원 | 임베디드 청각 시스템 및 음성 신호 처리 방법 |
JP5824829B2 (ja) * | 2011-03-15 | 2015-12-02 | 富士通株式会社 | 音声認識装置、音声認識方法及び音声認識プログラム |
US20130144414A1 (en) * | 2011-12-06 | 2013-06-06 | Cisco Technology, Inc. | Method and apparatus for discovering and labeling speakers in a large and growing collection of videos with minimal user effort |
WO2014155652A1 (ja) * | 2013-03-29 | 2014-10-02 | 株式会社日立製作所 | 話者検索システム、プログラム |
JP2014202848A (ja) * | 2013-04-03 | 2014-10-27 | 株式会社東芝 | テキスト生成装置、方法、及びプログラム |
JP2015094811A (ja) * | 2013-11-11 | 2015-05-18 | 株式会社日立製作所 | 通話録音可視化システムおよび通話録音可視化方法 |
JP6464703B2 (ja) * | 2014-12-01 | 2019-02-06 | ヤマハ株式会社 | 会話評価装置およびプログラム |
JP6556575B2 (ja) | 2015-09-15 | 2019-08-07 | 株式会社東芝 | 音声処理装置、音声処理方法及び音声処理プログラム |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1270361A (zh) * | 1999-04-09 | 2000-10-18 | 国际商业机器公司 | 使用内容和扬声器信息进行音频信息检索的方法和装置 |
Family Cites Families (61)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3700815A (en) * | 1971-04-20 | 1972-10-24 | Bell Telephone Labor Inc | Automatic speaker verification by non-linear time alignment of acoustic parameters |
US4400788A (en) * | 1981-03-27 | 1983-08-23 | Bell Telephone Laboratories, Incorporated | Continuous speech pattern recognizer |
JPS58130393A (ja) * | 1982-01-29 | 1983-08-03 | 株式会社東芝 | 音声認識装置 |
US5131043A (en) * | 1983-09-05 | 1992-07-14 | Matsushita Electric Industrial Co., Ltd. | Method of and apparatus for speech recognition wherein decisions are made based on phonemes |
GB2196460B (en) * | 1986-10-03 | 1991-05-15 | Ricoh Kk | Methods for comparing an input voice pattern with a registered voice pattern and voice recognition systems |
US4933973A (en) * | 1988-02-29 | 1990-06-12 | Itt Corporation | Apparatus and methods for the selective addition of noise to templates employed in automatic speech recognition systems |
US5027406A (en) * | 1988-12-06 | 1991-06-25 | Dragon Systems, Inc. | Method for interactive speech recognition and training |
US5175793A (en) * | 1989-02-01 | 1992-12-29 | Sharp Kabushiki Kaisha | Recognition apparatus using articulation positions for recognizing a voice |
US5761639A (en) * | 1989-03-13 | 1998-06-02 | Kabushiki Kaisha Toshiba | Method and apparatus for time series signal recognition with signal variation proof learning |
US4994983A (en) * | 1989-05-02 | 1991-02-19 | Itt Corporation | Automatic speech recognition system using seed templates |
US5125022A (en) * | 1990-05-15 | 1992-06-23 | Vcs Industries, Inc. | Method for recognizing alphanumeric strings spoken over a telephone network |
US5748843A (en) * | 1991-09-20 | 1998-05-05 | Clemson University | Apparatus and method for voice controlled apparel manufacture |
US5502774A (en) * | 1992-06-09 | 1996-03-26 | International Business Machines Corporation | Automatic recognition of a consistent message using multiple complimentary sources of information |
CA2105034C (en) * | 1992-10-09 | 1997-12-30 | Biing-Hwang Juang | Speaker verification with cohort normalized scoring |
US5717743A (en) * | 1992-12-16 | 1998-02-10 | Texas Instruments Incorporated | Transparent telephone access system using voice authorization |
TW323364B (zh) * | 1993-11-24 | 1997-12-21 | At & T Corp | |
US5583933A (en) * | 1994-08-05 | 1996-12-10 | Mark; Andrew R. | Method and apparatus for the secure communication of data |
KR100383352B1 (ko) * | 1994-10-25 | 2003-10-17 | 브리티쉬 텔리커뮤니케이션즈 파블릭 리미티드 캄퍼니 | 음성작동서비스 |
US5640490A (en) * | 1994-11-14 | 1997-06-17 | Fonix Corporation | User independent, real-time speech recognition system and method |
US5710864A (en) * | 1994-12-29 | 1998-01-20 | Lucent Technologies Inc. | Systems, methods and articles of manufacture for improving recognition confidence in hypothesized keywords |
US5749066A (en) * | 1995-04-24 | 1998-05-05 | Ericsson Messaging Systems Inc. | Method and apparatus for developing a neural network for phoneme recognition |
US5684925A (en) * | 1995-09-08 | 1997-11-04 | Matsushita Electric Industrial Co., Ltd. | Speech representation by feature-based word prototypes comprising phoneme targets having reliable high similarity |
US6073101A (en) * | 1996-02-02 | 2000-06-06 | International Business Machines Corporation | Text independent speaker recognition for transparent command ambiguity resolution and continuous access control |
US5893902A (en) * | 1996-02-15 | 1999-04-13 | Intelidata Technologies Corp. | Voice recognition bill payment system with speaker verification and confirmation |
US5719921A (en) * | 1996-02-29 | 1998-02-17 | Nynex Science & Technology | Methods and apparatus for activating telephone services in response to speech |
US6006188A (en) * | 1997-03-19 | 1999-12-21 | Dendrite, Inc. | Speech signal processing for determining psychological or physiological characteristics using a knowledge base |
JP3886024B2 (ja) * | 1997-11-19 | 2007-02-28 | 富士通株式会社 | 音声認識装置及びそれを用いた情報処理装置 |
US6374225B1 (en) * | 1998-10-09 | 2002-04-16 | Enounce, Incorporated | Method and apparatus to prepare listener-interest-filtered works |
US6571210B2 (en) * | 1998-11-13 | 2003-05-27 | Microsoft Corporation | Confidence measure system using a near-miss pattern |
US6424946B1 (en) * | 1999-04-09 | 2002-07-23 | International Business Machines Corporation | Methods and apparatus for unknown speaker labeling using concurrent speech recognition, segmentation, classification and clustering |
US6304844B1 (en) * | 2000-03-30 | 2001-10-16 | Verbaltek, Inc. | Spelling speech recognition apparatus and method for communications |
US20030023435A1 (en) * | 2000-07-13 | 2003-01-30 | Josephson Daryl Craig | Interfacing apparatus and methods |
US7177808B2 (en) * | 2000-11-29 | 2007-02-13 | The United States Of America As Represented By The Secretary Of The Air Force | Method for improving speaker identification by determining usable speech |
US6944594B2 (en) * | 2001-05-30 | 2005-09-13 | Bellsouth Intellectual Property Corporation | Multi-context conversational environment system and method |
US20020184019A1 (en) * | 2001-05-31 | 2002-12-05 | International Business Machines Corporation | Method of using empirical substitution data in speech recognition |
WO2004023455A2 (en) * | 2002-09-06 | 2004-03-18 | Voice Signal Technologies, Inc. | Methods, systems, and programming for performing speech recognition |
US7013276B2 (en) * | 2001-10-05 | 2006-03-14 | Comverse, Inc. | Method of assessing degree of acoustic confusability, and system therefor |
US7054811B2 (en) * | 2002-11-06 | 2006-05-30 | Cellmax Systems Ltd. | Method and system for verifying and enabling user access based on voice parameters |
US7103542B2 (en) * | 2001-12-14 | 2006-09-05 | Ben Franklin Patent Holding Llc | Automatically improving a voice recognition system |
US6996526B2 (en) * | 2002-01-02 | 2006-02-07 | International Business Machines Corporation | Method and apparatus for transcribing speech when a plurality of speakers are participating |
CN1453767A (zh) * | 2002-04-26 | 2003-11-05 | 日本先锋公司 | 语音识别装置以及语音识别方法 |
WO2004003887A2 (en) * | 2002-06-28 | 2004-01-08 | Conceptual Speech, Llc | Multi-phoneme streamer and knowledge representation speech recognition system and method |
AU2003246956A1 (en) * | 2002-07-29 | 2004-02-16 | British Telecommunications Public Limited Company | Improvements in or relating to information provision for call centres |
US6772119B2 (en) * | 2002-12-10 | 2004-08-03 | International Business Machines Corporation | Computationally efficient method and apparatus for speaker recognition |
US7852993B2 (en) * | 2003-08-11 | 2010-12-14 | Microsoft Corporation | Speech recognition enhanced caller identification |
US7231019B2 (en) * | 2004-02-12 | 2007-06-12 | Microsoft Corporation | Automatic identification of telephone callers based on voice characteristics |
JP2005321530A (ja) * | 2004-05-07 | 2005-11-17 | Sony Corp | 発話識別装置および発話識別方法 |
US20070088553A1 (en) * | 2004-05-27 | 2007-04-19 | Johnson Richard G | Synthesized interoperable communications |
JP2005338610A (ja) * | 2004-05-28 | 2005-12-08 | Toshiba Tec Corp | 情報入力装置および情報蓄積処理装置 |
WO2005122144A1 (ja) * | 2004-06-10 | 2005-12-22 | Matsushita Electric Industrial Co., Ltd. | 音声認識装置、音声認識方法、及びプログラム |
US7720012B1 (en) * | 2004-07-09 | 2010-05-18 | Arrowhead Center, Inc. | Speaker identification in the presence of packet losses |
US7308443B1 (en) * | 2004-12-23 | 2007-12-11 | Ricoh Company, Ltd. | Techniques for video retrieval based on HMM similarity |
US7949533B2 (en) * | 2005-02-04 | 2011-05-24 | Vococollect, Inc. | Methods and systems for assessing and improving the performance of a speech recognition system |
US7827032B2 (en) * | 2005-02-04 | 2010-11-02 | Vocollect, Inc. | Methods and systems for adapting a model for a speech recognition system |
US20060215824A1 (en) * | 2005-03-28 | 2006-09-28 | David Mitby | System and method for handling a voice prompted conversation |
US7386105B2 (en) * | 2005-05-27 | 2008-06-10 | Nice Systems Ltd | Method and apparatus for fraud detection |
CN100440315C (zh) * | 2005-10-31 | 2008-12-03 | 浙江大学 | 基于倒谱特征线性情感补偿的说话人识别方法 |
CN1963917A (zh) * | 2005-11-11 | 2007-05-16 | 株式会社东芝 | 评价语音的分辨力、说话人认证的注册和验证方法及装置 |
US7852792B2 (en) * | 2006-09-19 | 2010-12-14 | Alcatel-Lucent Usa Inc. | Packet based echo cancellation and suppression |
US7890326B2 (en) * | 2006-10-13 | 2011-02-15 | Google Inc. | Business listing search |
US20090240499A1 (en) * | 2008-03-19 | 2009-09-24 | Zohar Dvir | Large vocabulary quick learning speech recognition system |
-
2008
- 2008-03-27 JP JP2008084569A patent/JP5024154B2/ja not_active Expired - Fee Related
- 2008-12-29 US US12/318,429 patent/US20090248412A1/en not_active Abandoned
- 2008-12-30 CN CN200810190522.7A patent/CN101547261B/zh not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1270361A (zh) * | 1999-04-09 | 2000-10-18 | 国际商业机器公司 | 使用内容和扬声器信息进行音频信息检索的方法和装置 |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104252464A (zh) * | 2013-06-26 | 2014-12-31 | 联想(北京)有限公司 | 信息处理方法和装置 |
CN104252464B (zh) * | 2013-06-26 | 2018-08-31 | 联想(北京)有限公司 | 信息处理方法和装置 |
CN105745679B (zh) * | 2013-07-26 | 2020-01-14 | 格林伊登美国控股有限责任公司 | 用于发现和探索概念的系统和方法 |
CN105745679A (zh) * | 2013-07-26 | 2016-07-06 | 格林伊登美国控股有限责任公司 | 用于发现和探索概念的系统和方法 |
CN107210040A (zh) * | 2015-02-11 | 2017-09-26 | 三星电子株式会社 | 语音功能的操作方法和支持该方法的电子设备 |
US10733978B2 (en) | 2015-02-11 | 2020-08-04 | Samsung Electronics Co., Ltd. | Operating method for voice function and electronic device supporting the same |
CN107943850A (zh) * | 2017-11-06 | 2018-04-20 | 齐鲁工业大学 | 数据关联方法、系统及计算机可读存储介质 |
CN108091323B (zh) * | 2017-12-19 | 2020-10-13 | 想象科技(北京)有限公司 | 用于自语音中识别情感的方法与装置 |
CN108091323A (zh) * | 2017-12-19 | 2018-05-29 | 想象科技(北京)有限公司 | 用于自语音中识别情感的方法与装置 |
CN111816184A (zh) * | 2019-04-12 | 2020-10-23 | 松下电器(美国)知识产权公司 | 讲话人识别方法、识别装置以及记录介质、数据库生成方法、生成装置以及记录介质 |
CN111816184B (zh) * | 2019-04-12 | 2024-02-23 | 松下电器(美国)知识产权公司 | 讲话人识别方法、识别装置以及记录介质 |
CN110501918A (zh) * | 2019-09-10 | 2019-11-26 | 百度在线网络技术(北京)有限公司 | 智能家电控制方法、装置、电子设备和存储介质 |
CN110501918B (zh) * | 2019-09-10 | 2022-10-11 | 百度在线网络技术(北京)有限公司 | 智能家电控制方法、装置、电子设备和存储介质 |
CN112992137A (zh) * | 2021-01-29 | 2021-06-18 | 青岛海尔科技有限公司 | 语音交互方法和装置、存储介质及电子装置 |
Also Published As
Publication number | Publication date |
---|---|
JP5024154B2 (ja) | 2012-09-12 |
CN101547261B (zh) | 2013-06-05 |
US20090248412A1 (en) | 2009-10-01 |
JP2009237353A (ja) | 2009-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101547261B (zh) | 关联赋予装置、关联赋予方法 | |
CN101346758B (zh) | 感情识别装置 | |
CN106782607B (zh) | 确定热词适合度 | |
US9672825B2 (en) | Speech analytics system and methodology with accurate statistics | |
US10432789B2 (en) | Classification of transcripts by sentiment | |
JP4568371B2 (ja) | 少なくとも2つのイベント・クラス間を区別するためのコンピュータ化された方法及びコンピュータ・プログラム | |
US7716048B2 (en) | Method and apparatus for segmentation of audio interactions | |
US7487094B1 (en) | System and method of call classification with context modeling based on composite words | |
CN102623011B (zh) | 信息处理装置、信息处理方法及信息处理系统 | |
JP4745094B2 (ja) | クラスタリングシステム、クラスタリング方法、クラスタリングプログラムおよびクラスタリングシステムを用いた属性推定システム | |
US20100070276A1 (en) | Method and apparatus for interaction or discourse analytics | |
US11132993B1 (en) | Detecting non-verbal, audible communication conveying meaning | |
JP6121842B2 (ja) | 音声認識システムのパフォーマンスを評価および改善するための方法およびシステム | |
Mairesse et al. | Can prosody inform sentiment analysis? experiments on short spoken reviews | |
JP4914295B2 (ja) | 力み音声検出装置 | |
Grewal et al. | Isolated word recognition system for English language | |
JP2014123813A (ja) | オペレータ対顧客会話自動採点装置およびその動作方法 | |
KR102407055B1 (ko) | 음성인식 후 자연어 처리를 통한 대화 품질지수 측정장치 및 그 방법 | |
JP6183147B2 (ja) | 情報処理装置、プログラム、及び方法 | |
JP4408665B2 (ja) | 音声認識用発話データ収集装置、音声認識用発話データ収集方法、及びコンピュータプログラム | |
Valenta et al. | Inter-annotator agreement on spontaneous Czech language: Limits of automatic speech recognition accuracy | |
Jin et al. | Speech emotion recognition based on hyper-prosodic features | |
Sárosi et al. | Automated transcription of conversational Call Center speech–with respect to non-verbal acoustic events | |
McMurtry | Information Retrieval for Call Center Quality Assurance | |
JP2010256765A (ja) | ユーザプロファイル抽出方法、ユーザプロファイル抽出装置及びユーザプロファイル抽出プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20130605 Termination date: 20161230 |