CN114072786A - 说话解析装置、说话解析方法以及程序 - Google Patents
说话解析装置、说话解析方法以及程序 Download PDFInfo
- Publication number
- CN114072786A CN114072786A CN202080048836.2A CN202080048836A CN114072786A CN 114072786 A CN114072786 A CN 114072786A CN 202080048836 A CN202080048836 A CN 202080048836A CN 114072786 A CN114072786 A CN 114072786A
- Authority
- CN
- China
- Prior art keywords
- speech
- data
- likelihood
- period
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3343—Query execution using phonetics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Abstract
将说话者的说话的话题可视化。说话解析装置(1)将第1期间中的说话者的说话的变化可视化,具备:取得部(111),其以时间序列的顺序取得说话者的说话数据;运算部(112),其使用作为确定取得部中取得的说话数据符合各类别的可能性的值的多个第1似然,解析说话的变化;和显示处理部(114),其显示将运算部中得到的说话的变化进行了可视化的可视化数据,运算部将比第1期间短的第2期间中的多个说话数据的第1似然累计并按每个类别求取第2似然,通过显示处理部显示的可视化数据根据不同的多个第2期间中的各类别的第2似然的变化表征说话的变化。
Description
技术领域
本公开涉及将说话者的说话中的话题的变化可视化的说话解析装置、说话解析方法以及程序。
背景技术
通过声音识别技术的进步,能取得说话者的声音数据,对进行过声音识别的内容进行处理。
在专利文献1中记载了如下系统:将参考了呼叫中心等的话务员(才ペレ一タ,operator)的谈话脚本的谈话的内容通过声音识别处理进行文本化,输出谈话脚本的利用频度的信息。在该专利文献1记载的技术中,能解决与话务员的技能相应地在对应记录的品质上存在偏差等问题,能自动制作确保了统一性、简洁性的对应记录。
先行技术文献
专利文献
专利文献1:JP专利第5468474号
发明内容
发明要解决的课题
本公开提供能将说话者的说话中的话题的推移可视化的说话解析装置、说话解析方法以及程序。
用于解决课题的手段
本公开的说话解析装置将第1期间中的说话者的说话的变化可视化,说话解析装置具备:取得部,其以时间序列的顺序取得说话者的说话数据;运算部,其使用作为确定在取得部取得的说话数据符合各类别的可能性的值的多个第1似然,解析说话的变化;和显示处理部,其显示将在运算部得到的说话的变化进行了可视化的可视化数据,运算部将比第1期间短的第2期间中的多个说话数据的第1似然累计,按每个类别求取第2似然,通过显示处理部显示的可视化数据根据不同的多个第2期间中的各类别的第2似然的变化表征说话的变化。
这些概括且特定的方式也可以通过系统、方法以及计算机程序、和它们的组合实现。
发明的效果
根据本公开的说话解析装置、说话解析方法以及程序,能将说话者的说话中的话题的推移可视化。
附图说明
图1是说明本公开的说话解析装置的概要的概略图。
图2是表示本公开的说话解析装置的结构的框图。
图3是说明图2的说话解析装置中利用的说话数据的数据结构图。
图4是表征图2的说话解析装置中利用的类别似然的图表。
图5A是说明在图2的说话解析装置中利用于累计似然的运算的新鲜度权重值的图。
图5B是说明在图2的说话解析装置中利用于累计似然的运算的频度权重值的图。
图6是表征是在图2的说话解析装置中得到的话题的概率的图表。
图7是说明在图2的说话解析装置中求取累计似然时利用的对象范围的图。
图8是由图2的说话解析装置作为可视化数据而显示的画面的一例。
图9是说明在图2的说话解析装置中执行的说话解析处理的流程图。
图10是说明图10的解析处理的流程图。
图11是说明图10的解析处理的其他示例的流程图。
图12是在图2的说话解析装置中作为可视化数据而显示的画面的其他示例。
图13是在图2的说话解析装置中作为可视化数据而显示的画面的其他示例。
图14是在图2的说话解析装置中作为可视化数据而显示的画面的其他示例。
图15是在图2的说话解析装置中作为可视化数据而显示的画面的其他示例。
具体实施方式
[成为本公开的基础的见解]
在现有技术中,在对说话者的说话进行解析时,以句子为单位作为处理对象,使用各句中所含的词语来进行解析。另一方面,还有在对某期间的多句构成的说话进行解析的情况下优选以多个句子为对象进行解析的情况。
本公开所涉及的说话解析装置将某期间中的说话者的说话中的话题的推移的变化可视化。具体地,说话解析装置确定某期间的说话中的话题怎样变化,将其可视化。例如在说话者进行说话的情况下,一般其话题随着时间的经过而变化。本公开的说话解析装置能取得说话者的说话,确定说话的话题,此外,将其话题的变化可视化。
[实施方式]
[1-1.结构]
以下适宜参考附图,使用附图来说明本公开中的实施方式。其中,在详细的说明中,有时省略与现有技术以及实质相同的结构相关的说明当中不必要的部分。这是为了使说明简单。此外,以下的说明以及附图是为了公开以使得本领域技术人员能充分理解本公开,并不意在限定专利请求范围的主题。
本公开所涉及的说话解析装置关于某期间中的说话者的说话将话题的推移的变化可视化。例如如图1所示那样,说话解析装置1具有麦克风作为输入装置,取得说话者20对客户21发出的说话数据,将话题的推移的变化可视化,并显示于作为输出装置的显示器等。由此,例如即使是在说话者20的说话时未同席的利用者22,也能通过看可视化的信息来评价说话者20的说话。在以下的说明中,说话者20是销售定制住宅的住宅制造商(在以下的说明中,按照需要设为“XYZ家居公司”或“XYZ家居”)的一员。此外,说话者20的说话包含对客户21关于本公司的定制住宅的说明、关于定制住宅的销售以及购入等所需的说明。另外,图1所示的示例是一例,具体后述,但也可以不一定非要在说话者20和客户21进行会话的场面设置说话解析装置1。此外,利用者22也能利用网络从外部访问说话解析装置1。
在本说明中,“说话”是说话者20进行说的行为以及通过进行说而产生的声音。“说话数据”是说话者20通过进行说而产生的声音数据。此外,“说话数据”可以是通过声音识别对说话者20进行说而产生的声音数据进行了文本化的文本数据。进而,“说话数据”可以是包含“声音数据”和“文本数据”的数据。
将“话题”说明为是说话者20的说话的内容。此外,将“话题的类别”或“类别”说明为是确定说话者20的话题的分类。关于具体例之后叙述,但在说话解析装置1中,说话者20的说话的话题确定是预先设定的多个话题的类别当中哪个类别。
所谓“似然”,是似然函数中利用的作为表征合理性的数值而利用的似然。将该似然作为表征对象的说话符合各话题的类别的合理性的数值来利用。
在以下的说明中,如图1所示那样,将进行说话的人设为“说话者20”,将与说话者20进行对话的人设为“客户21”。此外,将利用说话解析装置1中关于说话者20的说话将话题的推移可视化的数据的人设为“利用者22”。另外,利用者22可以是说话者20,也可以是说话者20以外的人。为了确认自身的过去的说话,说话者20自身能成为利用者22。此外,为了评价说话者20的工作,说话者20的上司也能成为利用者22。此外,为了参考说话者20的说话方法,说话者20的同事、部下也能成为利用者22。
如图2所示那样,说话解析装置1例如具备控制部11、存储部12、输入部13、输出部14和通信部15,这些是用总线16连接的信息处理装置。
控制部11是掌管说话解析装置1整体的控制的控制器。例如,控制部11通过将存储于存储部12的程序P读出并执行,来实现作为取得部111、运算部112、生成部113以及显示处理部114的处理。此外,控制部11并不限定于通过硬件与软件的共同工作来实现给定的功能,也可以是实现给定的功能的专用设计的硬件电路。即,控制部11能通过CPU、MPU、GPU、FPGA、DSP、ASIC等各种处理器实现。
存储部12是存储各种信息的存储介质。存储部12例如以RAM、ROM、闪速存储器、SSD(Solid State Device,固态装置)、硬盘、其他存储设备或将它们适宜组合来实现。在存储部12中,除了存放控制部11所执行的程序P以外,还存放识别信息中使用的信息、为了识别信息赋予而取得的各种信息等。例如存储部12存储说话数据121、变化数据122以及程序P。
输入部13是在操作、数据的输入中利用的操作按钮、键盘、鼠标、触控面板、麦克风等输入单元。输出部14是在处理结果、数据的输出中利用的显示器、扬声器等输出单元。说话解析装置1用作为输入部13的麦克风取得说话数据,在控制部11中从所取得的说话数据生成可视化数据,将所得到的可视化数据输出到作为输出部14的显示器等。
通信部15是用于能进行与外部的装置(未图示)的数据通信的接口电路(模块)。
在此,说话解析装置1可以通过1台计算机实现,也可以通过经由网络连接的多台计算机的组合实现。此外,例如,也可以构成为将存储于存储部12的全部或一部分数据存储到经由网络40连接的外部的存储介质,说话解析装置1使用存储于外部的存储介质的数据。具体地,也可以将说话数据121、变化数据122存储到外部的存储介质。
取得部111例如在说话者20进行说话时,经由作为输入部13的麦克风取得说话者20的说话数据。此外,取得部111将所取得的说话者20的说话数据按照所取得的时间序列的顺序附注编号,作为说话数据121存储到存储部12。
说话解析装置1由于将说话者20的说话可视化,因此能至少取得说话者20的说话数据即可,在此,并没有提及关于客户21的说话数据的取得以及可视化。
运算部112求取确定各说话数据121的话题符合给定的类别的可能性的值即似然。此外,运算部112将各类别的似然与说话数据121建立关联来存储。以下,将与各类别相关的“似然”按照需要作为“类别似然”来进行说明。
这时,说话数据121能和声音数据一起或者取代声音数据包含将各说话数据121的声音数据通过声音识别处理而文本化的文本数据。在该情况下,声音识别处理可以在说话解析装置1内执行,也可以在外部的装置执行。
如图3所示的一例那样,说话数据121是将对每个说话数据121按时间序列的顺序赋予的识别信息即“编号”、从该期间的声音数据生成的“文本数据”和对于该期间的说话数据得到的各类别的“类别似然”建立关联的数据。
在图3所示的示例中,说话数据121包含对于“XYZ家居”、“房间布局”、“经费”以及“其他”的各类别得到的类别似然。“房间布局”是话题与家的房间布局相关的类别。“XYZ家居”是话题与XYZ家居公司相关的情况的类别。“经费”是话题与资金相关的类别。“其他”是话题不包括在“XYZ家居”、“房间布局”或“经费”的任意者的情况的类别。
另外,在此,为了说明的容易化,使用“XYZ家居”、“房间布局”、“经费”以及“其他”的4个类别进行说明,但在说话解析装置1设为处理的对象的类别的数量并没有限定。此外,说明中使用的类别也是单纯的例示,并没有限定,能对应于说话的话题自由设定。
图4是表征在运算部112中关于多个说话数据121对于预先设定的多个话题的类别求得的类别似然的图表的一例。运算部112能使用事先学习过的种类分类模型来求取各似然。具体地,种类分类的种类相当于这里说明的话题的类别。在图4中,横轴是对说话数据121附注的“编号”,表示说话数据的122的时间序列。此外,纵轴是表示在运算部112得到的“类别似然”。
在图4所示那样的每个说话数据121的类别的过渡中,其变化细致,难以确定作为整体的话题的流程。为此,运算部112在比每个说话数据121大的范围内确定类别,能易于掌握话题的转移。
运算部112使用求得的类别似然来确定话题的类别。在此,运算部112在确定给定时刻t的话题的类别时,使用即将到给定时刻t之前且比说话解析装置1中的说话者20的说话的变化的可视化的对象即第1期间T1短的第2期间T2的多个说话数据121的似然,来求取对于第2期间T2的说话确定符合给定的类别的可能性的第2似然,作为变化数据122存储到存储部12,来确定第2期间T2的话题的类别。另外,以下,根据需要,将“第1期间”设为“说话期间”,将“第2期间”设为“时间窗口”,将“第2似然”设为“累计似然”来进行说明。“时间窗口”能通过说话数据121的数量、经过时间来进行设定。
在图4中,说话期间T1是相当于说话数据121的总数的277个的期间,时间窗口T2是相当于说话数据121的数量的50个的期间的一例。例如,为了确定编号“89”的时间点处的话题的类别,使用相当于时间窗口T2的编号“40”~“89”的期间的说话数据121的类别似然。
具体地,运算部112对于各类别设定时间窗口T2作为对象范围,对于针对该对象范围中所含的各说话数据121得到的各个类别求取累计似然。此外,运算部112能将对于各类别得到的累计似然当中值最大的类别确定为某说话编号时间点的话题的类别。
此外,运算部112能使用对应于话题的新鲜度设定的“新鲜度权重值w1”来求取累计似然。具体地,如图5A所示那样,新鲜度权重值w1是使以给定时刻t为基准新的说话数据121的类别似然的权重(图5A中的“w11”)比旧的说话数据121的类别似然的权重(图5A中的“w12”)大的值。例如,在某期间的对象范围中,对于更加新的说话,是该期间的话题的类别或者话题在推移的可能性高,对于旧的说话,是该期间的话题的类别的可能性低。因此,在运算部112中,通过将新鲜度权重值w1利用在该对象期间的话题的确定中,能提升话题的确定的精度。具体地,假设在作为时间窗口T2而设定了第40个到第89个说话数据121的50个的情况下,根据第80个说话数据到第89个说话数据确定的类别似然与根据第40个说话数据到第49个说话数据121确定的类别似然相比,权重设定得大。或者,在作为时间窗口T2而设定“5分钟”的情况下,根据从给定时刻t的1分钟前到给定时刻t的说话数据121确定的类别似然与根据给定时刻t的5分钟前到给定时刻的4分钟前的说话数据121确定的类别似然相比,权重设定得大。
进而,运算部112能对应于话题的频度设定的“频度权重值w2”求取累计似然。具体地,频度权重值w2是对于对象范围中所含的说话数据121的类别似然最高的类别的出现频度如图5B所示那样将出现频度高的类别的类别似然的权重(图5B中的“w21”)设定得比出现频度低的类别的似然的权重(图5B中的“w22”)大的值。例如,对于在时间窗口T2的范围内多次出现的类别,是该期间的话题的类别的可能性高,另一方面,对于不太出现的类别,是该期间的话题的类别的可能性低。因此,在运算部112中,通过将频度权重值w2利用在该对象期间的话题的确定中,能使话题的确定的精度提升。具体地,假设在时间窗口T2中包含50个说话数据121时,出现20次的话题的似然与仅出现2次的话题的似然相比权重设定得高,类别似然变大。运算部112如上述那样算出时间窗口T2的范围内的各类别的出现频度(图5B中的“w21”、“w22”)。
例如,运算部112能通过以下的式(1)对每个类别求取累计似然Lc2。
Lc2(i)=∑(Lc(j)×w1)×w2 (1)
在此,式(1)中使用的各值分别如以下那样规定。
c:确定类别的编号
i:确定对象范围的编号
Lc2(i):第i个对象范围的累计似然
j:在对象范围中对各说话数据121附注的编号
Lc(j):在对象范围中第j个说话数据121的类别似然
w1:新鲜度权重值
w2:频度权重值
另外,式(1)是从j=1到j=q的总和。
运算部112能对所得到的各类别的累计似然Lc2实施归一化。此外,运算部112能将被归一化的数据也追加到存储部12的变化数据122。由此,作为某说话的编号的各类别是话题的概率,也能如图6所示那样表征。运算部112例如能在归一化中利用以softmax求取概率的方法。通过使用这样得到的概率Pc(i)在各说话的编号中对各类别描绘其概率值,能如图6所示那样,得到表征话题的转移的图表。由此,能如实际的会话中的话题的转移那样,作为流畅的转移将话题的过渡状态视觉化。
假设在从说话期间T1的开始到给定时刻t为止的期间t1不满足时间窗口T2的情况下(t1<T2的情况下),运算部112将包含从说话期间T1的开始到给定时刻t为止的说话数据121在内的范围设定为对象范围,以该对象范围的说话数据121的类别似然同样地运算累计似然。使用图7所示的示例,来说明将相当于说话数据121的数量“50”的期间作为时间窗口T2、将编号为“39”的时间点设为给定时刻的情况的一例。在该情况下,从说话期间T1的开始到给定时刻t为止的期间t1是比时间窗口T2短的相当于说话数据121的数量“40”的期间。在这样的情况下,例如,使用从说话期间T1的开始到给定时刻t为止的似然来求取累计似然。也可以在期间t1不满足时间窗口T2的情况下(t1<T2的情况下),进行加权以使得似然的累计值变小。
生成部113使用运算部112所得到的特定结果来生成将与说话数据121相关的话题的变化可视化的可视化数据。在此,生成部113能生成将多个时间窗口T2的话题的变化可视化的可视化数据。此外,生成部113也可以生成包含将各分类的累计似然进行时间序列显示的图表的可视化数据。具体地,生成显示在图8中示出一例那样的显示画面W1的可视化数据。图8所示的一例的显示画面W1包含:显示表征累计似然的变化的图表的显示部B11;和显示从显示部B11中显示的图表得到的时间序列变化的显示部B12。通过图8所示的显示画面W1,利用者22看一眼可知,说话者20的话按照“房间布局”、“经费”、“其他”、“XYZ家居”、“经费”的顺序变化。
[1-2.动作]
使用图9以及图10所示的流程图来说明说话解析装置1中的说话数据的说话解析处理。如图9所示那样,在说话解析装置1中,例如在说话者20进行说话的定时,取得部111经由作为输入部13的麦克风取得说话数据,与对时间序列赋予的编号一起作为说话数据121存储到存储部12(S1)。
此外,运算部112对于在步骤S1存储的各说话数据121按每个类别运算类别似然,使其与说话数据121建立关联并存储到存储部12(S2)。
之后,运算部112使用在步骤S2运算的各似然并使用各说话数据121中所含的类别似然来执行解析话题的类别的解析处理(S3)。
使用图10所示的流程图来说明步骤S3的解析处理中的具体的处理的流程。如图10所示那样,在解析处理中,运算部112选择处理对象的类别(S11)。例如,对于“XYZ家居”、“房间布局”、“经费”以及“其他”各个类别依次进行选择,对于各类别重复以后的处理。
首先,运算部112为了对于在步骤S11选择的类别确定以累计似然为算出对象的对象范围,将i的值初始化为0(S12)。i是确定对说话数据121附注的编号的值,通过将i初始化,对于所选择的类别从说话数据121的第0个起依次设定对象范围。此外,以下将对象范围中所含的说话数据121的数量设为“q”。
此外,运算部112将Lc(-1)的值设定为0(S13)。Lc(i)是对于在S11选择的类别根据第i个说话数据121求得的似然,由于不存在第“-1”个说话数据121,因此也不存在Lc(-1),但由于有在步骤S17的处理中使用的可能性,因此在此设定为“0”。
接下来,运算部112对应于i的值来设定用于运算累计似然的对象范围(S14)。这时,运算部112从编号“i”的说话数据121起依次以对象范围设定新的自“1”起的编号“j”。如图4中上述的那样,在将50个说话数据121设为时间窗口T2的示例中,“j”利用1~50为止的编号。在该情况下,对象范围的数量q是“50”。
具体地,在图4中上述的示例中,在i为“0”时,由于将0号的说话数据121设为给定时刻t来运算累计似然,因此运算部112将0号的说话数据121设为对象范围。在该情况下,对于j,对于i为“0”的说话数据121,j成为“1”。此外,对象范围的数量q是“1”。
此外,如图4中上述的那样,在i为“89”时,运算部112将第40~89个说话数据121设为对象范围。在该情况下,对于j,分别设定为i为“40”而j成为“1”,i为“89”而j成为“50”。
进而,图7中如上述那样,在期间t1不满足时间窗口T2的情况下(t1<T2的情况下),假设i为“39”时,由于将39号的说话数据121作为给定时刻t来运算累计似然,因此,运算部112将0~39号的说话数据121设为对象范围。在该情况下,也是对于j,i为“0”而j成为“1”。此外,对象范围的数量是“40”。
之后,运算部112由于关于在步骤S14设定的对象范围算出累计似然,因此将j的值初始化为1,将暂时累计似然Sc的值初始化为0(S15)。j如上述那样,是在对象范围中确定说话数据121的值。通过将j初始化,能将对象范围中所含的各说话数据121的似然Lc(j)相加来求取累计似然Lc2(i)。此外,暂时累计似然Sc是在对象范围内求取累计似然Lc2(i)的计算经过中利用的值。
接着,运算部112根据在步骤S14设定的对象范围的各说话数据121的类别似然Lc,来判定以最大似然估计决定的类别是否是“其他”(S16)。具体地,运算部112判定该对象范围的各类别的类别似然当中值最高的类别是否是“其他”。
在以最大似然估计决定的类别是“其他”时(S16“是”),运算部112关于所选择的类别,将以编号“i-1”的说话数据121管理的对象范围的累计似然Lc2(i-1)采用为以编号“i”的说话数据121管理的对象范围的累计似然Lc2(i)(S17)。另外,假设在i为“0”时,使用在步骤S13设定为L(-1)的“0”。
另一方面,在最大似然估计中决定的类别不是“其他”时(S16“否”),运算部112在暂时累计似然Sc上加上以新鲜度权重值w1对编号“j”的说话数据121的类别似然Lc(j)进行了加权而得到的值(Lc(j)×w1),将所得到的值作为新的暂时累计似然Sc(S18)。例如新鲜度权重值w1可以由j/q计算。
若求得新的暂时累计似然Sc,运算部112就将j的值递增(S19)。之后,运算部112判定是否是j≤q(S20)。
在j≤q时(S20“是”),由于未对对象范围中所含的全部说话数据121结束处理,因此运算部112返回步骤S18的处理,重复步骤S18~S20的处理。
另一方面,在不是j≤q时(S20“否”),由于对对象范围中所含的全部说话数据121结束了处理,因此运算部112在对象范围内求取对象的类别的最大似然话题类别频度Nc(S21)。在此,所谓最大似然话题类别频度Nc,是指在对象范围的各说话数据121中在步骤S11作为处理的对象而选择的类别的似然成为最高的值的次数。例如,在关于“房间布局”进行处理时,在对象范围中类别似然Lc(j)成为最高的说话数据121的数量为“20”时,最大似然话题类别频度Nc成为“20”。
之后,运算部112将对暂时累计似然Sc以频度权重值w2进行了加权而得到的值(Sc×w2)作为对象范围的累计似然Lc2(i)(S22)。例如,频度权重值w2可以通过Nc/q进行计算。
运算部112若求得累计似然L2c(i),就通过归一化求取与对象范围相关的所选择的类别的概率Pc(i)(S23)。
若得到概率Pc(i),运算部112就将i的值递增(S24)。由此,将i的值设定为用于确定接下来的对象范围的值。
接着,运算部112判定是否是结束定时(S25)。所谓结束的定时,是对于全部范围进行了处理的情况,例如在图4所示的类别似然的示例中,对于一系列说话数据121,是到时间序列中最后的编号“276”的说话数据121为止结束了处理的情况。
在不是结束定时时(S25“否”),由于未对说话期间T1的全部说话数据121结束处理,因此运算部112返回到步骤S14的处理,重复步骤S14~S25的处理。
另一方面,在是结束定时时(S25“否”),由于对说话期间T1的全部说话数据121结束了处理,因此判定是否对全部类别判定结束了步骤S12~S25的处理(S26)。
在未对全部类别结束了处理的情况下(S26“否”),运算部112返回步骤S11,选择其他的类别,直到对全部类别结束为止,都重复步骤S11~S25的处理。例如,若“XYZ家居”的类别结束,就选择“房间布局”,之后选择“经费”,最后选择“其他”,重复同样的处理。
此外,在对全部类别结束了步骤S11~S25的处理的情况下(S26“是”),运算部112对于在步骤S14设定的全部对象范围,使用累计似然Lc2(i),通过最大似然估计来确定话题的类别(S27)。此外,若确定了类别(S27),运算部112就能算出各类别的累计似然Lc2、概率Pc(i),因此结束解析处理(图9的步骤S3)。
如图9所示那样,生成部113在步骤S3的处理中对各类别生成可视化数据(S4)。
此外,显示处理部114将在步骤S4生成的可视化数据输出到显示器等输出部14(S5)。
[1-3.效果等]
在说话解析装置1中,能如此地使说话者20的说话可视化。由此,能容易地实现对于说话者20的说话的评价。此外,其他说话者能容易地参考作为其他人的说话者20的说话。
如以上那样,作为在本申请中公开的技术的示例示,说明了上述实施方式。但本公开中的技术并不限定于此,还能适用于进行了适宜、变更、置换、附加、省略等的实施方式中。
(其他实施方式)
在上述的实施方式中,以取得部111在说话者20进行说话的定时取得说话数据的一例进行了说明,但并不限定于此。例如,取得部111从录音装置取得IC录音机等的外部的声音数据,在之后的定时取得、使用在说话者20的说话的定时录音完毕的说话数据。此外,取得部111也可以取得、使用聊天那样以文本文章输入的说话句子。
在上述的实施方式中,以在说话解析装置1内的运算部112中运算“类别似然”的一例进行了说明,但并不限定于此。具体地,说话解析装置1也可以取得、利用在外部的运算装置运算得到的类别似然。
说话解析装置1可以具备接受由利用者22指定的期间的接受部。在该情况下,例如运算部112能作为接受部经由输入部13或通信部15接受期间,将由利用者22指定的期间作为时间窗口T2来运算累计似然。具体地,说话者20或作为对说话者20的说话进行解析等的第三者的利用者22能对应于设为对象的说话自由地设定时间窗口T2。在说话中某类别的话题较长地持续的情况下,根据设定为时间窗口T2的期间的长度,变得难以检测话题的变化。因此,如此地,通过设定合适的时间窗口T2,能使话题的变化的检测精度提升。
在上述的实施方式中,对以下的方法进行了说明,即如图10所示那样,先在步骤S11选择对象的类别,对所选择的每个类别在步骤S14设定对象范围,求取依次设定的各对象范围的累计似然,但并不限定于此。具体地,结果能对各范围求取全部类别的累计似然即可。例如,也可以是以下的方法,即如图11所示那样,先在步骤S14设定对象范围,在该对象范围中,在步骤S111依次选择类别,求取各类别的累计似然。在该情况下,如图11所示那样,运算部112若在步骤S23求得Pc(i),就对全部类别判定步骤S15~S23的处理是否结束(S127)。
生成部113使用存储于存储部12的多个说话者20的说话数据121来生成比较数据,该比较数据对根据第1说话者20的说话数据121生成的可视化数据和根据与第1说话者20不同的第2说话者的说话数据121生成的可视化数据进行了比较。图12是包含显示第1说话者20的说话数据121的可视化数据的显示部B21和显示第2说话者的说话数据121的可视化数据的显示部B22的显示画面W2的一例。如图12所示那样,由于将二人量的可视化数据能比较地显示在显示画面W2,不用以声音或以脚本化数据确认二人量的长时间的说话数据,利用者22看一眼就能比较各说话者的话题。通过将二人量的可视化数据并列显示,利用者22能易于比较怎样的说明的方法、具体是话的流程是有效果的。这时,也可以如图13所示那样,生成部113也可生成使包含显示分析结果的显示部B23在内的显示画面W3显示的可视化数据。
生成部113可以生成说话数据当中包含给定的说法等的文本在内的可视化数据。图14是显示画面W5的一例,该显示画面W5包含显示表征从说话者的说话数据121得到的累计似然的变化的图表的显示部B41、显示从“房间布局”的类别的话题提取的说法的显示部B42和显示从“经费”的类别的话题提取出的说法的显示部B43。例如,通过从声音数据、将声音数据文本化的数据提取该类别中与其他说话数据比较似然高的说话数据或似然比给定值高的说话数据、包含特定的词语的文章,来生成显示部B42、显示部B43中所含的说法的文本数据。如图14所示那样,在显示画面中,由于显示多个说法,因此,例如利用者22能以作为其他人的说话者20的可视化数据为参考,来研讨自身今后使用该说话者20所使用的说法的说法。例如,通过对于不知道说明的方式的事态模仿作为其他人的说话者20的说法,能易于理解地对客户21进行说明。
生成部113也可以将说话数据121被文本化的数据按从该说话数据121得到的似然的降序排列,生成包含似然高的数据当中给定数(例如10)的可视化数据。图15是显示画面W5的一例,其中该显示画面W5包含显示表征从说话者20的说话数据121得到的累计似然的变化的图表的显示部B51、按照与某类别相关的似然的从高到低的顺序显示说话数据121的文本的显示部B62、和显示各文本的似然的显示部B53。在显示部B52显示的文本以及在显示部B53显示的似然通过利用者切换希望显示的类别的选择来变更。因此,利用者能对于希望的类别确认似然高的说话数据121。在此,生成部113可以生成对于预先设定为关键词的词语,通过与其他字符相比改变字体、字符大小、色等来强调显示的可视化数据。由此,利用者22通过模仿作为其他人的说话者20的说法,能易于理解地对客户进行说明。
《实施方式的概要》
(1)本公开的说话解析装置将第1期间中的说话者的说话的变化可视化,说话解析装置具备:取得部,其以时间序列的顺序取得说话者的说话数据;运算部,其使用作为确定取得部中取得的说话数据是符合各类别的可能性的值的多个第1似然,解析说话的变化;显示处理部,其显示将运算部中得到的说话的变化进行了可视化的可视化数据,运算部将比第1期间短的第2期间中的多个说话数据的第1似然进行累计并按每个类别求取第2似然,通过显示处理部显示的可视化数据根据不同的多个第2期间中的各类别的第2似然的变化表征说话的变化。
由此,能使说话者的说话的话题的推移可视化。因此,利用者能使用进行了可视化的信息,来评价说话者的说话,或者使说话者的说话成为自身的今后的说话的参考。
(2)也可以为(1)的运算部根据将在即将到给定时刻之前的第2期间取得的多个说话数据的第1以然累计而求得的各类别的第2似然确定该给定时刻的类别,分别确定在时间序列上连续得到的多个给定时刻的类别,使显示处理部显示的可视化数据是将时间序列上的多个给定时刻的类别间的变化作为话题的变化进行了可视化的数据。
由此,能不考虑短期的说话数据,而是考虑之前的给定期间的说话数据,能将话题的推移表征为平缓的变化。
(3)也可以为(2)或(2)的运算部按每个类别将从第2期间中所含的说话数据得到的第1似然累计来求取第2似然,将所得到的各类别的第2似然当中值最大的类别确定为第2期间的话题的类别。
由此,能不考虑短期的说话数据,而是考虑之前的给定期间的说话数据,能将话题的推移表征为平缓的变化。
(4)也可以为(3)的运算部使用在第2期间中出现的频度越高则设定为越大的值的第1权重值来求取第2似然。
由此,能考虑给定期间内的频度来确定类别,能考虑一系列说话数据的类别似然的变化,能表征合适的变化。
(5)也可以,(3)或(4)的运算部使用越接近给定时刻则设定为越大的值的第2权重值来求取所述第2似然。
由此,能考虑给定期间内的新鲜度来确定类别,能考虑一系列说话数据的类别似然的变化,能表征合适的变化。
(6)也可以,(2)~(5)的说话解析装置中,在从第1期间的开始到给定时刻的期间不满足第2期间的情况下,运算部使用从第1期间的开始到该给定时刻的期间的说话数据来运算所述第2似然。
由此,对于说话的开始起给定期间的话题的确定,即使是说话数据不足的情况下,也能使用某种程度长的期间的说话数据,能表征合适的变化。
(7)也可以为(1)~(6)的说话解析装置具备接受部,其接受由用户指定的期间,运算部将接受部所接受的期间作为第2期间来求取第2似然。
由此,由于用户能设定第2期间,因此能提供对用户而言最合适的信息。
(8)也可以为(1)~(7)的显示处理部显示的可视化数据包含各类别的第2似然以时间序列表征的图表。
由此,能易于掌握地显示话题的过渡,使利用者容易掌握话题的过渡。
(9)也可以为(1)~(7)的显示处理部显示的可视化数据包含说话数据中所含的说话的文本数据。
由此,能使利用者和话题的过渡一起掌握说话的话题。
(10)也可以为(1)~(7)的显示处理部显示的所述可视化数据是将根据第1说话者的说话数据生成的可视化数据和根据第2说话者的说话数据生成的可视化数据进行了比较的比较数据。
由此,能使利用者易于比较多个说话者的说话的话题。
(11)也可以为(1)~(10)的运算部按每个所述说话数据运算与各类别相关的第1似然。
由此,由于能在说话解析装置内算出第1似然,因此能不依赖于网络的负荷地进行处理。
(12)本公开的可视化方法将第1期间中的说话者的说话的变化可视化,所述可视化方法包括如下步骤:取得部以时间序列的顺序取得说话者的说话数据;运算部使用作为确定所取得的说话数据符合各类别的可能性的值的多个第1似然,解析说话的变化;和显示处理部显示将所得到的说话的变化进行了可视化的可视化数据,运算部将比第1期间短的第2期间中的多个说话数据的第1似然累计来按每个类别求取第2似然,通过显示处理部显示的所述可视化数据按照不同的多个第2期间中的各类别的第2似然的变化来表征说话的变化。
由此,能使说话者的说话的话题的推移可视化。因此,利用者能使用被可视化了的信息评价说话者的说话,或者使说话者的说话成为自身的今后的说话的参考。
(13)本公开的程序使计算机实现(12)的方法。
由此,能使说话者的说话的话题的推移可视化。因此,利用者能使用可视化的信息来评价说话者的说话,或者使说话者的说话成为自身的今后的说话的参考。
本公开的全部权利要求记载的说话解析装置、说话解析方法以及程序通过硬件资源例如处理器、存储器以及与程序的共同工作等实现。
产业上的可利用性
本公开的说话解析装置、可视化方法以及程序在如下情况下是有用的:例如在由通过进行会话来从事营业的人、进行什么讲授的讲师、在呼叫中心等针对询问进行回答的回答者等说话者在某期间进行了说话的情况下,对该说话进行评价、或其他人参考该说话。
附图标记的说明
1 说话解析装置
11 控制部
111 取得部
112 运算部
113 生成部
114 显示处理部
12 存储部
121 说话数据
122 变化数据。
Claims (13)
1.一种说话解析装置,将第1期间中的说话者的说话的变化可视化,所述说话解析装置具备:
取得部,其以时间序列的顺序取得所述说话者的说话数据;
运算部,其使用作为确定所述取得部中取得的说话数据符合各类别的可能性的值的多个第1似然,解析说话的变化;和
显示处理部,其显示将所述运算部中得到的说话的变化进行了可视化的可视化数据,
所述运算部将比所述第1期间短的第2期间中的多个说话数据的第1似然进行累计并按每个类别求取第2似然,
通过所述显示处理部显示的所述可视化数据根据不同的多个第2期间中的各类别的第2似然的变化表征说话的变化。
2.根据权利要求1所述的说话解析装置,其中,
所述运算部,
根据将在即将到给定时刻之前的第2期间取得的多个说话数据的第1似然累计而求得的各类别的第2似然确定该给定时刻的类别,
分别确定在所述时间序列上连续得到的多个给定时刻的类别,
使所述显示处理部显示的可视化数据是将所述时间序列上的多个给定时刻的类别间的变化作为话题的变化进行了可视化的数据。
3.根据权利要求2所述的说话解析装置,其中,
所述运算部,
按每个类别将从所述第2期间中所含的说话数据得到的第1似然累计并求取第2似然,
将所得到的各类别的第2似然当中值最大的类别确定为该第2期间的话题的类别。
4.根据权利要求3所述的说话解析装置,其中,
所述运算部使用在所述第2期间出现的频度越高则设定为越大的值的第1权重值,求取所述第2似然。
5.根据权利要求3或4所述的说话解析装置,其中,
所述运算部使用越接近所述给定时刻则设定为越大的值的第2权重值,求取所述第2似然。
6.根据权利要求2所述的说话解析装置,其中,
在从所述第1期间的开始到所述给定时刻为止的期间不满足所述第2期间的情况下,所述运算部使用从所述第1期间的开始到该给定时刻为止的期间的说话数据,运算所述第2似然。
7.根据权利要求1~6中任一项所述的说话解析装置,其中,
所述说话解析装置具备:
接受部,其接受由用户指定的期间,
所述运算部将所述接受部所接受的期间设为第2期间来求取第2似然。
8.根据权利要求1~7中任一项所述的说话解析装置,其中,
使所述显示处理部显示的所述可视化数据包括以时间序列表征各类别的第2似然的图表。
9.根据权利要求1~7中任一项所述的说话解析装置,其中,
所述显示处理部显示的所述可视化数据包括所述说话数据中所含的说话的文本数据。
10.根据权利要求1~7中任一项所述的说话解析装置,其中,
所述显示处理部显示的所述可视化数据是对根据第1说话者的说话数据生成的可视化数据和根据第2说话者的说话数据生成的可视化数据进行了比较的比较数据。
11.根据权利要求1~10中任一项所述的说话解析装置,其中,
所述运算部按每个所述说话数据运算与各类别相关的第1似然。
12.一种说话解析方法,将第1期间中的说话者的说话的变化可视化,所述说话解析方法包括如下步骤:
取得部以时间序列的顺序取得说话者的说话数据;
运算部使用作为确定所取得的说话数据符合各类别的可能性的值的多个第1似然,解析说话的变化;和
显示处理部显示将所得到的说话的变化进行了可视化的可视化数据,
所述运算部将比所述第1期间短的第2期间中的多个说话数据的第1似然进行累计并按每个类别求取第2似然,
通过所述显示处理部显示的所述可视化数据根据不同的多个第2期间中的各类别的第2似然的变化表征说话的变化。
13.一种程序,使计算机实现权利要求12的方法。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019-125454 | 2019-07-04 | ||
JP2019125454 | 2019-07-04 | ||
JP2019-134559 | 2019-07-22 | ||
JP2019134559 | 2019-07-22 | ||
PCT/JP2020/021809 WO2021002136A1 (ja) | 2019-07-04 | 2020-06-02 | 発話解析装置、発話解析方法及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114072786A true CN114072786A (zh) | 2022-02-18 |
Family
ID=74100168
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080046853.2A Pending CN114026557A (zh) | 2019-07-04 | 2020-06-02 | 说话解析装置、说话解析方法以及程序 |
CN202080048836.2A Pending CN114072786A (zh) | 2019-07-04 | 2020-06-02 | 说话解析装置、说话解析方法以及程序 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080046853.2A Pending CN114026557A (zh) | 2019-07-04 | 2020-06-02 | 说话解析装置、说话解析方法以及程序 |
Country Status (4)
Country | Link |
---|---|
US (2) | US20220108697A1 (zh) |
JP (2) | JP7407190B2 (zh) |
CN (2) | CN114026557A (zh) |
WO (2) | WO2021002137A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114341822B (zh) * | 2019-09-02 | 2022-12-02 | 艾梅崔克斯持株公司株式会社 | 文章解析系统及使用其的消息交换的特征评价系统 |
JP2022117730A (ja) * | 2021-02-01 | 2022-08-12 | オムロン株式会社 | 情報処理装置、制御システムおよびレポート出力方法 |
US11893990B2 (en) * | 2021-09-27 | 2024-02-06 | Sap Se | Audio file annotation |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080300872A1 (en) * | 2007-05-31 | 2008-12-04 | Microsoft Corporation | Scalable summaries of audio or visual content |
JP5343861B2 (ja) * | 2007-12-27 | 2013-11-13 | 日本電気株式会社 | テキスト分割装置とテキスト分割方法およびプログラム |
JP5427581B2 (ja) * | 2009-12-11 | 2014-02-26 | 株式会社アドバンスト・メディア | 文章分類装置および文章分類方法 |
JP2011221873A (ja) * | 2010-04-12 | 2011-11-04 | Nippon Telegr & Teleph Corp <Ntt> | データ分類方法及び装置及びプログラム |
JP5774459B2 (ja) | 2011-12-08 | 2015-09-09 | 株式会社野村総合研究所 | 談話要約テンプレート作成システムおよび談話要約テンプレート作成プログラム |
US8612211B1 (en) * | 2012-09-10 | 2013-12-17 | Google Inc. | Speech recognition and summarization |
WO2016027364A1 (ja) | 2014-08-22 | 2016-02-25 | 株式会社日立製作所 | 話題クラスタ選択装置、及び検索方法 |
EP3254456B1 (en) * | 2015-02-03 | 2020-12-30 | Dolby Laboratories Licensing Corporation | Optimized virtual scene layout for spatial meeting playback |
JP2017016566A (ja) * | 2015-07-06 | 2017-01-19 | ソニー株式会社 | 情報処理装置、情報処理方法及びプログラム |
JP6718345B2 (ja) * | 2016-09-21 | 2020-07-08 | 日本電信電話株式会社 | テキスト分析方法、テキスト分析装置、及びプログラム |
JP6815184B2 (ja) * | 2016-12-13 | 2021-01-20 | 株式会社東芝 | 情報処理装置、情報処理方法、および情報処理プログラム |
JP2018194980A (ja) | 2017-05-15 | 2018-12-06 | 富士通株式会社 | 判定プログラム、判定方法および判定装置 |
-
2020
- 2020-06-02 JP JP2021529930A patent/JP7407190B2/ja active Active
- 2020-06-02 CN CN202080046853.2A patent/CN114026557A/zh active Pending
- 2020-06-02 JP JP2021529929A patent/JPWO2021002136A1/ja active Pending
- 2020-06-02 WO PCT/JP2020/021811 patent/WO2021002137A1/ja active Application Filing
- 2020-06-02 WO PCT/JP2020/021809 patent/WO2021002136A1/ja active Application Filing
- 2020-06-02 CN CN202080048836.2A patent/CN114072786A/zh active Pending
-
2021
- 2021-12-17 US US17/554,248 patent/US20220108697A1/en active Pending
- 2021-12-22 US US17/559,033 patent/US20220114348A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
JPWO2021002136A1 (zh) | 2021-01-07 |
CN114026557A (zh) | 2022-02-08 |
WO2021002137A1 (ja) | 2021-01-07 |
JPWO2021002137A1 (zh) | 2021-01-07 |
US20220108697A1 (en) | 2022-04-07 |
US20220114348A1 (en) | 2022-04-14 |
WO2021002136A1 (ja) | 2021-01-07 |
JP7407190B2 (ja) | 2023-12-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11037553B2 (en) | Learning-type interactive device | |
CN108428446A (zh) | 语音识别方法和装置 | |
CN114072786A (zh) | 说话解析装置、说话解析方法以及程序 | |
US20060080098A1 (en) | Apparatus and method for speech processing using paralinguistic information in vector form | |
JP6815899B2 (ja) | 出力文生成装置、出力文生成方法および出力文生成プログラム | |
KR102100214B1 (ko) | 음성 인식 기반의 세일즈 대화 분석 방법 및 장치 | |
CN111901627B (zh) | 视频处理方法、装置、存储介质及电子设备 | |
EP3739583A1 (en) | Dialog device, dialog method, and dialog computer program | |
US11183180B2 (en) | Speech recognition apparatus, speech recognition method, and a recording medium performing a suppression process for categories of noise | |
CN108431883A (zh) | 语言学习系统以及语言学习程序 | |
KR102476099B1 (ko) | 회의록 열람 문서 생성 방법 및 그 장치 | |
JP5045486B2 (ja) | 対話装置及びプログラム | |
US20220392485A1 (en) | System and Method For Identifying Sentiment (Emotions) In A Speech Audio Input | |
CN116560513A (zh) | 基于情绪识别的ai数字人交互方法、装置及系统 | |
JP5084297B2 (ja) | 会話解析装置および会話解析プログラム | |
CN110782916B (zh) | 一种多模态的投诉识别方法、装置和系统 | |
JP2018180459A (ja) | 音声合成システム、音声合成方法、及び音声合成プログラム | |
Tverdokhleb et al. | Implementation of accent recognition methods subsystem for eLearning systems | |
CN114138960A (zh) | 用户意图识别方法、装置、设备及介质 | |
CN113593523A (zh) | 基于人工智能的语音检测方法、装置及电子设备 | |
WO2021171417A1 (ja) | 発話終端検出装置、制御方法、及びプログラム | |
CN116564281B (zh) | 基于ai的情绪识别方法及装置 | |
EP4024395A1 (en) | Speech analyser and related method | |
Khan et al. | Robust Feature Extraction Techniques in Speech Recognition: A Comparative Analysis | |
CN112420022B (zh) | 一种噪声提取方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20220218 |
|
WD01 | Invention patent application deemed withdrawn after publication |