CN117337466A - 气溶胶量推定方法、气溶胶量推定装置以及程序 - Google Patents

气溶胶量推定方法、气溶胶量推定装置以及程序 Download PDF

Info

Publication number
CN117337466A
CN117337466A CN202280035008.4A CN202280035008A CN117337466A CN 117337466 A CN117337466 A CN 117337466A CN 202280035008 A CN202280035008 A CN 202280035008A CN 117337466 A CN117337466 A CN 117337466A
Authority
CN
China
Prior art keywords
speaker
amount
aerosol
sound pressure
pressure level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280035008.4A
Other languages
English (en)
Inventor
大毛胜统
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Corp of America
Original Assignee
Panasonic Intellectual Property Corp of America
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Corp of America filed Critical Panasonic Intellectual Property Corp of America
Publication of CN117337466A publication Critical patent/CN117337466A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N15/00Investigating characteristics of particles; Investigating permeability, pore-volume or surface-area of porous materials
    • G01N15/06Investigating concentration of particle suspensions
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B21/00Alarms responsive to a single specified undesired or abnormal condition and not otherwise provided for
    • G08B21/18Status alarms
    • G08B21/24Reminder alarms, e.g. anti-loss alarms
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Analytical Chemistry (AREA)
  • Pathology (AREA)
  • Immunology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biochemistry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Dispersion Chemistry (AREA)
  • Emergency Management (AREA)
  • Business, Economics & Management (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本发明的气溶胶量推定方法对讲话人在讲话中的声压级是否大于规定的声压级进行判定(S103),在声压级大于规定的声压级的情况下,由基于讲话人的讲话的讲话数据计算出声学特征量(S104),使用学习完毕模型,由声学特征量计算出表示讲话数据的讲话人属性的第一讲话人特征量(S105),计算出作为讲话人平静时的讲话人特征量的第二讲话人特征量与第一讲话人特征量的相似度(S106),根据相似度推定由讲话人产生的气溶胶量(S107)。

Description

气溶胶量推定方法、气溶胶量推定装置以及程序
技术领域
本申请涉及气溶胶量推定方法、气溶胶量推定装置以及程序。
背景技术
在专利文献1中公开了一种测量会话音量的大小并报告飞沫感染的危险度的警报装置。
现有技术文献
专利文献
专利文献1:日本实用新型授权第3230254号公报
发明内容
发明要解决的课题
然而,在仅测量音量的情况下,难以高精度地推定讲话时由讲话人产生的气溶胶量。
本申请的目的在于提供能够高精度地推定讲话时由讲话人产生的气溶胶量的气溶胶量推定方法、气溶胶量推定装置以及程序。
用于解决课题的手段
本申请的一个方式的气溶胶量推定方法对讲话人在讲话中的声压级是否大于规定的声压级进行判定,在所述声压级大于所述规定的声压级的情况下,根据基于所述讲话人的所述讲话的讲话数据计算出声学特征量,使用学习完毕模型,根据所述声学特征量计算出表示所述讲话数据的讲话人属性的第一讲话人特征量,计算出作为所述讲话人的平静时的讲话人特征量的第二讲话人特征量与所述第一讲话人特征量之间的相似度,根据所述相似度推定由所述讲话人产生的气溶胶量。
发明效果
本申请能够提供能够高精度地推定讲话时由讲话人产生的气溶胶量的气溶胶量推定方法、气溶胶量推定装置以及程序。
附图说明
图1是实施方式的气溶胶量推定装置的框图。
图2是实施方式的讲话人特征量计算部的框图。
图3是实施方式的气溶胶量推定处理的流程图。
图4是表示讲话的声压级与气溶胶量的关系的图表。
图5是表示气溶胶量与相似度的相关关系的图表。
具体实施方式
(作为本申请的基础的见解)
在专利文献1那样的技术中,通过根据基于会话音量等级的危险度的阶段使发光色变化的改变音量等的方法,分阶段地报告危险度。然而,无法推定由正在讲话的人(讲话人)产生了多少气溶胶。
图4是表示讲话的声压级与气溶胶量的关系的图表。如图4的图表所示,当声压级变大为一定以上时,所产生的气溶胶量存在偏差,仅测量声压级难以高精度地推定气溶胶量。
本发明人们发现讲话人正在讲话时的气溶胶量如图5所示与该讲话中的讲话属性和平静时的该讲话人的讲话属性之间的相似度存在相关关系。由此,发明人们发现了通过将该相似度用作推定气溶胶量的指标,能够高精度地推定讲话时由讲话人产生的气溶胶量的气溶胶量推定方法。
本申请的一个方式的气溶胶量推定方法对讲话人在讲话中的声压级是否大于规定的声压级进行判定,在所述声压级大于所述规定的声压级的情况下,根据基于所述讲话人的所述讲话的讲话数据计算出声学特征量,使用学习完毕模型,根据所述声学特征量计算出表示所述讲话数据的讲话人属性的第一讲话人特征量,计算出作为所述讲话人的平静时的讲话人特征量的第二讲话人特征量与所述第一讲话人特征量之间的相似度,根据所述相似度推定由所述讲话人产生的气溶胶量。
据此,该气溶胶量推定方法在讲话人在讲话中的声压级大于规定的声压级的情况下,使用用于识别讲话人属性的学习完毕模型来计算出第一讲话人特征量,推定该第一讲话人特征量与平静时的第二讲话人特征量之间的相似度所对应的气溶胶量。气溶胶量推定方法利用与讲话人正在讲话时的讲话属性以及与平静时的该讲话人的讲话属性之间的相似度之间存在相关关系,通过计算出相似度,能够高精度地推定由讲话人产生的气溶胶量。
此外,在也可以所述推定中,利用所述相似度越小则所产生的气溶胶量越多的相关关系来推定所述相似度所对应的气溶胶量。
此外,也可以在所述推定中,按照每个规定的时间单位推定在规定的时间单位中产生的气溶胶量,计算出自开始所述推定起获得的气溶胶量的累计值。
因此,能够推定自推定开始时起的气溶胶量的总量,能够有效评价基于气溶胶量的感染风险。
此外,进而,也可以对所述累计值是否大于规定的气溶胶量进行判定,在所述累计值大于所述规定的气溶胶量的情况下,进行警告。
因此,能够在判断为感染风险大的情况下进行警告,能够促使用户进行为了减少气溶胶量的应对措施。
此外,进而,也可以对所述累计值是否大于规定的气溶胶量进行判定,在所述累计值大于所述规定的气溶胶量的情况下,使配置于所述讲话人所在的空间的换气装置或者空气净化器动作。
因此,在判断为感染风险大的情况下,能够使换气装置或者空气净化器动作,有效地减少气溶胶量。
此外,也可以是所述第二讲话人特征量表示通过所述讲话人朗读规定的文本而获得的讲话数据的讲话人属性。
本申请的一个方式的气溶胶量推定装置具备:声压级判定部,对讲话人在讲话中的声压级是否大于规定的声压级进行判定;声学特征量计算部,在所述声压级大于所述规定的声压级的情况下,根据基于所述讲话人的所述讲话的讲话数据计算出声学特征量;讲话人特征量计算部,使用学习完毕模型,根据所述声学特征量计算出表示所述讲话数据的讲话人属性的第一讲话人特征量;相似度计算部,计算出作为所述讲话人的平静时的讲话人特征量的第二讲话人特征量与所述第一讲话人特征量之间的相似度;以及推定部,根据所述相似度推定由所述讲话人产生的气溶胶量。
据此,该气溶胶量推定方法在讲话人在讲话中的声压级大于规定的声压级的情况下,使用用于识别讲话人属性的学习完毕模型来计算出第一讲话人特征量,推定该第一讲话人特征量与平静时的第二讲话人特征量之间的相似度所对应的气溶胶量。气溶胶量推定方法利用与讲话人正在讲话时的讲话属性以及与平静时的该讲话人的讲话属性之间的相似度存在相关关系,通过计算出相似度,能够高精度地推定由讲话人产生的气溶胶量。
本申请的一个方式的程序使计算机执行所述气溶胶量推定方法。
另外,这些概括性或者具体的方式可以通过系统、方法、集成电路、计算机程序或者计算机所能够读取的CD-ROM(只读光盘存储器)等记录介质来实现,也可以通过系统、方法、集成电路、计算机程序与记录介质的任意组合来实现。
以下,参照附图具体地说明实施方式。另外,以下说明的实施方式均表示本申请的一个具体例。以下的实施方式中示出的数值、形状、材料、构成要素、构成要素的配置位置以及连接方式、步骤、步骤的顺序等是一个例子,并非旨在限定本申请。此外,将以下的实施方式中的构成要素中未记载于独立权利要求的构成要素作为任意的构成要素进行说明。
(实施方式1)
图1是表示本实施方式的气溶胶量推定装置100的构成的框图。气溶胶量推定装置100推定由讲话人(用户)产生的气溶胶量。具体而言,气溶胶量是在讲话人正在讲话时从讲话人吹向讲话人所在的空间的包含唾液的液体的细微颗粒的数量。例如,气溶胶量推定装置100包含于智能手机或者平板终端等终端装置中。另外,气溶胶量推定装置100的功能可以通过单一装置来实现,也可以通过多个装置来实现。例如,也可以是气溶胶量推定装置100的一部分功能通过终端装置来实现,其他一部分功能通过能够与终端装置通信的服务器等来实现。
如图1所示,气溶胶量推定装置具备语音取得部101、声压级判定部102、声学特征量计算部103、讲话人特征量计算部104、存储部105、相似度计算部106、气溶胶量推定部107和输出部108。
语音取得部101取得作为讲话人讲话的语音数据的讲话数据。例如语音取得部101是话筒,通过将所取得的语音转换为语音信号来生成讲话数据。另外,语音取得部101也可以取得在气溶胶量推定装置100的外部生成的讲话数据。
声压级判定部102根据讲话数据测量讲话的语音的声压级,对所测量的声压级是否大于规定的声压级进行判定。另外,讲话的语音的声压级,例如也可以是讲话数据在规定期间的语音波形的波峰的振幅。在规定期间中有多个波峰的情况下,讲话数据的语音的声压级可以是多个波峰的振幅的最大值,也可以是多个波峰的振幅的平均值。该规定期间例如是从与当前时刻(最新的时刻)相距第一时间宽度之前的时刻至当前时刻的期间。第一时间宽度例如可以是100秒以下的时间。此外,语音数据所示的声音的大小可以是在将语音数据的语音波形的波峰的切线相连的包络线在当前时刻的振幅,也可以是包络线在规定期间的最大值,还可以是包络线在规定期间的平均值。
声学特征量计算部103在通过声压级判定部102判定为讲话人在讲话中的声压级大于规定的声压级的情况下,根据讲话数据计算出针对讲话的语音的声学特征量。例如,声学特征量计算部103根据讲话数据计算出作为讲话的语音特征量的MFCC(Mel FrequencyCepstral Coefficient:梅尔频率倒谱系数)作为声学特征量。MFCC是表示讲话人的声道特性的特征量,通常用于语音识别。更具体而言,MFCC是基于人的听觉特性来分析语音的频率谱的声学特征量。另外,作为声学特征量,声学特征量计算部103可以根据讲话数据计算出通过对讲话的语音信号施加梅尔滤波器组而得到的信号作为声学特征量,也可以计算出讲话的语音信号的频谱作为声学特征量。
讲话人特征量计算部104从根据讲话数据计算出的声学特征量中提取用于确定该讲话数据所示的讲话的讲话人的第一讲话人特征量。换言之,第一讲话人特征量表示讲话数据的讲话人属性。更具体而言,讲话人特征量计算部104使用学习完毕的DNN(DeepNeural Network:深度神经网络)来从声学特征量中提取第一讲话人特征量。
例如,讲话人特征量计算部104使用x-vector(x-向量)方式来提取第一讲话人特征量。这里,x-vector方式是计算出被称作x-vector的讲话人固有特征即讲话人特征量的方法。图2是表示讲话人特征量计算部104的构成例的框图。如图2所示,例如讲话人特征量计算部104具备帧连接处理部201和DNN202。
帧连接处理部201将多个声学特征量连接,将获得的声学特征量输出到DNN202。例如,帧连接处理部201将作为声学特征量的MFCC的多个帧连接,输出到DNN202的输入层。例如,帧连接处理部201将由每帧24维的特征量构成的MFCC参数连接50帧份,由此生成1200维的向量,将所生成的向量输出到DNN202的输入层。
DNN202是输出与输入的声学特征量相应的第一讲话人特征量的学习完毕的机器学习模型。在图2所示的例子中,DNN202是由输入层、多个中间层和输出层构成的神经网络。此外,DNN202通过使用多个训练数据203的机器学习来预先生成。多个训练数据203分别是确定对讲话人的信息与讲话人的讲话数据相关联的数据。即,DNN202是将讲话数据作为输入,输出确定该讲话数据的讲话人的信息(讲话人标签)的学习完毕模型,但在本实施方式中,DNN202输出作为中间数据被生成的第一讲话人特征量。另外,也可以使用通过深度神经网络以外的机器学习进行了学习的学习完毕的机器学习模型来取代DNN202。
具体而言,输出层由输出与训练数据203所含的讲话人数对应的讲话人标签的节点构成。多个中间层例如由2~3层的中间层构成,具有计算出第一讲话人特征量的中间层。计算出第一讲话人特征量的中间层输出计算出的第一讲话人特征量作为DNN202的输出。
存储部105例如由硬盘驱动器或者固态硬盘驱动器等能够改写的非易失性的存储器构成。存储部105存储作为讲话人在健康时的第一讲话人特征量的第二讲话人特征量。例如,第二讲话人特征量是根据平静时的讲话人进行的讲话的讲话数据预先获得的讲话人特征量。平静时的讲话人进行的讲话的讲话数据例如是通过使讲话人朗读规定的文本而获得的讲话数据。此外,由平静时的讲话人进行讲话的讲话数据也可以是基于讲话人的身体的动作、心跳、体温、出汗、声音、表情等生物体信息而推测为讲话人平静(安静)时的讲话所产生的讲话数据。另外,第二讲话人特征量可以由过去的多次气溶胶量推定处理中获得的多个第一讲话人特征量计算出。例如,第二讲话人特征量可以是过去的多次气溶胶量推定处理中获得的多个第一讲话人特征量的平均值或者中央值。
相似度计算部106计算出从讲话人特征量计算部104输出的第一讲话人特征量与存储于存储部105的第二讲话人特征量的相似度。例如,相似度计算部106通过在向量空间模型中使用内积来计算余弦,从而计算出表示第一讲话人特征量与第二讲话人特征量的向量间夹角的余弦距离(也被称作余弦相似度)作为相似度。在这种情况下,向量间夹角的数值越大则表示相似度越低。另外,相似度计算部106也可以使用表示第一讲话人特征量的向量与表示第二讲话人特征量的向量的内积来计算出在-1~1的取值范围的余弦距离。在这种情况下,表示余弦距离的数值越大则表示相似度越高。另外,相似度越大则表示第一讲话人特征量与第二讲话人特征量越相似,相似度越小则表示第一讲话人特征量与第二讲话人特征量越不相似。
气溶胶量推定部107基于由相似度计算部106计算出的相似度来推定由讲话人产生的气溶胶量。具体而言,气溶胶量推定部107利用图5所示的相似度越小则所产生的气溶胶量越多的相关关系,推定相似度所对应的气溶胶量。该相关关系也可以是相似度与在规定的时间单位中产生的气溶胶量之间的相关关系。
这里,利用语音取得部101、声压级判定部102、声学特征量计算部103、讲话人特征量计算部104以及相似度计算部106进行的各处理可以按照规定的时间重复进行。在这种情况下,在讲话的语音的声压级比规定的声压级大的情况下,气溶胶量推定部107推定通过声压级判定部102判定时的规定的时间单位的气溶胶量,计算出自开始推定起获得的气溶胶量的累计值。因此,能够推定自推定开始时起的气溶胶量的总量,能够有效地评价气溶胶量带来的感染风险。
此外,气溶胶量推定部107也可以对计算出的累计值是否大于规定的气溶胶量进行判定,在累计值大于规定的气溶胶量的情况下,判定为感染症的感染风险高。另外,气溶胶量推定部107可以不对感染风险是否高进行判定,而对感染风险进行判定。例如,气溶胶量推定部107可以判定为相似度越低则感染风险越高。另外,判定的结果可以由“有感染风险”、“感染风险高”、“感染风险非常高”等多个阶段的分类表示,也可以由表示感染风险的数值等表示。
输出部108将由气溶胶量推定部107获得的判定结果通知给讲话人。例如,输出部108是终端装置所具备的显示器或者扬声器,通过显示或者语音将判定结果通知给讲话人。另外,输出部108也可以向外部的装置输出判定结果。另外,输出部108也可以仅在判定为感染风险高时,将判定结果(例如表示感染风险高的警告)通知给讲话人。因此,能够在判断为感染风险大的情况下进行警告,能够促使用户进行为了减少气溶胶量的应对措施。
此外,输出部108也可以在判定为感染风险高的情况下,使配置于讲话人所在的空间的换气装置或者空气净化器动作。具体而言,输出部108可以在判定为感染风险高的情况下,将用于使换气装置或者空气净化器动作的控制信号发送到换气装置或者空气净化器,由此使换气装置或者空气净化器动作。因此,能够在判断为感染风险大的情况下使换气装置或者空气净化器动作,能够有效地减少气溶胶量。
以下,对利用气溶胶量推定装置100进行的气溶胶量推定处理进行说明。图3是利用气溶胶量推定装置100进行的气溶胶量推定处理的流程图。另外,这里,对向气溶胶量推定装置100预先登记一位讲话人的情况进行说明。
首先,在气溶胶量推定装置100中,语音取得部101取得作为讲话人讲话的语音数据的讲话数据。(S101)。
接着,声压级判定部102根据讲话数据测量讲话的语音的声压级(S102),对所测量的声压级是否大于规定的声压级进行判定(S103)。
接着,在通过声压级判定部102判定为讲话人在讲话中的声压级大于规定的声压级的情况下(S103中,是),声学特征量计算部103根据讲话数据计算出对于讲话的语音的声学特征量(S104)。另外,在通过声压级判定部102判定为讲话人在讲话中的声压级为规定的声压级以下的情况下(S103中,否),执行步骤S101。
接着,讲话人特征量计算部104计算出用于根据通过讲话数据计算出的声学特征量确定该讲话数据所示的讲话的讲话人的第一讲话人特征量(S105)。具体而言,讲话人特征量计算部104输出与输入的声学特征量对应的第一讲话人特征量。
接着,相似度计算部106计算出从讲话人特征量计算部104输出的第一讲话人特征量与存储于存储部105的第二讲话人特征量的相似度(S106)。
接着,气溶胶量推定部107基于由相似度计算部106计算出的相似度推定由讲话人产生的气溶胶量(S107)。具体而言,气溶胶量推定部107利用相似度越小则所产生的气溶胶量越多的相关关系来推定与相似度相应的在规定的时间单位中产生的气溶胶量。计算出的规定的时间单位中产生的气溶胶量也可以存储于存储部105。
接着,气溶胶量推定部107计算出自开始推定起获得的气溶胶量的累计值(S108)。具体而言,气溶胶量推定部107通过将存储于存储部105的自开始推定起获得的1个以上的气溶胶量求和而计算出累计值。
接着,气溶胶量推定部107对计算出的累计值是否大于规定的气溶胶量进行判定(S109)。
输出部108在累计值大于规定的气溶胶量的情况下(S109中,是),将由气溶胶量推定部107获得的判定结果通知给讲话人(S110)。另外,输出部108也可以在累计值大于规定的气溶胶量的情况下(S109中,是),将用于使换气装置或者空气净化器动作的控制信号发送到换气装置或者空气净化器。在累计值为规定的气溶胶量以下的情况下(S109中,否),执行步骤S101。
另外,在上述说明中,示出了预先登记了一位讲话人的例子,但也可以登记多位讲话人。在这种情况下,各讲话人的第二讲话人特征量被存储于存储部105。此外,确定讲话人的信息被输入到气溶胶量推定装置100,使用确定出的讲话人的第二讲话人特征量进行上述的处理。
如上所述,气溶胶量推定装置100对讲话人在讲话中的声压级是否大于规定的声压级进行判定。气溶胶量推定装置100在声压级大于规定的声压级的情况下,由基于讲话人的讲话的讲话数据计算出声学特征量。气溶胶量推定装置100使用学习完毕的DNN(DeepNeural Network),由声学特征量计算出表示讲话数据的讲话人属性的第一讲话人特征量。气溶胶量推定装置100计算出作为讲话人平静时的讲话人特征量的第二讲话人特征量与第一讲话人特征量的相似度。气溶胶量推定装置100根据相似度推定由讲话人产生的气溶胶量。
即,气溶胶量推定装置100在讲话人在讲话中的声压级大于规定的声压级的情况下,使用用于识别讲话人属性的学习完毕的DNN(Deep Neural Network)来计算出第一讲话人特征量,推定该第一讲话人特征量与平静时的第二讲话人特征量之间的相似度所对应的气溶胶量。气溶胶量推定方法利用与讲话人正在讲话时的讲话属性和平静时的该讲话人的讲话属性之间的相似度存在相关关系,通过计算出相似度,能够高精度地推定由讲话人产生的气溶胶量。
另外,讲话人特征量计算部104不限于具备帧连接处理部201和DNN202的构成。讲话人特征量计算部104根据讲话的语音信号计算讲话的语音物理量。在本实施方式中,讲话人特征量计算部104根据讲话的语音信号计算作为语音特征量的MFCC(Mel-FrequencyCepstrum Coefficients)。MFCC是表示讲话人的声道特性的特征量。另外,讲话人特征量计算部104并不局限于计算MFCC作为讲话的语音物理量的情况,也可以计算出对讲话的语音信号施加梅尔滤波器组而得到的信号,还可以计算出讲话的语音信号的频谱。此外,讲话人特征量计算部104也可以使用DNN(Deep Neural Network),根据讲话的语音信号计算语音特征量作为讲话的语音物理量。
以上,对本申请的实施方式的气溶胶量推定装置进行了说明,但本申请并不限定于该实施方式。
此外,上述实施方式的气溶胶量推定装置所含的各处理部典型地实现为作为集成电路的LSI(Large Scale Integration:大规模集成电路)。它们可以被分开地单片化,也可以将其中的一部分或者全部单片化。
此外,集成电路化不限于LSI,也可以通过专用电路或者通用处理器来实现。也可以利用在制造LSI后能够编程的FPGA(Field Programmable Gate Array:现场可编程门阵列)或者能够对LSI内部的电路单元的连接、设定进行重新配置的可重构处理器。
此外,在上述各实施方式中,各构成要素也可以由专用的硬件构成或者通过执行适于各构成要素的软件程序来实现。各结构要素也可以通过CPU(中央处理器)或者处理器等程序执行部读出并执行记录于硬盘或者半导体存储器等记录介质中的软件程序来实现。
此外,本申请也可以作为通过气溶胶量推定装置等来执行的气溶胶量推定方法等来实现。
此外,框图中的功能块的划分是一个例子,多个功能块可以作为一个功能块来实现,一个功能块也可以划分为多个,一部分的功能也可以移至其他的功能块。此外,具有相似的功能的多个功能块的功能也可以由单一硬件或软件来并行或时间划分地处理。
此外,执行流程图中的各步骤的顺序是为了具体地说明本申请而例示的顺序,也可以是除上述以外的顺序。此外,上述步骤的一部分也可以与其他步骤同时(并列)执行。
以上,基于实施方式对一个或者多个方式的气溶胶量推定等进行了说明,但本申请并不限定于该实施方式。只要不脱离本申请的主旨,可以在本实施方式中实施本领域技术人员想到的各种变形的实施方式、将不同的实施方式中的构成要素组合而构建的方式也包含于一个或者多个方式的范围内。
工业上的可利用性
本申请作为能够高精度地推定讲话时由讲话人产生的气溶胶量的气溶胶量推定方法、气溶胶量推定装置以及程序等是有用的。
附图标记说明
100:气溶胶量推定装置
101:语音取得部
102:声压级判定部
103:声学特征量计算部
104:讲话人特征量计算部
105:存储部
106:相似度计算部
107:气溶胶量推定部
108:输出部
201:帧连接处理部
202:DNN
203:训练数据

Claims (8)

1.一种气溶胶量推定方法,其中,
对讲话人在讲话中的声压级是否大于规定的声压级进行判定,
在所述声压级大于所述规定的声压级的情况下,根据基于所述讲话人的所述讲话的讲话数据计算出声学特征量,
使用学习完毕模型,根据所述声学特征量计算出表示所述讲话数据的讲话人属性的第一讲话人特征量,
计算出作为所述讲话人的平静时的讲话人特征量的第二讲话人特征量与所述第一讲话人特征量之间的相似度,
根据所述相似度推定由所述讲话人产生的气溶胶量。
2.根据权利要求1所述的气溶胶量推定方法,其中,
在所述推定中,利用所述相似度越小则所产生的气溶胶量越多的相关关系来推定所述相似度所对应的气溶胶量。
3.根据权利要求1或者2所述的气溶胶量推定方法,其中,
在所述推定中,按照每个规定的时间单位推定在规定的时间单位中产生的气溶胶量,计算出自开始所述推定起获得的气溶胶量的累计值。
4.根据权利要求3所述的气溶胶量推定方法,其中,
进而,对所述累计值是否大于规定的气溶胶量进行判定,
在所述累计值大于所述规定的气溶胶量的情况下,进行警告。
5.根据权利要求3所述的气溶胶量推定方法,其中,
进而,对所述累计值是否大于规定的气溶胶量进行判定,
在所述累计值大于所述规定的气溶胶量的情况下,使配置于所述讲话人所在的空间的换气装置或者空气净化器动作。
6.根据权利要求1~5中任一项所述的气溶胶量推定方法,其中,
所述第二讲话人特征量表示通过所述讲话人朗读规定的文本而获得的讲话数据的讲话人属性。
7.一种气溶胶量推定装置,其中,具备:
声压级判定部,对讲话人在讲话中的声压级是否大于规定的声压级进行判定;
声学特征量计算部,在所述声压级大于所述规定的声压级的情况下,根据基于所述讲话人的所述讲话的讲话数据计算出声学特征量;
讲话人特征量计算部,使用学习完毕模型,根据所述声学特征量计算出表示所述讲话数据的讲话人属性的第一讲话人特征量;
相似度计算部,计算出作为所述讲话人的平静时的讲话人特征量的第二讲话人特征量与所述第一讲话人特征量之间的相似度;以及
推定部,根据所述相似度推定由所述讲话人产生的气溶胶量。
8.一种程序,其中,使计算机执行权利要求1所述的气溶胶量推定方法。
CN202280035008.4A 2021-05-21 2022-05-10 气溶胶量推定方法、气溶胶量推定装置以及程序 Pending CN117337466A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2021-085769 2021-05-21
JP2021085769 2021-05-21
PCT/JP2022/019779 WO2022244651A1 (ja) 2021-05-21 2022-05-10 エアロゾル量推定方法、エアロゾル量推定装置、及びプログラム

Publications (1)

Publication Number Publication Date
CN117337466A true CN117337466A (zh) 2024-01-02

Family

ID=84140572

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280035008.4A Pending CN117337466A (zh) 2021-05-21 2022-05-10 气溶胶量推定方法、气溶胶量推定装置以及程序

Country Status (4)

Country Link
US (1) US20240071409A1 (zh)
JP (1) JPWO2022244651A1 (zh)
CN (1) CN117337466A (zh)
WO (1) WO2022244651A1 (zh)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7312037B2 (ja) * 2019-06-25 2023-07-20 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 咳検出装置、咳検出装置の作動方法及びプログラム
JP3230254U (ja) * 2020-09-16 2021-01-14 株式会社エイチ・ツー・オー 音量感知式飛沫感染防止用警報装置

Also Published As

Publication number Publication date
JPWO2022244651A1 (zh) 2022-11-24
WO2022244651A1 (ja) 2022-11-24
US20240071409A1 (en) 2024-02-29

Similar Documents

Publication Publication Date Title
CN107799126B (zh) 基于有监督机器学习的语音端点检测方法及装置
US20190295529A1 (en) Audio interval detection apparatus, method, and recording medium
EP3619657A1 (en) Selecting speech features for building models for detecting medical conditions
US11315550B2 (en) Speaker recognition device, speaker recognition method, and recording medium
US20150348571A1 (en) Speech data processing device, speech data processing method, and speech data processing program
JP5052449B2 (ja) 発話区間話者分類装置とその方法と、その装置を用いた音声認識装置とその方法と、プログラムと記録媒体
JP6958723B2 (ja) 信号処理システム、信号処理装置、信号処理方法、およびプログラム
JP6246636B2 (ja) パターン識別装置、パターン識別方法およびプログラム
CN109196583A (zh) 动态语音识别数据评估
JP2010175684A (ja) 通話状態判定装置、通話状態判定方法、プログラム、記録媒体
JP2016180839A (ja) 雑音抑圧音声認識装置およびそのプログラム
CN109754822A (zh) 建立阿兹海默症检测模型的方法和装置
JP2024020321A (ja) 精神・神経系疾患を推定する装置
CN110447068A (zh) 语音识别装置和语音识别方法
CN111199749A (zh) 行为识别方法、装置,机器学习方法、装置以及记录介质
JP6148150B2 (ja) 音響分析フレーム信頼度計算装置と音響モデル適応装置と音声認識装置とそれらのプログラムと、音響分析フレーム信頼度計算方法
CN117337466A (zh) 气溶胶量推定方法、气溶胶量推定装置以及程序
JP3735209B2 (ja) 話者認識装置及び方法
JP4556028B2 (ja) 発話主体同定装置及びコンピュータプログラム
Prasad et al. Gender based emotion recognition system for telugu rural dialects using hidden markov models
KR100776803B1 (ko) 다채널 퍼지 융합을 통한 지능형 로봇의 화자 인식 장치 및그 방법
JP5749186B2 (ja) 音響モデル適応装置と音声認識装置とそれらの方法と、プログラム
US20240127846A1 (en) Articulation abnormality detection method, articulation abnormality detection device, and recording medium
WO2023189173A1 (ja) 話者識別方法、話者識別装置及び話者識別プログラム
JP5678732B2 (ja) 分析装置、分析プログラムおよび分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination