CN117546235A - 语音识别装置 - Google Patents

语音识别装置 Download PDF

Info

Publication number
CN117546235A
CN117546235A CN202180099499.4A CN202180099499A CN117546235A CN 117546235 A CN117546235 A CN 117546235A CN 202180099499 A CN202180099499 A CN 202180099499A CN 117546235 A CN117546235 A CN 117546235A
Authority
CN
China
Prior art keywords
information
unit
parameter
setting parameter
setting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180099499.4A
Other languages
English (en)
Inventor
芝崎泰弘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fanuc Corp
Original Assignee
Fanuc Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fanuc Corp filed Critical Fanuc Corp
Publication of CN117546235A publication Critical patent/CN117546235A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)

Abstract

一种语音识别装置具备:受理部,其受理语音信息的输入;参数存储部,其存储用于设定语音识别模型的多个参数;临时设定参数选择部,其基于筛选信息,从多个参数中选择临时设定的临时设定参数;识别部,其基于所选择的临时设定参数,识别语音信息;以及参数选择部,其基于表示所识别的语音信息的识别结果的信息,选择临时设定参数中的任一个。

Description

语音识别装置
技术领域
本公开涉及语音识别装置。
背景技术
近年来,在工业机械领域中尝试利用语音识别的技术(例如,专利文献1)。为了提高语音识别的识别精度,需要事先选择适当的语音识别模型。
现有技术文献
专利文献
专利文献1:日本特开2020-160586号公报
发明内容
发明所要解决的课题
但是,事先进行选择适当的语音识别模型的作业对于用户来说成为较大的负担。
本公开的目的在于提供一种能够简化语音识别模型的选择作业的语音识别装置。
用于解决课题的手段
语音识别装置具备:受理部,其受理语音信息的输入;参数存储部,其存储用于设定语音识别模型的多个参数;临时设定参数选择部,其基于筛选信息,从多个参数中选择临时设定的临时设定参数;识别部,其基于所选择的临时设定参数,识别语音信息;以及参数选择部,其基于表示所识别的语音信息的识别结果的信息,选择临时设定参数中的任一个。
发明效果
根据本公开的一个方式,能够简化语音识别模型的选择作业。
附图说明
图1是表示数值控制装置的硬件结构的一例的框图。
图2是表示语音识别装置的功能的一例的框图。
图3是表示识别部的功能的一例的框图。
图4是表示显示于输入输出装置的显示画面的图像的一例的图。
图5是表示在准备阶段进行的处理的一例的流程图。
图6是表示在参数设定阶段进行的处理的一例的流程图。
图7是表示在参数设定后进行的处理的一例的流程图。
图8是表示筛选信息取得部的功能的一例的框图。
图9是表示语音识别装置的功能的一例的框图。
图10是表示语音识别装置的功能的一例的框图。
图11是表示显示于输入输出装置的显示画面的图像的一例的图。
具体实施方式
以下,使用附图对本公开的一实施方式进行说明。另外,在以下的实施方式中说明的特征的全部组合不一定是解决课题所需要的。另外,有时省略不必要的详细说明。另外,以下的实施方式的说明以及附图是为使本领域技术人员充分理解本公开而提供的,并不意图限定请求专利保护的范围。
语音识别装置是识别说话人发出的语音的装置。由语音识别装置识别出的语音例如被转换为指示工业机械的动作的命令。工业机械根据该指令进行动作。
语音识别装置例如安装于控制工业机械的数值控制装置。语音识别装置也可以安装于与数值控制装置通过LAN(Local Area Network:局域网)连接的服务器。另外,只要确保安全,语音识别装置也可以安装于经由因特网与数值控制装置连接的服务器。以下,对语音识别装置安装于工业机械的数值控制装置的例子进行说明。
图1是表示工业机械的硬件结构的一例的框图。工业机械1例如是机床、线放电加工机、工业用机器人。机床包括车床、加工中心以及复合加工机。工业用机器人包括机械手。
工业机械1具备数值控制装置2、输入输出装置3、伺服放大器4和伺服电动机5、主轴放大器6和主轴电动机7、辅助设备8以及麦克风9。
数值控制装置2是控制工业机械1整体的装置。数值控制装置2具备硬件处理器201、总线202、ROM(Read Only Memory:只读存储器)203、RAM(Random Access Memory:随机存取存储器)204以及非易失性存储器205。
硬件处理器201是按照系统程序控制数值控制装置2整体的处理器。硬件处理器201经由总线202读出储存于ROM203的系统程序等,基于系统程序进行各种处理。另外,硬件处理器201基于加工程序来控制伺服电动机5和主轴电动机7。硬件处理器201例如是CPU(Central Processing Unit,中央处理单元)或电子电路。
硬件处理器201在每个控制周期例如进行加工程序的解析以及针对伺服电动机5和主轴电动机7的控制指令的输出。
总线202是将数值控制装置2内的各硬件相互连接的通信路径。数值控制装置2内的各硬件经由总线202交换数据。
ROM203是存储用于控制数值控制装置2整体的系统程序等的存储装置。ROM203是计算机可读存储介质。
RAM204是临时存储各种数据的存储装置。RAM204作为硬件处理器201用于处理各种数据的作业区域发挥功能。
非易失性存储器205是即使在工业机械1的电源被切断而没有向数值控制装置2供给电力的状态下也保持数据的存储装置。非易失性存储器205例如存储加工程序以及各种参数。非易失性存储器205是计算机可读存储介质。非易失性存储器205例如由SSD(SolidState Drive,固态硬盘)构成。
数值控制装置2还具备第一接口206、轴控制电路207、主轴控制电路208、PLC(Programmable Logic Controller:可编程逻辑控制器)209、I/O单元210以及第二接口211。
第一接口206连接总线202和输入输出装置3。第一接口206例如将硬件处理器201处理后的各种数据发送到输入输出装置3。
输入输出装置3是经由第一接口206接收各种数据并显示各种数据的装置。另外,输入输出装置3接受各种数据的输入并经由第一接口206将各种数据发送到硬件处理器201。输入输出装置3例如是触摸面板。在输入输出装置3为触摸面板的情况下,触摸面板例如为静电电容方式的触摸面板。另外,触摸面板不限于静电电容方式,也可以是其他方式的触摸面板。输入输出装置3例如安装于收纳数值控制装置2的操作盘(未图示)。
轴控制电路207是控制伺服电动机5的电路。轴控制电路207接受来自硬件处理器201的控制指令,向伺服放大器4输出用于驱动伺服电动机5的指令。轴控制电路207例如将控制伺服电动机5的转矩的转矩指令发送到伺服放大器4。
伺服放大器4接受来自轴控制电路207的指令,向伺服电动机5供给电流。
伺服电动机5从伺服放大器4接受电流的供给而进行驱动。伺服电动机5例如与驱动刀架的滚珠丝杠连结。通过伺服电动机5进行驱动,刀架等工业机械1的构造物例如在X轴方向、Y轴方向或Z轴方向上移动。另外,伺服电动机5也可以内置检测各进给轴的进给速度的速度检测器(未图示)。
主轴控制电路208是用于控制主轴电动机7的电路。主轴控制电路208接受来自硬件处理器201的控制指令,向主轴放大器6输出用于驱动主轴电动机7的指令。主轴控制电路208例如将控制主轴电动机7的转矩的转矩命令发送给主轴放大器6。
主轴放大器6接受来自主轴控制电路208的指令,向主轴电动机7提供电流。
主轴电动机7从主轴放大器6接受电流的供给而进行驱动。主轴电动机7与主轴连结,使主轴旋转。
PLC209是执行梯形图程序来控制辅助设备8的装置。PLC209经由I/O单元210对辅助设备8发送指令。
I/O单元210是连接PLC209和辅助设备8的接口。I/O单元210将从PLC209接收到的指令发送至辅助设备8。
辅助设备8设置于工业机械1,是在工业机械1中进行辅助动作的设备。辅助设备8基于从I/O单元210接收到的指令进行动作。辅助设备8也可以是设置于工业机械1的周边的设备。辅助设备8例如是工具更换装置、切削液喷射装置或开闭门驱动装置。
第二接口211连接总线202和麦克风9。第二接口211例如将从麦克风9输出的语音信息发送到硬件处理器201。
麦克风9是取得语音并将语音转换为语音信息的音响设备。在此,语音信息是电信号。麦克风9将语音信息经由第二接口211发送到硬件处理器201。
接着,说明语音识别装置20的概要。
图2是表示安装于数值控制装置2的语音识别装置20的功能的一例的框图。
语音识别装置20具备受理部21、参数存储部22、筛选信息取得部23、临时设定参数选择部24、识别部25、参数选择部26、输出部27以及设定参数存储部28。
受理部21、筛选信息取得部23、临时设定参数选择部24、识别部25、参数选择部26以及输出部27例如通过硬件处理器201使用存储于ROM203的系统程序以及存储于非易失性存储器205的各种数据进行运算处理来实现。
参数存储部22和设定参数存储部28例如通过将从输入输出装置3输入的数据和各种参数存储在RAM204或非易失性存储器205中来实现。
语音识别装置20从预先存储的多个语音识别模型中选择适当的语音识别模型来进行语音识别。为了使语音识别装置20选择语音识别模型,进行参数的选择。通过语音识别装置20选择用于设定适当的语音识别模型的参数,并使用适当的语音识别模型,语音识别装置20高精度地识别语音信息。
为了设定适当的语音识别模型,首先,临时设定参数选择部24选择存储于参数存储部22的参数中的临时设定的参数。此时,临时设定参数选择部24从基于筛选条件筛选出的参数中选择临时设定的参数。
识别部25利用与由临时设定参数选择部24选择的参数相关联地存储的语音识别模型来识别语音信息。识别部25例如利用多个语音识别模型进行语音信息的识别,针对各个语音识别模型导出语音信息的识别结果。设定参数存储部28存储导出了多个识别结果中的例如可靠度最高的识别结果的临时设定参数。
这样,通过将导出高可靠性的识别结果的临时设定参数设定为在之后的语音识别中使用的参数,能够提高语音识别的精度。接着,详细说明语音识别装置20的各部。
受理部21受理从麦克风9发送的语音信息的输入。语音信息例如是表示由说话人发出的语音的模拟信号。语音信息也可以是从表示语音的模拟信号转换后的数字信号。说话人的语音例如由设置于工业机械1的麦克风9或者配置于工厂内的预定位置的麦克风9取得。
参数存储部22存储用于设定语音识别模型的多个参数。语音识别模型例如是声学模型和语法模型。即,参数存储部22存储用于设定声学模型的多个声学设定参数以及用于设定语法模型的多个语法设定参数。关于声学模型以及语法模型等语音识别模型,在后面详细说明。
声学设定参数例如包括日语设定参数、英语设定参数、中文设定参数和德语设定参数。语法设定参数例如包括网络设定参数、工具设定参数、面向一般用户的电源设定参数以及面向管理者的电源设定参数。
筛选信息取得部23取得用于筛选存储于参数存储部22的多个参数的筛选信息。
筛选信息例如包括确定发出语音的说话人的说话人信息。说话人信息例如包括表示说话人发出的语言的语言信息及表示说话人负责的职务的职务信息。
语言信息例如是表示日语、英语、中文以及德语中的至少任一种语言的信息。职务信息例如是表示网络设定、机械加工、用户电源设定以及管理者电源设定中的至少任一个的信息。
在受理部21受理了语音信息的情况下,筛选信息取得部23首先解析语音信息,例如确定说话人。接着,筛选信息取得部23取得与所确定的说话人相关联地存储的语言信息和职务信息。筛选信息取得部23例如通过将预先登记的筛选基准信息与受理部21受理的语音信息进行比较来确定说话人。筛选基准信息例如是表示说话人发出的语音的语音信息。
筛选信息也可以包含确定受理部21受理语音信息的受理时刻的时刻信息。筛选信息也可以包含确定设置有取得语音的麦克风9的位置的位置信息。
临时设定参数选择部24基于筛选信息,从多个参数中选择临时设定的临时设定参数。即,临时设定参数选择部24基于筛选信息来筛选临时设定的参数。
临时设定参数选择部24可以从多个参数中选择一个参数作为临时设定参数。临时设定参数选择部24也可以从多个参数中选择包含多个参数的一组参数。临时设定参数选择部24也可以选择多组参数。
例如,在筛选信息取得部23取得了表示日语的语言信息以及表示网络设定的职务信息作为说话人信息的情况下,临时设定参数选择部24选择日语设定参数以及网络设定参数作为临时设定的参数。
另外,在筛选信息取得部23仅取得了表示日语的语言信息作为说话人信息的情况下,临时设定参数选择部24选择日语设定参数作为临时设定的参数。在该情况下,临时设定参数选择部24例如也可以选择日语设定参数与网络设定参数的组以及日语设定参数与工具设定参数的组这两组作为临时设定参数。
识别部25基于由临时设定参数选择部24选择的临时设定参数来识别语音信息。即,识别部25利用与临时设定参数相关联地存储的语音识别模型来识别语音信息。在临时设定参数选择部24选择了多组临时设定参数的情况下,使用各个组的临时设定参数来识别语音信息。
图3是表示识别部25的功能的一例的框图。识别部25具备模型存储部251、辞典存储部252和识别处理部253。
模型存储部251存储与参数存储部22中存储的多个参数分别对应的多个语音识别模型。如上所述,语音识别模型例如包括声学模型和语法模型。
声学模型用于判别语音信息所包含的音素。例如,声学模型包括日语模型、英语模型、中文模型以及德语模型。日语模型、英语模型、中文模型以及德语模型分别在设定了日语设定参数、英语设定参数、中文设定参数以及德语设定参数时被识别部25利用。声学模型例如通过将各语言的说话人发出的语音的语音信息作为训练数据进行机器学习而生成。
语法模型用于判别音素的排列、即与音素模式一致的字符串和单词的排列,并且导出适合作为语言的字符串和单词的排列。语法模型例如包括网络设定模型、工具设定模型、面向一般用户的电源设定模型以及面向管理者的电源设定模型。
网络设定模型是用于高精度地判别网络设定时使用的单词、字符串、命令等的语法模型。工具设定模型是用于高精度地判别在工具设定时使用的单词、字符串、命令等的语法模型。面向一般用户的电源设定模型是用于高精度地判别一般用户进行电源设定时使用的单词、字符串、命令等的语法模型。面向管理者的电源设定模型是用于高精度地判别管理者进行电源设定时使用的单词、字符串、命令等的语法模型。
网络设定模型、工具设定模型、面向一般用户的电源设定模型以及面向管理者的电源设定模型分别包括应对日语的模型、应对英语的模型、应对中文的模型以及应对德语的模型。
另外,各语法模型是通过进行将各语言的说话人发出的语言的文本信息作为训练数据的机器学习而生成的。例如,网络设定模型将表示在进行网络设定时由进行网络设定的作业者所使用的字符串以及单词的排列等的文本信息作为训练数据。语法模型将词类的排列方式等句子的构造、各单词的关联性等进行了公式化。
网络设定模型、工具设定模型、面向一般用户的电源设定模型以及面向管理者的电源设定模型在分别设定了网络设定参数、工具设定参数、面向一般用户的电源设定参数以及面向管理者的电源设定参数时被识别部25利用。
辞典存储部252存储辞典。辞典例如包括日语辞典、英语辞典、中文辞典以及德语辞典。
识别处理部253使用语音识别模型来执行语音识别处理。识别处理部253首先从语音信息中提取特征量。识别处理部253例如从作为模拟信号的语音信息中提取语音的强度以及频率特性作为特征量。
识别处理部253使用声学模型,根据提取出的特征量来判别语音信息中包含的音素。例如,在由临时设定参数选择部24选择了日语模型的情况下,识别处理部253使用日语模型,根据特征量来判别语音信息中包含的日语的音素以及音素的排列。
识别处理部253使用语法模型,判别与音素模式一致的字符串以及单词的排列,并且导出适合作为语言的字符串以及单词的排列。换言之,识别处理部253使用语法模型,以理解语音信息所表示的语言的意思的方式将语音信息文本化。识别处理部253在判别与音素模式一致的字符串以及单词的排列时,利用辞典存储部252中存储的辞典。
例如,在由临时设定参数选择部24选择了日语设定参数以及网络设定参数的情况下,识别处理部253使用应对日语的网络设定模型,将语音信息文本化。
识别处理部253在将语音信息文本化时,保持与音素模式一致的字符串以及单词的排列的多个候选,搜索最佳的字符串以及单词的排列。多个候选的最大数量被称为波束宽度,波束宽度例如被设定为1、3或者5。
识别处理部253计算表示语音识别的识别结果的信息。表示识别结果的信息包括表示语音信息的识别的准确度的可靠度。识别处理部253在文本化后的字符串以及单词的排列的候选多的情况下,将各识别结果的可靠度设为低的值。另一方面,在文本化后的字符串以及单词的排列的候选少的情况下,识别处理部253将各识别结果的可靠度设为高的值。识别处理部253以0以上且1以下的值计算可靠度。另外,可靠度的计算方法不限于此,也可以利用其他计算方法。
例如,在由识别部25识别出以日语、英语、中文以及德语等预定的语言发出的语音的语音信息为“想要确认IP地址”的情况下,表示识别结果的信息例如被导出为“想要确认IP地址(可靠度0.8)”以及“切断电源(可靠度0.1)”。
参数选择部26基于表示识别出的语音信息的识别结果的信息,选择临时设定参数中的任一个。参数选择部26例如基于可靠度来选择临时设定参数中的任一个。以下,将由参数选择部26选择的临时设定参数称为设定参数。
参数选择部26例如选择可靠度最大的设定参数。即,选择由临时设定参数选择部24选择出的多个组的参数中的、可靠度最大的设定参数的组。或者,参数选择部26也可以选择成为预定的阈值以上的可靠度的设定参数。
输出部27输出由参数选择部26选择的设定参数。换言之,输出部27在设定参数存储部28存储设定参数时,输出设定参数存储部28存储设定参数。
输出部27例如向设置于工业机械1的显示灯、输入输出装置3或扬声器等输出表示设定参数存储部28存储临时设定参数的信息。输出部27也可以在设定参数存储部28存储了设定参数时,输出设定参数存储部28存储了设定参数。
另外,输出部27输出由参数选择部26选择的设定参数所导出的语音识别的识别结果。
图4是表示显示于输入输出装置3的显示画面的图像的一例的图。当由参数选择部26选择设定参数时,在显示画面上例如显示表示识别结果的弹出画面。
设定参数存储部28存储由参数选择部26选择的设定参数。即,通过将由参数选择部26选择的设定参数存储于设定参数存储部28,进行参数设定。
当设定参数存储于设定参数存储部28时,即,当进行参数设定时,识别部25基于设定参数来识别语音信息。
接着,说明在语音识别装置20中进行的处理的流程的一例。由语音识别装置20进行的处理包括在准备阶段进行的处理、在参数设定阶段进行的处理以及在参数设定后进行的处理。
图5是表示在准备阶段进行的处理的一例的流程图。在语音识别装置20中,登记参数和语音识别模型(步骤SA1)。即,在参数存储部22以及模型存储部251中分别存储多个参数以及与多个参数对应的多个语音识别模型。此时,也可以进行辞典的登记等其他处理。
接着,登记可靠度的阈值(步骤SA2)。即,将成为参数选择部26选择临时设定参数时的基准的可靠度的阈值存储于预定的存储部(未图示)。另外,在参数选择部26选择导出了最大可靠度的临时设定参数等不需要登记阈值的情况下,不进行该处理。
接着,登记筛选基准信息(步骤SA3),处理结束。
接着,对在参数设定阶段进行的处理进行说明。
图6是表示在参数设定阶段进行的处理的一例的流程图。在参数设定阶段,首先,受理部21受理语音信息(步骤SB1)。
接着,筛选信息取得部23取得筛选信息(步骤SB2)。
接着,临时设定参数选择部24选择临时设定参数(步骤SB3)。
接着,识别部25识别语音信息(步骤SB4)。识别部25例如基于由临时设定参数选择部24选择出的多组临时设定参数来识别语音信息。
接着,参数选择部26基于识别部25的识别结果,选择临时设定参数中的任一个作为设定参数(步骤SB5)。
接着,输出部27输出由参数选择部26选择的设定参数(步骤SB6)。
接着,设定参数存储部28存储设定参数(步骤SB7),结束处理。
接着,对参数设定后进行的处理进行说明。
图7是表示在参数设定后进行的处理的一例的流程图。当设定参数时,受理部21受理语音信息(步骤SC1)。
接着,识别部25识别语音信息(步骤SC2)。此时,识别部25使用与设定参数相关联的语音识别模型来识别语音信息。由此,例如生成针对数值控制装置2的命令,根据所生成的命令进行数值控制装置2的控制或者各种设定。此外,当使用语音识别装置20的网络设定等处理结束时,语音识别装置20结束该处理。
在图6所示的参数的设定阶段,受理部21受理的语音信息仅用于参数设定。但是,在受理部21受理的语音信息例如被识别为数值控制装置2执行的命令的情况下,数值控制装置2的控制部(未图示)也可以执行该命令。
如以上说明的那样,语音识别装置20具备:受理部21,其受理语音信息的输入;参数存储部22,其存储用于设定语音识别模型的多个参数;临时设定参数选择部24,其基于筛选信息,从多个参数中选择临时设定的临时设定参数;识别部25,其基于所选择的临时设定参数,识别语音信息;以及参数选择部26,其基于表示所识别的语音信息的识别结果的信息,选择临时设定参数中的任一个作为设定参数。
因此,在语音识别装置20中,自动选择适当的参数。换言之,在语音识别装置20中,自动选择进行语音识别时的最佳的语音识别模型。其结果,能够降低语音识别模型的选择作业的负荷。
并且,在语音识别装置20中,基于筛选信息来筛选临时设定的参数。因此,临时设定的参数的数量或者参数的组的数量被削减。其结果,在语音识别装置20中,语音识别所涉及的处理的负荷降低。
另外,多个参数包括用于设定声学模型的多个声学设定参数以及用于设定语法模型的多个语法设定参数中的至少任一个。另外,表示识别结果的信息包括表示识别结果的可靠度的信息。另外,参数选择部26选择可靠度最大的设定参数。或者,参数选择部26选择可靠度为预定的阈值以上的设定参数。因此,语音识别装置20能够提高语音识别的精度。
另外,筛选信息包括确定发出语音的说话人的说话人信息。在该情况下,临时设定参数选择部24基于说话人信息选择临时设定参数。因此,对说话人进行最佳的参数设定。即,从大量语音识别模型中选择最佳的模型。
例如,在工厂等工业机械领域中,各作业者的职务范围被限定。因此,即使在预先登记了与各职务对应的各种语法模型的情况下,也选择最佳的语法模型。在该情况下,各语法模型成为识别各职务特有的语音信息的语法模型。因此,语音识别装置20能够提高语音识别的精度。
另外,筛选信息包含确定受理部21受理语音信息的受理时刻的时刻信息。例如,在夜间,在工业机械1中进行连续加工,因此在数值控制装置2中进行工具设定的可能性低。因此,即使语音识别装置20在夜间受理了声音信息,临时设定参数选择部24也能够不选择工具设定参数作为临时设定参数。即,语音识别装置20能够高效地筛选临时设定参数。
另外,筛选信息包含确定设置有取得语音的麦克风9的位置的位置信息。例如,在工厂中对工业机械1预先分配作业者。因此,在麦克风9设置于工业机械1的情况下,如果确定了位置信息,则大致确定说话人。因此,语音识别装置20能够基于位置信息高效地筛选临时设定参数。
另外,语音识别装置20还具备存储由参数选择部26选择出的设定参数的设定参数存储部28,识别部25基于存储于设定参数存储部28的设定参数来识别语音信息。因此,语音识别装置20能够基于自动设定的参数来识别语音信息。
另外,语音识别装置20还具备输出部27,该输出部27在设定参数存储部28存储设定参数时,输出表示设定参数存储部28存储设定参数的信息。因此,语音识别装置20能够向作业者提示是否进行参数设定。
在上述的实施方式中,作为一例,说明了通过将预先登记的说话人的语音信息与受理部21受理的语音信息进行比较而由筛选信息取得部23取得说话人信息的情况。但是,说话人信息也可以通过其他方法来取得。例如,筛选信息取得部23也可以具备用于推断说话人信息的已学习模型。
图8是表示筛选信息取得部23的功能的一例的框图。筛选信息取得部23具备用于确定说话人的已学习模型M。筛选信息取得部23通过将受理部21受理的语音信息输入到已学习模型M,从已学习模型M得到表示说话人信息的推断结果的输出。
已学习模型M例如通过使机器学习机学习利用语音识别装置20的多个说话人发出的各种语音的语音信息而生成。机器学习机例如通过进行深度学习来生成已学习模型M。此外,机器学习机可以设置于语音识别装置20,也可以设置于语音识别装置20以外的装置。
语音识别装置20还可以具备存储由参数选择部26选择的设定参数的履历信息的履历信息存储部。
图9是表示语音识别装置20的功能的一例的框图。图9所示的语音识别装置20在设定参数存储部28具备履历信息存储部281这一点上与图2所示的语音识别装置20不同。
履历信息存储部281存储由参数选择部26选择的设定参数的履历信息。因此,每当由参数选择部26新选择设定参数时,履历信息存储部281累积并存储所选择的设定参数。
在该情况下,临时设定参数选择部24也可以利用存储于履历信息存储部281的履历信息作为筛选信息,从多个参数中选择临时设定的临时设定参数。换言之,筛选信息包含存储于履历信息存储部281的履历信息。
临时设定参数选择部24例如从存储于履历信息存储部281的设定参数、即识别部25进行语音识别时已经利用的参数中选择临时设定参数。由此,能够降低选择临时设定参数时的处理负荷,提高处理速度。即,能够高效地筛选临时设定参数。
在上述的实施方式中,由参数选择部26选择的设定参数存储于设定参数存储部28。但是,也可以不必将由参数选择部26选择出的设定参数存储于设定参数存储部28。在该情况下,语音识别装置20还可以具备指示信息受理部,该指示信息受理部受理指示不使设定参数存储于设定参数存储部28的指示信息,在指示信息受理部在预定的受理期间内未受理指示信息的情况下,设定参数存储部28存储由参数选择部26选择出的设定参数。
图10是表示语音识别装置20的功能的一例的框图。语音识别装置20除了图2所示的语音识别装置20的各部以外,还具备指示信息受理部29。
指示信息受理部29受理表示不使设定参数存储部28存储由参数选择部26选择的设定参数的指示信息。例如,当由参数选择部26选择设定参数时,输出部27将表示根据所选择的设定参数而导出的识别结果的信息输出至输入输出装置3。输入输出装置3使由输出部27输出的表示识别结果的信息显示于显示画面。
图11是表示显示于输入输出装置3的显示画面的图像的一例的图。在显示画面中显示用于指示不使设定参数存储于设定参数存储部28的图像。具体而言,在显示画面中显示受理部21受理的语音信息的识别结果和指示不承认识别结果的按钮图像。在此,识别结果是将语音信息文本化后的“想要确认IP地址”的字符串和表示语音信息的识别的准确度的“可靠度0.8”的字符串。
例如,输入输出装置3使表示根据由参数选择部26选择的设定参数导出的识别结果的信息显示于显示画面3秒钟。在3秒钟的期间触摸了按钮图像的情况下,指示信息受理部29接受指示不使设定参数存储于设定参数存储部28的指示信息。在该情况下,设定参数存储部28不存储设定参数。
另一方面,在3秒钟的期间按钮图像未被触摸的情况下,指示信息受理部29不接受指示不使设定参数存储于设定参数存储部28的指示信息。在该情况下,设定参数存储部28存储由参数选择部26选择的设定参数。
由此,根据是否由参数选择部26选择了适当的设定参数,作业者能够选择是否进行参数设定。
此外,本公开不限于上述实施方式,能够在不脱离主旨的范围内适当变更。在本公开中,能够进行实施方式的任意的构成要素的变形、或者实施方式的任意的构成要素的省略。
符号说明
1工业机械、
2数值控制装置、
20语音识别装置、
201硬件处理器、
202总线、
203ROM、
204RAM、
205非易失性存储器、
206第一接口、
207轴控制电路、
208主轴控制电路、
209PLC、
210I/O单元、
211第二接口、
21受理部、
22参数存储部、
23筛选信息取得部、
24临时设定参数选择部、
25识别部、
251模型存储部、
252辞典存储部、
253识别处理部、
26参数选择部、
27输出部、
28设定参数存储部、
281履历信息存储部、
29指示信息受理部、
3输入输出装置、
4伺服放大器、
5伺服电动机、
6主轴放大器、
7主轴电动机、
8辅助设备、
9麦克风、
M已学习模型。

Claims (12)

1.一种语音识别装置,其特征在于,具备:
受理部,其受理语音信息的输入;
参数存储部,其存储用于设定语音识别模型的多个参数;
临时设定参数选择部,其基于筛选信息,从所述多个参数中选择临时设定的临时设定参数;
识别部,其基于所选择的所述临时设定参数,识别所述语音信息;以及
参数选择部,其基于表示所识别的所述语音信息的识别结果的信息,选择所述临时设定参数中的任一个。
2.根据权利要求1所述的语音识别装置,其特征在于,
所述多个参数包括用于设定声学模型的多个声学设定参数以及用于设定语法模型的多个语法设定参数中的至少任一个。
3.根据权利要求1或2所述的语音识别装置,其特征在于,
表示所述识别结果的信息包括表示所述识别结果的可靠度的信息。
4.根据权利要求3所述的语音识别装置,其特征在于,
所述参数选择部选择所述可靠度最大的所述临时设定参数。
5.根据权利要求3所述的语音识别装置,其特征在于,
所述参数选择部选择所述可靠度为预定的阈值以上的所述临时设定参数。
6.根据权利要求1至5中的任一项所述的语音识别装置,其特征在于,
所述筛选信息包含确定发出语音的说话人的说话人信息。
7.根据权利要求6所述的语音识别装置,其特征在于,
通过用于推断所述说话人信息的已学习模型取得所述筛选信息。
8.根据权利要求1至7中的任一项所述的语音识别装置,其特征在于,
所述筛选信息包含确定所述受理部受理所述语音信息的受理时刻的时刻信息以及确定设置有麦克风的位置的位置信息中的任一个。
9.根据权利要求1至8中的任一项所述的语音识别装置,其特征在于,
所述语音识别装置还具备:履历信息存储部,其存储由所述参数选择部选择出的所述临时设定参数的履历信息,
所述筛选信息包含存储于所述履历信息存储部的所述履历信息。
10.根据权利要求1至9中的任一项所述的语音识别装置,其特征在于,
所述语音识别装置还具备:设定参数存储部,其存储由所述参数选择部选择出的所述临时设定参数,
所述识别部基于存储于所述设定参数存储部的所述临时设定参数来识别所述语音信息。
11.根据权利要求10所述的语音识别装置,其特征在于,
所述语音识别装置还具备:指示信息受理部,其受理指示不使所述设定参数存储部存储所述临时设定参数的指示信息,
在所述指示信息受理部在预定的受理期间内未受理所述指示信息的情况下,所述设定参数存储部存储由所述参数选择部选择出的所述临时设定参数。
12.根据权利要求10或11所述的语音识别装置,其特征在于,
所述语音识别装置还具备:输出部,其在所述设定参数存储部存储所述临时设定参数时,输出表示所述设定参数存储部存储所述临时设定参数的信息。
CN202180099499.4A 2021-06-22 2021-06-22 语音识别装置 Pending CN117546235A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/023627 WO2022269760A1 (ja) 2021-06-22 2021-06-22 音声認識装置

Publications (1)

Publication Number Publication Date
CN117546235A true CN117546235A (zh) 2024-02-09

Family

ID=84545328

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180099499.4A Pending CN117546235A (zh) 2021-06-22 2021-06-22 语音识别装置

Country Status (4)

Country Link
JP (1) JPWO2022269760A1 (zh)
CN (1) CN117546235A (zh)
DE (1) DE112021007479T5 (zh)
WO (1) WO2022269760A1 (zh)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60208800A (ja) * 1984-04-03 1985-10-21 三菱電機株式会社 単語音声認識装置
JP2008064885A (ja) * 2006-09-05 2008-03-21 Honda Motor Co Ltd 音声認識装置、音声認識方法、及び音声認識プログラム
US7890326B2 (en) * 2006-10-13 2011-02-15 Google Inc. Business listing search
JP4877112B2 (ja) * 2007-07-12 2012-02-15 ヤマハ株式会社 音声処理装置およびプログラム
KR20140077773A (ko) * 2012-12-14 2014-06-24 한국전자통신연구원 사용자 위치정보를 활용한 음성 인식 장치 및 방법
KR20200059703A (ko) * 2018-11-21 2020-05-29 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
JP6966501B2 (ja) 2019-03-25 2021-11-17 ファナック株式会社 工作機械および管理システム

Also Published As

Publication number Publication date
DE112021007479T5 (de) 2024-03-21
JPWO2022269760A1 (zh) 2022-12-29
WO2022269760A1 (ja) 2022-12-29

Similar Documents

Publication Publication Date Title
EP3023979B1 (en) Method and system for recognizing speech using wildcards in an expected response
US10068566B2 (en) Method and system for considering information about an expected response when performing speech recognition
EP2309489A1 (en) Methods and systems for considering information about an expected response when performing speech recognition
JP7198824B2 (ja) 工作機械の制御装置
CN114863927B (zh) 一种基于语音识别的数控机床交互控制方法及系统
JP6675078B2 (ja) 誤認識訂正方法、誤認識訂正装置及び誤認識訂正プログラム
WO2000038881A1 (fr) Procede et appareil fournissant des informations de commande numerique
CN111894582B (zh) 一种采煤机控制方法
CN106845628A (zh) 机器人通过互联网自主学习生成新指令的方法和装置
CN117546235A (zh) 语音识别装置
US11314221B2 (en) Machine tool and management system
JP4503310B2 (ja) 電子機器制御装置
CN111844085B (zh) 机器人示教装置
CN115964115B (zh) 基于预训练强化学习的数控机床交互方法及相关设备
CN110174874B (zh) 数值控制装置
WO2023042277A1 (ja) 操作訓練装置、操作訓練方法、およびコンピュータ読み取り可能な記憶媒体
CN118302807A (zh) 语音识别装置以及计算机可读取的存储介质
CN113539264B (zh) 一种语音控制电动门的语音指令数据传输方法及系统
WO2023100236A9 (ja) 音声認識装置、およびコンピュータ読み取り可能な記憶媒体
WO2023218522A1 (ja) 機械操作装置
KR100934651B1 (ko) 전자동 세탁기의 음성인식장치
WO2023139769A1 (ja) 文法調整装置、及びコンピュータが読み取り可能な記憶媒体
WO2023152803A9 (ja) 音声認識装置、及びコンピュータが読み取り可能な記録媒体
JPH05210763A (ja) 自動学習型文字認識装置
EP4060442A1 (en) Diagnostic apparatus, system, diagnostic method, and carrier means

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination