CN114830230A - 利用键盘宏功能的自动语音识别器及语音识别方法 - Google Patents

利用键盘宏功能的自动语音识别器及语音识别方法 Download PDF

Info

Publication number
CN114830230A
CN114830230A CN202080074937.7A CN202080074937A CN114830230A CN 114830230 A CN114830230 A CN 114830230A CN 202080074937 A CN202080074937 A CN 202080074937A CN 114830230 A CN114830230 A CN 114830230A
Authority
CN
China
Prior art keywords
data
transcription data
transcription
input
macro
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080074937.7A
Other languages
English (en)
Inventor
全昰璘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Foster Ai Co ltd
Original Assignee
Foster Ai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Foster Ai Co ltd filed Critical Foster Ai Co ltd
Publication of CN114830230A publication Critical patent/CN114830230A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0238Programmable keyboards
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • G06F3/04886Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures by partitioning the display area of the touch-screen or the surface of the digitising tablet into independently controllable areas, e.g. virtual keyboards or menus
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/20ICT specially adapted for the handling or processing of patient-related medical or healthcare data for electronic clinical trials or questionnaires
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H40/00ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
    • G16H40/60ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices
    • G16H40/63ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices for local operation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Epidemiology (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Biomedical Technology (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • User Interface Of Digital Computer (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明涉及一种利用键盘宏功能的自动语音识别器及语音识别方法,其中,利用键盘宏功能的自动语音识别方法包括如下步骤:转录数据生成部基于通过麦克风输入的语音数据而生成转录数据;当在所生成的所述转录数据中包括为了执行宏功能而预先设定的标记对象单词时,标记部对所生成的所述转录数据进行标记,并进行会话化及保存;将所生成的所述转录数据以虚拟键盘输入的方式显示于实用程序上的可输入数据的空间。通过所述方法导出可提供如下的自动语音识别器及语音识别方法的效果:在医疗现场给实际患者诊疗时,难以手动记录电子病历、纸质手术记录等的状况下,可将语音直接以文本形式记录,进而提供便利。

Description

利用键盘宏功能的自动语音识别器及语音识别方法
技术领域
本发明涉及一种利用键盘宏功能的自动语音识别器及语音识别方法,更详细地说,涉及转录语音数据并执行标记工作的利用键盘宏功能的医疗用自动语音识别器及语音识别方法。
背景技术
现有的EMR(电子医疗记录,Electronic Medical Record)系统具有将患者的医疗记录全部以电子方式录入和管理的优点,但相比于对患者的治疗,医务人员的工作主要集中于记录本身。
然而,在诊疗时出现医生需要看输入医疗记录的电脑画面进行诊疗,而不是看患者的状况。
尤其是,在无法在治疗的同时使用双手的情况下,诸如手术室或者临床病理科,难以使用鼠标/键盘,因此为了在诊疗的同时进行纸质医疗记录或者患者诊疗记录,需要执行额外的操作,为此需要辅助人员的帮助。
另一方面,韩国授权专利354,365号(发明名称:具有语音指令输入识别功能的交互式计算机控制显示系统及向该系统的语音指令输入提供方法)涉及具有语音指令输入识别功能的交互式计算机控制显示系统及向该系统的语音指令输入提供方法,也涉及用于语音指令输入识别(speech command input recognition)及视觉反馈(visual feedback)的对话式或交互式计算机控制显示系统(interactive computer controlled displaysystem),该系统包括:预先决定多个语音指令,各自启动(initiate)相应的多个系统操作的手段;提供分别与多个指令相关的语音术语集合(an associated set of speechterms)的手段。
此时,各个术语和与自身相关的指令具有关联性(relevance),并且包括检测语音指令和语音术语的手段,并且提供响应于语音指令的检测来显示所述指令的手段、响应于与所述指令中一条指令具有关联性的检测到的语音术语来显示关联指令的手段。
如此,通常关于识别语音提供根据语音指令的功能的技术正在持续进行开发。
发明内容
技术问题
本发明从如上所述的技术背景导出的,其目的在于提供一种自动语音识别器及语音识别方法,在医疗现场给实际患者诊疗时,难以用手记录电子病历、纸质手术记录等的状况下,将语音直接以文本形式记录,进而提供便利。
另外,提供如下的自动语音识别器及语音识别方法:在医疗现场,通过在记录系统的输入栏始终激活的语音识别器将语音转录为文本,并且无需单独的键盘或者鼠标,通过键盘宏输入器仅用语音输入即可搜索所需信息或者执行指令,因此信息处理效率性高。
技术方案
用于达到如上所述的课题的本发明包括如下的结构。
即,本发明的一实施例的利用键盘宏功能的自动语音识别器执行的医疗用自动语音识别方法包括如下的步骤:转录数据生成部基于通过麦克风输入的语音数据生成转录数据;及当在所生成的所述转录数据包括为了执行宏功能而预先设定的标记对象单词,则标记部在所生成的所述转录数据进行标记并进行会话化及保存。
根据本发明一实施方式,还包括如下的步骤:若在所生成的所述转录数据包括预先设定的标记对象单词,则宏执行部调用在所述会话化及保存的步骤中会话化并保存的转录数据,以根据宏功能执行动作。
另一方面,利用键盘宏功能的自动语音识别器包括:转录数据生成部,基于通过麦克风输入的语音数据生成转录(transcription)数据;及标记部,若在所述转录数据生成部生成的转录数据包括为了执行宏功能而预先设定的标记对象单词,则在所生成的所述转录数据进行标记并进行会话化及保存。
根据本发明一实施方式,利用键盘宏功能的自动语音识别器还包括宏执行部,若在所述转录数据生成部生成的转录数据包括预先设定的标记对象单词,则所述宏执行部调用在所述标记部会话化的转录数据,根据宏功能执行动作。
发明效果
根据本发明,导出可提供如下的自动语音识别器及语音识别方法的效果:在医疗现场给实际患者诊疗时,难以用双手记录电子病历、纸质手术记录等的状况下,可将语音直接以文本形式记录,进而提供便利。
另外,可提供如下的医疗用自动语音识别器及语音识别方法:通过本发明的利用键盘宏功能的自动语音识别器及语音识别方法,尤其是在医疗现场通过在记录系统的输入栏始终激活的语音识别器以文本方式转录语音,无需单独的键盘或者鼠标,通过键盘宏输入器只用语音输入就可执行所需信息的搜索或者命令,因此信息处理的效率性高。
具体为,在无法进行单独的鼠标或者键盘操作的状况下,诸如在手术室正在手术中的情况,能够不受环境影响,直接通过语音记录医疗信息,因此可提高信息的准确度,并且可更加提高患者的治疗或者手术过程的集中度。
进一步地,由于医疗环境的特性,医生一边诊疗病人一边输入医疗记录的时间不够,因此通过语音输入代替输入方式,可以增加便利性,并且提高医生的时间效率。
附图说明
图1是用于说明本发明的一实施例的利用键盘宏功能的医疗用自动语音识别器的动作的示例图;
图2是示出本发明的一实施例的利用键盘宏功能的医疗用自动语音识别器的结构的框图;
图3是示出本发明的一实施例的利用键盘宏功能的医疗用自动语音识别方法的流程图。
具体实施方式
以下,参照附图详细说明本发明的优选实施例。
图1是用于说明本发明的一实施例的利用键盘宏功能的医疗用自动语音识别器的动作的示例图。
如图1所示,一实施例的利用键盘宏功能的自动语音识别器10在医疗现场通过麦克风接收语音信息。如此,自动语音识别器10与语音识别器服务器20执行通信的同时生成基于语音数据的转录数据。
此时,语音识别器服务器20包括提供一实施例的医疗用自动语音识别服务的平台。然后,语音识别器服务器20可提供为了通过自动语音识别器10转录语音数据所需的基本信息。
自动语音识别器10以转录数据为基础自动执行键盘输入功能。即,一实施例的自动语音识别器10为即使未输入实际物理性的键盘或者鼠标的操作信息,也可通过键盘宏输入器功能根据转录数据执行动作或者功能。
根据本发明,自动语音识别器10在医疗现场通过在记录系统的输入栏使用的语音识别器服务器20将输入语音转录为文本,之后通过键盘宏输入器自动输入并保存,无需使用单独使用鼠标或者键盘。
举一示例,在语音内容中将成像位置信息等单独标记并保存于会话,当使用语音发出与成像位置或者特定信息相关的请求时,突出显示或者用语音反馈与成像位置相关的信息,也可对语音模板内的空格即变量值进行修改及输入处理。
另外,一实施例的自动语音识别器10除了电子医疗记录(EMR)程序以外,还能够在诸如记事本、聊天程序、韩文或者Word和Excel的各种实用程序上的可输入数据的空间转录识别到的语音,进而以文字形式输出。
以往,需要进行将语音识别并转录的文本形式的信息用鼠标剪切、复制并粘贴于所需区域的工作。然而,本发明的一实施例的自动语音识别器10是以由虚拟键盘直接输入语音识别的内容的方式进行文本转换并输出于画面,因此可以像用键盘直接输入于程序上的一样输出到屏幕。
据此,具有在将由自动语音识别器10识别的语音以文字形式显示时,可适用转录内容的程序范围广泛的优点。
从而,一实施例的自动语音识别器10在医疗行业内不受EMR程序种类的限制,只要存在输入栏,就无需单独的联动工作,就像用实际的键盘输入一样在输入栏内输入经过语音识别得出的结果。
另外,一实施例的自动语音识别器10除了电子医疗记录(EMR)程序以外,还可适用于医学影像存储传输系统(PACS)及各种医疗程序。
在一实施例中,自动语音识别器10作为IP分配终端机,通过互联网等与语音识别器服务器20执行网络通信。例如,可以是台式电脑(desktop PC)、触屏平板电脑(slatePC)、笔记本电脑(notebook computer)、便携式多媒体播放器(PMP,Portable MultimediaPlayer)、超极本(ultrabook)、可穿戴设备(wearable device;例如手表式终端(smartwatch)、玻璃型终端(smart glass)、头戴式显示器(head mounted display,HMD))等。
当然,可适用本发明的终端机不限于上述的种类,而是能够与外部装置通信的终端机可全部包括在内。
不仅如此,例如作为保障便携性和移动性的无线通信装置,可包括所有种类的基于手持式(Handheld)的无线通信装置,诸如导航仪、PCS(Personal CommunicationSystem,个人通讯系统)、GSM(Global System for Mobile communications,全球移动通信系统)、PDC(Personal Digital Cellular,个人数字蜂窝)、PHS(Personal HandyphoneSystem,个人手机系统)、PDA(Personal Digital Assistant,个人数字助理)、IMT(International Mobile Telecommunication,国际移动通信)-2000、CDMA(Code DivisionMultiple Access,码分多址)-2000、W-CDMA(W-Code Division Multiple Access,W-码分多址)、Wibro(Wireless Broadband Internet,无线宽带互联网)终端、智能手机(smartphone)、智能平板(smartpad)、平板电脑(Tablet PC)等。
图2是示出本发明的一实施例的利用键盘宏功能的医疗用自动语音识别器的结构的框图。
如图2所示,一实施例的利用键盘宏功能的自动语音识别器10接收通过麦克风170输入的语音数据。然后,通过脚踏开关30接收开/关信号。
另外,通过显示部40执行通过语音数据请求的动作,进而可在画面显示所需信息。
此时,通过显示部40在画面显示信息时,除了医疗机关的电子医疗记录(EMR)程序以外,还可在诸如记事本、聊天程序、韩文或者Word和Excel的各种实用程序上的可输入数据的空间转录识别的语音并以文本形式输出。
由于是以虚拟键盘直接输入的方式将语音识别的内容文本转换来输出于画面,因此可与用键盘直接输入于程序上的同样进行画面输出。
据此,具有在将由自动语音识别器10识别的语音以文字形式显示时,可适用转录内容的程序范围广泛的优点。
从而,一实施例的自动语音识别器10在医疗行业内不受EMR程序种类的限制,只要存在输入栏,就无需单独的联动工作,就像用实际的键盘输入的一样在输入栏内输入经过语音识别得出的结果。
不仅如此,自动语音识别器10也可与各种成像设备或者医疗设备联动。即,在一实施例中,根据通过麦克风170输入的语音数据或者脚踏开关30的开/关操作也可控制联动的成像设备或者医疗设备的动作。
根据一实施方式,脚踏开关30具有开关操作功能。一实施例的自动语音识别器10实现为在用脚踩踏一个脚踏开关30的期间激活语音识别器内的麦克风170,若将脚移开则停用麦克风170。
以往,要激活自动语音识别器10,需要用内置于麦克风的按钮激活录音或者通过鼠标点击激活麦克风。根据本发明的如上所述的一实施方式,在难以使用双手的状况下,由在自动语音识别器10驱动的程序接收从脚踏开关30发出的信号用作激活自动语音识别器10的触发器,进而可提供便利。也可实现为根据使用人员的选择通过内置于麦克风的按钮或鼠标点击激活麦克风。
另外,根据另一实施例,具有多个脚踏开关30。当具有多个脚踏开关30的情况下,可设定每个开启状态的脚踏开关30执行相互不同的功能,例如更改输入线或者调用已保存的模板等。
根据其他一实施例,在激活自动语音识别器10和麦克风170的状态下,自动语音识别器10一边以会话形式记录通过麦克风170输入的语音的同时一边留意,若检测到特定的启动关键词,诸如“开始记录”等预先设定的关键词,则将从此之后语音识别的结果使用基于键盘宏的输入器输入。
即,实现为通过关键词“开始记录”,将转录的数据以键盘输入的形式显示于显示部40。
相反,若检测到特定的结束关键词(“结束记录”),则将从此之后语音识别的结果重新以会话形态记录的同时待机至检测到特定的开始关键词。即,若识别到结束记录的含义的预先设定的关键词,诸如“结束记录”,则即使在此之后识别到语音也不会在显示部40显示转录的内容。
一方面,根据本发明,可提供如下方式的自动语音输入器:在医疗现场将通过在记录系统的输入栏始终处于激活状态的自动语音识别器10输入的语音转录成文本,并且无需单独的键盘或者鼠标,通过键盘宏输入器输入转录的文本。
一实施例的利用键盘宏功能的自动语音识别器10包括:通信部100、存储部110、转录数据生成部120、标记部130、宏执行部140、模板调用部150及模板反映部160。
通信部100可包括用于支持有线通信的通信模块以及用于支持无线通信的移动通信模块。移动通信模块根据用于移动通信的技术标准或者通信方式(例如,GSM(GlobalSystem for Mobile communication,全球移动通信系统)、CDMA(Code Division MultiAccess,码分多址)、CDMA2000(Code Division Multi Access 2000)、EVDO(EnhancedVoice-Data Optimized or Enhanced Voice-Data Only,增强语音数据优化或仅增强语音数据)、WCDMA(Wideband CDMA,宽带CDMA)、HSDPA(High Speed Downlink Packet Access,高速下行链路分组接入)、HSUPA(High Speed Uplink Packet Access,高速上行链路分组接入)、LTE(Long Term Evolution,长期演进)、LTE-A(Long Term Evolution-Advanced,高级长期演进)等)构建的移动通信网上与基站及外部终端中的至少一种收发无线信号。
根据一实施例,通信部100与语音识别器服务器20执行数据通信。在基于通过麦克风输入的语音数据生成转录数据的过程中,可从语音识别器服务器20接收所需信息。
另外,通信部100可与物理性分开的医疗检测仪或者医疗成像设备执行通信。通信部100以有线通信或者近距离无线通信方式,可从医疗检测仪或者医疗成像设备接收医疗数据或者成像数据。另外,也可向医疗检测仪或者医疗成像设备发送控制信号。
存储部110保存基于语音数据生成转录数据所需的程序。在此,存储部110为,即使未供应电源也持续保持已保存的信息的非易失性存储装置及易失性存储装置的统称。
例如,存储部110可包括:诸如紧凑式闪存(compact flash;CF)卡、SD(securedigital,安全数字)卡、记忆棒(memory stick)、固态硬盘(solid-state drive;SSD)及微型(micro)SD卡等的NAND闪存;诸如硬盘驱动器(hard disk drive;HDD)等的磁性计算机存储器;及诸如CD-ROM、DVD-ROM等的光盘驱动器(optical disc drive)等。
根据一实施例,存储部110存储用于生成转录数据的程序和从转录数据执行宏功能的标记对象单词。标记对象单词可以是由使用人员预先设定的。
转录数据生成部120通过执行在存储部110存储的程序,基于通过麦克风170输入的语音数据而生成转录(transcription)数据。
在自动语音识别中,由于在源数据是语音的情况下不可能直接提取所需信息,因此转录数据生成部120必须执行转换通过麦克风170输入的语音数据的字符串的转录过程。
根据一实施例,转录数据生成部120可生成文本形式的转录数据。
若在转录数据生成部120生成的转录数据中包括为了执行宏功能而预先设定的标记对象单词,则标记部130对于所生成的转录数据进行标记并进行会话化后,存储在存储部110。
标记部130用于确定在转录数据是否包括执行宏功能的标记对象单词。
标记对象单词是由使用人员或者服务人员预先设定的。例如,由“成像部位”、“成像位置”、“容量”、“显示”、“换行”、“括号”的关键词实现。即,标记对象单词可以是用于执行宏功能的关键词。
例如,通过麦克风170输入“该成像位置为升结肠(ascending colon)”的语音数据,则标记部130标记“成像位置”来保存于会话中。
此时,关于“成像位置”的标记,标记部130将通过语音输入的成像位置和从医疗成像设备输入的成像数据一同进行标记并保存。例如,成像数据可以是利用超声波或者MRI技法成像的图像或者影像文件。
根据辅助性的一实施方式,若使用人员输入关键词,则标记部130也可从输入的搜索词判断单词关联性,通过考虑医学术语的本体(Ontology)逻辑掌握含义范围,将关键词搜索范围限制在含义范围内。据此,能够在转录并处理语音数据的过程中实现准确度更高的语音识别。
即,一实施例的利用键盘宏功能的自动语音识别器10可将通过麦克风170输入的语音数据转换为文本形式并像会话一样保持。因此,在因医疗环境特性而难以使用双手的情况下,也可起到记录并记忆当前状况的辅助记忆装置的作用。
例如,若在通过麦克风语音输入预定的代码之后输入诸如患者的姓名或者诊疗代码的信息,则可作为识别代码追加到最近在标记部130进行会话化并保存的转录数据中。
若在转录数据生成部120生成的转录数据中包括预先设定的标记对象单词,则宏执行部140调用在标记部130会话化的转录数据,执行基于宏(macro instruction)功能的动作。
即,若在转录数据输入为执行宏功能而设定的标记单词,则宏执行部140执行所设定的相应功能。
例如,若输入“告诉我成像位置”的语音数据,则在到目前为止在标记部130会话化保存的记录内容中,将与“成像位置”相关的信息突显并以可视性数据区分提供。不仅如此,也可通过语音反馈与成像位置相关的数据相关信息。
另外,还可提供与“成像位置”的标记信息匹配保存的来自医疗成像设备的成像图像或者成像影像信息。
例如,若识别到“进行影像成像,已经过横结肠(Transverse colon),现在进入升结肠(ascending colon)”的语音,则转录数据生成部120将该语音转换为转录数据,宏执行部140识别出“影像成像”的标记,将使用医疗成像设备成像的影像与识别到的转录数据一同保存。
之后,若识别到“搜索影像,从横结肠(Transverse colon)至(ascending colon)”的语音,则转录数据生成部120将该语音转换为转录数据,宏执行部140识别出“搜索影像”的标记,在已保存的信息中提取被识别为来自医疗成像设备的该部位成像数据的数据,并作为搜索结果提供。
根据一实施方式,模板调用部150根据宏功能调用预先设定的转录数据的语句模板。语句模板不限于某一种。语句模板形式除了短句形式以外,还可实现为包括多个语句的形式。
例如,若输入诸如“调出1号模板”、“显示1号模板”的语音数据,则模板调用部150在已保存的模板列表中调用指定为1号模板的模板语句。
在此,模板调用部150也可通过调用作为远程存储介质的远程模板服务器记录的内容的方法调用模板。即,可利用多样且可更新的模板形式。
此时,对于模板的区分也可利用序列号码区分或者根据状况用关键词区分。用于区分模板的识别信息,即序列号码或者各状况的关键词可以是由使用人员预先设定的。
此时,在模板调用部150调用的模板语句能够以语音形式输出或者通过画面以可视性的形式输出。
模板反映部160接收基于通过麦克风170输入的语音数据调用的语句模板的变量值并反映该变量值。
使用人员可在确认以语音形式输出或者通过画面以可视性形式输出的由模板调用部150调用的模板语句的同时,通过语音输入变量值。
例如,在模板调用部150调用的模板语句为“注射西托溴铵(cimetropium)1)___,之后利用2)___利多卡因(Lidocane)执行咽部麻醉”的情况下,使用人员通过麦克风170语音输入“变量值1号5mg”、“变量值2号10%”来修改模板语句的内容或者重新输入变量值。
即,对于可重复的状况预先设定模板语句,在诊疗检查之后根据患者只输入可更改的变量值,进而可在输入诊疗记录或者手术进行状况时提供便利。
此时,对于输入在模板调用部150调用的模板语句的变量值能够以各种形式进行变换及应用。
模板反映部160将反映输入的变量值而重新生成的模板语句提供给标记部130或者宏执行部140,进而将该模板语句会话化并保存,或者执行相应的动作。
即,宏执行部140利用反映变量值的转录数据执行该功能所需动作,或者在标记部130识别为新数据进行会话化及保存。
根据本发明的附加性的一实施方式,一实施例的自动语音识别器10还包括具有开关操作功能的脚踏开关30。
而且,在脚踏开关30处于开启(ON)状态时,转录数据生成部120基于通过麦克风170输入的语音数据生成转录(transcription)数据。
根据该实施方式,在难以使用双手的状况下,由自动语音识别器10驱动的程序接收从脚踏开关30发出的信号来用作激活语音识别器10的触发器,进而可提供便利。
进一步地,可具有多个脚踏开关30。在多个脚踏开关30的情况下,可根据打开开关的脚踏开关的种类及个数实现输入的换行或者调用已保存的模板等的功能。
例如,可实现为:在具有脚踏开关a、b、c的情况下,若脚踏开关a处于开启状态,则从通过麦克风输入的语音数据生成转录数据,若只有脚踏开关b处于开启状态,则从通过麦克风输入的语音数据生成转录数据并直接保存该转录数据,若只有脚踏开关c处于开启状态,则以模板调用模式进行动作。
另外,也可实现为:若脚踏开关a和b同时处于开启状态,则返回到初始状态。根据脚踏开关30的操作执行的功能不限于此,而是包括各种变形例。即,无需使用手进行输入,可利用多个脚踏开关30输入各种操作信号。
根据本发明的一实施方式,利用键盘宏功能的医疗用自动语音识别器还可包括人工智能模块。
人工智能(AI)模块还可执行通过用麦克风170输入的语音数据请求的各种功能。另外,人工智能模块可包括深度学习(Deep learnning)训练模块,以通过训练自行学习基于语音识别的动作。根据一实施例,人工智能模块可根据语音识别的转录数据,通过网络搜索追加提供所需信息。
图3是示出本发明的一实施例的利用键盘宏功能的医疗用自动语音识别方法的流程图。
在由利用键盘宏功能的医疗用自动语音识别器执行的医疗用自动语音识别方法中,首先,若通过麦克风输入语音数据(S300),则转录数据生成部基于通过麦克风输入的语音数据生成转录(transcription)数据(S320)。
此时,在生成转录数据的步骤中,当具有开关操作功能的脚踏开关处于开启(ON)状态时(S310),基于通过麦克风输入的语音数据生成转录(transcription)数据。
根据该实施方式,在难以使用双手的状况下,由医疗用自动语音识别器驱动的程序接收从脚踏开关发出的信号,将其用作激活语音识别器的触发器,进而可提供便利。
然后,若在转录数据生成部生成的转录数据中包括为了执行宏功能而预先设定的标记对象单词(S330),则标记部在所生成的转录数据进行标记,并进行会话化及保存(S340、S350)。
标记部用于确定在转录数据是否包括执行宏功能所需的标记对象单词。
标记对象单词是由使用人员或者服务人员预先设定的。例如,由“成像部位”、“成像位置”、“容量”、“显示”的关键词实现。即,标记对象单词可以是用于执行宏功能的关键词。
例如,通过麦克风输入“该成像位置为升结肠(ascending colon)”的语音数据,则标记部将“成像位置”进行标记并保存于会话中。
即,将通过麦克风输入的语音数据转换为文本形式并保持为会话形式。因此,在因医疗环境特性而难以使用双手的情况下,也可起到记录并记忆当前状况的辅助记忆装置的作用。
相反地,若在转录数据生成部生成的转录数据中包括预先设定的标记对象单词,则宏执行部调用在会话化及保存的步骤中被会话化并保存的转录数据,以执行基于宏功能的动作(S360、S365)。
根据一实施例,即,若在转录数据输入被设定为执行宏功能的标记单词,则宏执行部140可执行所设定的相应功能。
例如,若输入“告诉我成像位置”的语音数据,则到目前为止在标记部130会话化并保存的记录内容中与“成像位置”相关的信息突显并以可视性数据提供。不仅如此,也可通过语音进行反馈。
根据本发明的一实施方式,若模板调用部调用根据宏功能预先设定的转录数据的语句模板(S370),则模板反映部接收基于通过麦克风输入的语音数据调用的语句模板的变量值,并反映该变量值(S375)。
例如,若输入诸如“调出1号模板”、“显示1号模板”的语音数据,则模板调用部在已保存的模板列表中调用指定为1号模板的模板语句。
此时,对于模板的区分也可利用序列号区分或者通过针对某状况的关键词区分。
在模板调用部调用的模板语句能够以语音形式输出或者通过画面以可视性的形式输出。
然后,模板反映部接收基于通过麦克风输入的语音数据调用的语句模板的变量值,并反映该变量值。
使用人员在确认以语音形式输出或者通过画面以可视性形式输出的由模板调用部调用的模板语句的同时,输入变量值。
例如,在模板调用部调用的模板语句为“注射西托溴铵(cimetropium)1)___,之后利用2)___利多卡因(Lidocane)执行咽部麻醉”的情况下,作为变量值输入“1号5mg”、“2号10%”,进而修改模板语句的内容或者重新输入变量值。对于输入调用的模板语句的变量值,能够以各种形式变换及应用。
模板反映部将反映输入的变量值而重新生成的模板语句提供给标记部或者宏执行部,进而将该模板语句会话化并保存,或者执行相应的动作。
附加性地,根据一实施例的利用键盘宏功能的医疗用自动语音识别方法,医疗用自动语音识别器对于未包括标记单词的普通语音数据命令也可执行相应动作(S380)。
之后,通过显示部执行用语音数据请求的动作,进而将所需信息显示于画面。
此时,在通过显示部将信息显示画面时,除了医疗机关的电子医疗记录(EMR)程序以外,还可将识别到的语音转录到诸如记事本、聊天程序、韩文或者Word和Excel的各种实用程序上的可输入数据的空间中,并以文本形式输出(S390)。
由于是以虚拟键盘直接输入的方式对语音识别的内容进行文本转换来输出于画面,因此可以就像用键盘直接输入于程序上的一样进行画面输出。
上述的方法可通过应用程序实现或者以通过各种计算机构成元素可执行的程序命令的形式实现,可记录于电脑可读取的记录介质。所述电脑可读取的记录介质可单独或者组合包括程序指令、数据文件、数据结构等。
在电脑可读取的记录介质记录的程序指令是为本发明而特别设计并构成的,而且也可以是对计算机软件领域的技术人员公知并且可使用的。
计算机可读取的记录介质,例如包括:诸如硬盘、软盘和磁带的磁介质;诸如CD-ROM、DVD的光记录介质;诸如光磁软盘(floptical disk)的磁光介质(magneto-opticalmedia);及诸如ROM、RAM、闪存等的为保存并执行程序指令而特别构成的硬件装置。
举例程序指令,不仅包括诸如由编译器生成的机器语言代码,还包括使用解释器等可由计算机执行的高级语言代码。所述硬件装置可构成为执行本发明的处理所需的一个以上的软件模块运行,反之亦然。

Claims (10)

1.一种利用键盘宏功能的自动语音识别方法,由利用键盘宏功能的自动语音识别器执行,其特征在于,包括如下的步骤:
转录数据生成部基于通过麦克风输入的语音数据而生成转录数据;及
当在所生成的所述转录数据中包括为了执行宏功能而预先设定的标记对象单词时,标记部对所生成的所述转录数据进行标记,并进行会话化及保存。
2.根据权利要求1所述的利用键盘宏功能的自动语音识别方法,其特征在于,还包括如下的步骤:
将所生成的所述转录数据以虚拟键盘输入的方式显示在实用程序上的可输入数据的空间中。
3.根据权利要求1所述的利用键盘宏功能的自动语音识别方法,其特征在于,还包括如下的步骤:
当在所生成的所述转录数据中包括预先设定的标记对象单词时,宏执行部调用在所述会话化及保存步骤中会话化并保存的转录数据,以执行基于宏功能的动作。
4.根据权利要求1所述的利用键盘宏功能的自动语音识别方法,其特征在于,还包括如下的步骤:
模板调用部根据宏功能调用预先设定的转录数据的语句模板;及
模板反映部基于通过麦克风输入的语音数据接收所调用的语句模板的变量值,并反映该变量值。
5.根据权利要求1所述的利用键盘宏功能的自动语音识别方法,其特征在于,
所述生成转录数据的步骤中,当具有开关操作功能的脚踏开关处于开启状态时,基于通过麦克风输入的语音数据生成转录数据。
6.一种利用键盘宏功能的自动语音识别器,其特征在于,包括:
转录数据生成部,基于通过麦克风输入的语音数据而生成转录数据;及
标记部,当由所述转录数据生成部生成的转录数据中包括为了执行宏功能而预先设定的标记对象单词时,对所生成的所述转录数据进行标记,并进行会话化及保存。
7.根据权利要求6所述的利用键盘宏功能的自动语音识别器,其特征在于,
还包括显示部,所述显示部将由所述转录数据生成部生成的转录数据以虚拟键盘输入的方式显示在实用程序上的可输入数据的空间中。
8.根据权利要求6所述的利用键盘宏功能的自动语音识别器,其特征在于,
还包括宏执行部,当由所述转录数据生成部生成的转录数据中包括预先设定的标记对象单词时,所述宏执行部调用在所述标记部经过会话化的转录数据,并执行基于宏功能的动作。
9.根据权利要求6所述的利用键盘宏功能的自动语音识别器,其特征在于,还包括:
模板调用部,根据所述宏功能调用预先设定的转录数据的语句模板;
模板反映部,基于通过麦克风输入的语音数据接收所调用的语句模板的变量值,并反映该变量值。
10.根据权利要求6所述的利用键盘宏功能的自动语音识别器,其特征在于,
还包括具有开关操作功能的脚踏开关;
当所述脚踏开关处于开启状态时,所述转录数据生成部基于通过麦克风输入的语音数据而生成转录数据。
CN202080074937.7A 2019-10-29 2020-08-05 利用键盘宏功能的自动语音识别器及语音识别方法 Pending CN114830230A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR10-2019-0135488 2019-10-29
KR1020190135488A KR102153668B1 (ko) 2019-10-29 2019-10-29 키보드 매크로 기능을 활용한 자동 음성 인식기 및 음성 인식 방법
PCT/KR2020/010359 WO2021085811A1 (ko) 2019-10-29 2020-08-05 키보드 매크로 기능을 활용한 자동 음성 인식기 및 음성 인식 방법

Publications (1)

Publication Number Publication Date
CN114830230A true CN114830230A (zh) 2022-07-29

Family

ID=72451540

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080074937.7A Pending CN114830230A (zh) 2019-10-29 2020-08-05 利用键盘宏功能的自动语音识别器及语音识别方法

Country Status (6)

Country Link
US (1) US11977812B2 (zh)
EP (1) EP4053837A4 (zh)
JP (1) JP2023501283A (zh)
KR (1) KR102153668B1 (zh)
CN (1) CN114830230A (zh)
WO (1) WO2021085811A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112836039B (zh) * 2021-01-27 2023-04-21 成都网安科技发展有限公司 基于深度学习的语音数据处理方法和装置
CN113205805B (zh) * 2021-03-18 2024-02-20 福建马恒达信息科技有限公司 一种语音插件辅助的表格便捷操作方法

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4436899B2 (ja) 1998-02-27 2010-03-24 株式会社ニデック 眼科手術装置
US6304848B1 (en) * 1998-08-13 2001-10-16 Medical Manager Corp. Medical record forming and storing apparatus and medical record and method related to same
US8275617B1 (en) 1998-12-17 2012-09-25 Nuance Communications, Inc. Speech command input recognition system for interactive computer display with interpretation of ancillary relevant speech query terms into commands
JP2001101162A (ja) * 1999-09-27 2001-04-13 Just Syst Corp 文書処理装置、及び文書処理プログラムが記憶された記憶媒体
US6578007B1 (en) * 2000-02-29 2003-06-10 Dictaphone Corporation Global document creation system including administrative server computer
JP5093966B2 (ja) 2001-03-29 2012-12-12 ニュアンス コミュニケーションズ オーストリア ゲーエムベーハー 編集中における音声カーソルとテキストカーソルの位置合わせ
KR20030025507A (ko) 2001-09-21 2003-03-29 정용석 음성인식을 이용한 의료전자차트 작성시스템
JP4719408B2 (ja) 2003-07-09 2011-07-06 富士通株式会社 医療情報システム
JP2005192024A (ja) 2003-12-26 2005-07-14 Fujitsu I-Network Systems Ltd コールセンタにおける通話音声データ管理方式およびそれに用いるオペレータ端末
JP4832770B2 (ja) 2005-02-15 2011-12-07 オリンパス株式会社 医療支援システム
US8452594B2 (en) * 2005-10-27 2013-05-28 Nuance Communications Austria Gmbh Method and system for processing dictated information
JP5002283B2 (ja) 2007-02-20 2012-08-15 キヤノン株式会社 情報処理装置および情報処理方法
US8930210B2 (en) * 2007-03-29 2015-01-06 Nuance Communications, Inc. Method and system for generating a medical report and computer program product therefor
US20090089100A1 (en) * 2007-10-01 2009-04-02 Valeriy Nenov Clinical information system
US8046226B2 (en) 2008-01-18 2011-10-25 Cyberpulse, L.L.C. System and methods for reporting
JP2012140189A (ja) 2010-12-28 2012-07-26 Mitsubishi Electric Building Techno Service Co Ltd エレベータ
KR20140061047A (ko) 2012-11-13 2014-05-21 한국전자통신연구원 음성 인식에 기반한 의료 장치 제어용 단말 장치 및 이를 위한 방법
US20160162642A1 (en) * 2012-11-14 2016-06-09 William Atkinson Integrated Medical Record System using Hologram Technology
US20140142939A1 (en) 2012-11-21 2014-05-22 Algotes Systems Ltd. Method and system for voice to text reporting for medical image software
US9514740B2 (en) * 2013-03-13 2016-12-06 Nuance Communications, Inc. Data shredding for speech recognition language model training under data retention restrictions
JP2016102920A (ja) 2014-11-28 2016-06-02 京セラドキュメントソリューションズ株式会社 文書記録システム及び文書記録プログラム
KR101702760B1 (ko) * 2015-07-08 2017-02-03 박남태 가상 키보드 음성입력 장치 및 방법
JP2017182075A (ja) 2017-05-01 2017-10-05 株式会社ニコン 情報処理装置
US10719222B2 (en) * 2017-10-23 2020-07-21 Google Llc Method and system for generating transcripts of patient-healthcare provider conversations
US11423325B2 (en) * 2017-10-25 2022-08-23 International Business Machines Corporation Regression for metric dataset
KR101955225B1 (ko) * 2017-11-03 2019-03-08 주식회사 셀바스에이아이 전자의무기록 서비스의 편집 인터페이스를 제공하는 방법 및 장치
US10467335B2 (en) * 2018-02-20 2019-11-05 Dropbox, Inc. Automated outline generation of captured meeting audio in a collaborative document context
US11705226B2 (en) * 2019-09-19 2023-07-18 Tempus Labs, Inc. Data based cancer research and treatment systems and methods

Also Published As

Publication number Publication date
KR102153668B1 (ko) 2020-09-09
US20220391162A1 (en) 2022-12-08
US11977812B2 (en) 2024-05-07
JP2023501283A (ja) 2023-01-18
WO2021085811A1 (ko) 2021-05-06
EP4053837A4 (en) 2023-11-08
EP4053837A1 (en) 2022-09-07

Similar Documents

Publication Publication Date Title
US20220130502A1 (en) System and method for review of automated clinical documentation from recorded audio
US10606942B2 (en) Device for extracting information from a dialog
US20240127789A1 (en) Systems and methods for providing non-lexical cues in synthesized speech
JP3920812B2 (ja) コミュニケーション支援装置、支援方法、及び支援プログラム
TWI510965B (zh) 輸入方法編輯器整合
JP4615897B2 (ja) 超音波イメージングで使用するための自動注釈埋め込み装置のシステム及び方法
JP2002116796A (ja) 音声処理装置、音声処理方法及び記憶媒体
CN114830230A (zh) 利用键盘宏功能的自动语音识别器及语音识别方法
JP2007293600A (ja) 医療用サーバ装置、入力装置、校正装置、閲覧装置、音声入力レポートシステムおよびプログラム
CN111919251B (zh) 语音解析系统
TWI752437B (zh) 基於至少雙音素的語音輸入操作方法及電腦程式產品
CN113393831B (zh) 基于至少双音素的语音输入操作方法及计算机可读介质
Ji et al. Translation Technology in Accessible Health Communication
US20230335128A1 (en) Assistance device, conversation control device, and program
JP2005018442A (ja) 表示処理装置、表示処理方法、表示処理プログラム、および記録媒体
JP7109498B2 (ja) 音声入力装置
CN113722467A (zh) 用户搜索意图的处理方法、系统、装置和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination