JP2020089641A - Voice recognition input device, voice recognition input program, and medical image capturing system - Google Patents

Voice recognition input device, voice recognition input program, and medical image capturing system Download PDF

Info

Publication number
JP2020089641A
JP2020089641A JP2018229984A JP2018229984A JP2020089641A JP 2020089641 A JP2020089641 A JP 2020089641A JP 2018229984 A JP2018229984 A JP 2018229984A JP 2018229984 A JP2018229984 A JP 2018229984A JP 2020089641 A JP2020089641 A JP 2020089641A
Authority
JP
Japan
Prior art keywords
voice
command
voice recognition
input
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018229984A
Other languages
Japanese (ja)
Other versions
JP7141938B2 (en
Inventor
宏之助 天明
Konosuke TEMMEI
宏之助 天明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2018229984A priority Critical patent/JP7141938B2/en
Publication of JP2020089641A publication Critical patent/JP2020089641A/en
Application granted granted Critical
Publication of JP7141938B2 publication Critical patent/JP7141938B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Apparatus For Radiation Diagnosis (AREA)
  • Magnetic Resonance Imaging Apparatus (AREA)

Abstract

To allow an operation instruction by an operator's voice to be recognized accurately.SOLUTION: Provided is a voice recognition input device in which a voice recognition data table is stored in which a plurality of voice commands are associated with one operation command and a weighting coefficient corresponding to the frequency of use of the voice command is recorded for each voice command, voice recognition processing is performed with voice input as a recognition target, the voice command is output as a result of the voice recognition processing, and the voice command is converted into the operation command recorded corresponding to the voice command referring to the voice recognition data table to output the operation command to an external device. In this case, a plurality of voice command candidates that can correspond to voice input are selected and each of the plurality of voice command candidates is multiplied by the weighting coefficient, thereby outputting the most probable voice command as a result of the voice recognition processing with respect to the voice input.SELECTED DRAWING: Figure 1

Description

本発明は、音声認識入力装置、音声認識入力プログラム及び医用画像撮像システムに関し、特に、医用画像撮像装置等の医療機器に接続され、当該医療機器に対してコマンドを出力する音声認識入力装置、音声認識入力プログラム及び医用画像撮像システムに関する。 The present invention relates to a voice recognition input device, a voice recognition input program, and a medical image capturing system, and more particularly, to a voice recognition input device that is connected to a medical device such as a medical image capturing device and outputs a command to the medical device. The present invention relates to a recognition input program and a medical image capturing system.

近年、インターベンション治療の高度化に伴い、X線透視撮影下および軟性内視鏡操作下で血管や消化管の検査又は治療を行うケースが増えている。これら検査又は治療では術者の清潔性が担保される必要があり、手動による機器操作はその清潔性を維持できない。
また、例えば、X線透視撮影装置を用いた検査では、しばしば検査手技を施行する術者の口頭指示のもと、それを補助する術者サポートの医療従事者が機器操作を行うことがある。このような場合、術者から補助役の医療従事者に対する口頭指示等の意思疎通に手間取り、術者の意図通りの機器操作まで時間がかかることがあり、術者が医療従事者による補助がなくとも直接口頭指示によって医療機器の操作を行うことが望まれる。
そこで、手術や検査等に利用される医療機器において、清潔性の確保や操作性向上のために音声認識による操作が望まれている。
In recent years, with the advancement of interventional treatment, there are an increasing number of cases in which blood vessels and digestive tracts are inspected or treated under fluoroscopic imaging and under flexible endoscope operation. It is necessary to ensure the cleanliness of the operator in these examinations or treatments, and manual operation of the equipment cannot maintain the cleanliness.
In addition, for example, in an examination using an X-ray fluoroscopic imaging apparatus, a medical staff supporting the operator often operates the device under the oral instruction of the operator who performs the examination procedure. In such a case, it may take some time for the operator to communicate with the medical staff as an assistant, such as oral instructions, and it may take time to operate the device as intended by the operator. In addition, it is desirable to operate the medical device by direct oral instruction.
Therefore, in medical devices used for surgery and examinations, operation by voice recognition is desired to ensure cleanliness and improve operability.

一方、昨今、音声認識技術は、従来から存在する隠れマルコフモデルを用いた手法に加え、Deep Learningを用いた手法が出現し単語認識のみならず文章としての音声認識処理が可能になるなど認識精度が向上してきている。また、音声認識処理にはサーバやCloudを用いた大規模な機械学習を行いて逐次的に性能を向上させるものがあるが、医療機器は秘匿性を考慮して設計される必要があることから、医療機器に適用される音声認識入力装置は、Cloudやサーバに接続せず非ネットワーク環境下で音声認識処理を行う必要がある。 On the other hand, in recent years, in speech recognition technology, in addition to the existing method using a hidden Markov model, a method using Deep Learning appears, which enables not only word recognition but also speech recognition processing as a sentence. Is improving. In addition, some speech recognition processes perform large-scale machine learning using a server or Cloud to sequentially improve performance, but medical devices need to be designed in consideration of confidentiality. A voice recognition input device applied to a medical device needs to perform voice recognition processing in a non-network environment without connecting to a Cloud or a server.

そして、音声認識により操作を行う医療機器の例として、特許文献1には、X線画像診断装置において、操作者の負担を軽減するために、誤作動によって被検者に危害を与える虞のある機能は操作者による手動の操作に基づいて制御し、誤作動によっても被検者に危害を与える虞のない機能については操作者が発生する音声を認識することによって制御することが開示されている。 As an example of a medical device that operates by voice recognition, in Patent Document 1, in an X-ray image diagnostic apparatus, in order to reduce the burden on the operator, there is a risk that the test subject may be harmed by a malfunction. It is disclosed that a function is controlled based on a manual operation by an operator, and a function that does not cause harm to a subject even by a malfunction is controlled by recognizing a voice generated by the operator. ..

特開2006−149909号公報JP 2006-149909 A

しかしながら、音声認識処理に用いるデータベースに、例えば、互いに類似した音素を持つ音声操作コマンドが複数個登録されていた場合には、音声認識処理において誤検出を生じさせる可能性がある。すなわち、術者が発した音声が、類似した音素からなる複数の音声操作コマンドのうち何れの音声操作コマンドに該当するか判別ができず、誤検出となる虞がある。この場合、音声認識処理によって操作を行うことができず、結果的に術者はサポートを行う医療従事者に機器操作を指示することとなり、術者の意図通りの機器操作に要する時間を短縮することができない。また、その場合は音声操作コマンドの認識率の向上が必要となるが、その手段は明示されていない。 However, if a plurality of voice operation commands having phonemes similar to each other are registered in the database used for the voice recognition process, there is a possibility that erroneous detection may occur in the voice recognition process. That is, it is not possible to determine which voice operation command among the plurality of voice operation commands composed of similar phonemes the voice uttered by the operator corresponds to, which may result in an erroneous detection. In this case, the operation cannot be performed by the voice recognition processing, and as a result, the surgeon instructs the medical staff who provides support to operate the equipment, which shortens the time required for the equipment to operate as intended by the operator. I can't. Further, in that case, it is necessary to improve the recognition rate of the voice operation command, but the means is not specified.

本発明は、上記事情に鑑みてなされたものであり、音声認識処理において、術者の音声による操作指示を正確に認識し、誤検出を低減させることを目的とする。 The present invention has been made in view of the above circumstances, and an object of the present invention is to accurately recognize an operation instruction by an operator's voice in voice recognition processing and reduce false detection.

上記課題を解決するために、本発明は以下の手段を提供する。
本発明の一態様は、外部機器に対し操作コマンドを入力する音声認識入力装置であって、1の操作コマンドについて複数の音声コマンドを対応付けて記録すると共に、音声コマンド毎に当該音声コマンドの使用頻度に応じた重み係数を記録した音声認識データテーブルを記憶した記憶部と、音声入力を受け付け、該音声入力を認識対象として音声認識処理を行って前記音声入力に対応する音声コマンドを音声認識処理の結果として出力する音声認識部と、前記音声認識データテーブルを参照して、前記音声コマンドを該音声コマンドに対応して記録された操作コマンドに変換するコマンド変換部と、前記操作コマンドを前記外部機器に出力する操作決定部と、を備え、前記音声認識部が、前記音声入力に相当し得る音声コマンド候補を複数選出し、これら複数の音声コマンド候補夫々に前記重み係数を乗じることにより最も確からしい音声コマンドを前記音声入力に対する音声認識処理の結果として出力する、音声認識入力装置を提供する。
本発明によれば、音声コマンド毎に使用頻度に応じた重み係数を記録したデータテーブルを用いて音声認識処理を行うので、音声による操作指示において音声認識処理の精度を向上させることができる。
In order to solve the above problems, the present invention provides the following means.
One aspect of the present invention is a voice recognition input device for inputting an operation command to an external device, wherein a plurality of voice commands are recorded in association with one operation command, and the voice command is used for each voice command. A storage unit storing a voice recognition data table in which weighting factors corresponding to frequencies are stored, a voice input is accepted, a voice recognition process is performed with the voice input as a recognition target, and a voice command corresponding to the voice input is voice recognized. A voice recognition unit that outputs as a result, a command conversion unit that refers to the voice recognition data table and converts the voice command into an operation command recorded corresponding to the voice command, and the operation command by the external unit. An operation determining unit for outputting to a device, the voice recognition unit selects a plurality of voice command candidates that can correspond to the voice input, and multiplies each of the plurality of voice command candidates by the weighting factor, which is the most reliable. There is provided a voice recognition input device for outputting a new voice command as a result of voice recognition processing for the voice input.
According to the present invention, since the voice recognition processing is performed using the data table in which the weighting coefficient corresponding to the usage frequency is recorded for each voice command, it is possible to improve the accuracy of the voice recognition processing in a voice operation instruction.

本発明によれば、音声認識処理において、誤検出を低減させ、術者の音声による操作指示を正確に認識することができる。 According to the present invention, it is possible to reduce erroneous detection in the voice recognition processing and accurately recognize the operation instruction by the operator's voice.

本発明の第1実施形態に係る音声認識入力装置の概略構成を示すブロック図である。It is a block diagram showing a schematic structure of a voice recognition input device concerning a 1st embodiment of the present invention. 図1の音声認識入力装置の音声認識DBに格納された音声認識データテーブルの一例である。3 is an example of a voice recognition data table stored in a voice recognition DB of the voice recognition input device in FIG. 1. 本発明の第1の実施形態における音声認識入力装置において、重み係数を更新する際に参照する、操作コマンドの使用頻度、操作コマンドコード及びオフセット係数Tの関係を示すグラフである。6 is a graph showing the relationship among the operation command use frequency, the operation command code, and the offset coefficient T, which is referred to when updating the weight coefficient in the voice recognition input device according to the first exemplary embodiment of the present invention. 本発明の第1の実施形態に係る音声認識入力装置による音声認識入力処理の流れを示すフローチャートである。It is a flowchart which shows the flow of the voice recognition input process by the voice recognition input device which concerns on the 1st Embodiment of this invention. 本発明の第1の実施形態の変形例における音声認識入力装置において、重み係数を更新する際に参照する、音声コマンドの積算回数、音声コマンドコード及びオフセット係数Vの関係を示すグラフである。7 is a graph showing a relationship among the number of times a voice command is integrated, a voice command code, and an offset coefficient V, which is referred to when updating a weighting factor, in the voice recognition input device according to the modified example of the first exemplary embodiment of the present invention. 本発明の第2の実施形態に係る音声認識入力装置における音声認識DBに格納されたデータテーブルの一例を示し、(A)は、検査開始情報の状態を示すデータテーブル、(B)は、検査種別の状態を示すデータテーブル、(C)はX線照射情報の状態を示すデータテーブル、(D)は装置運用状況と音声認識DBの分類を示すデータテーブルである。An example of the data table stored in speech recognition DB in the speech recognition input device which concerns on the 2nd Embodiment of this invention is shown, (A) is a data table which shows the state of inspection start information, (B) is inspection. A data table showing the status of the type, (C) is a data table showing the status of the X-ray irradiation information, and (D) is a data table showing the apparatus operation status and the classification of the voice recognition DB. 本発明の第2の実施形態に係る音声認識入力装置において、音声認識データテーブルの切替処理の流れを示すフローチャートである。8 is a flowchart showing a flow of a voice recognition data table switching process in the voice recognition input device according to the second embodiment of the present invention.

本発明の実施形態に係る音声認識入力装置は、当該音声認識入力装置に接続された医用画像撮像装置等の外部機器に対して入力を行うものである。 The voice recognition input device according to the embodiment of the present invention inputs data to an external device such as a medical image capturing device connected to the voice recognition input device.

(第1の実施形態)
以下、本発明の第1の実施形態に係る音声認識入力装置について、図面を参照してより詳細に説明する。図1に本実施形態に係る音声認識入力装置の概略構成図を示す。
音声認識入力装置10は、音声認識入力装置10全体を制御する中央処理装置(CPU)11、マイク等の音声入力を受け付ける音声入力I/F(インターフェイス)12、マウスやキーボードなどからなり手動入力を受け付ける手動入力I/F(インターフェイス)13、メモリ14、音声認識アルゴリズムや音声認識処理に必要なデータを格納した音声認識DB15及び音声入力に関するログを収集し記録するログ収集DB16を備え、これらの各構成はシステムバスを介して互いに接続されている。
(First embodiment)
Hereinafter, the voice recognition input device according to the first embodiment of the present invention will be described in more detail with reference to the drawings. FIG. 1 shows a schematic configuration diagram of a voice recognition input device according to the present embodiment.
The voice recognition input device 10 includes a central processing unit (CPU) 11 that controls the voice recognition input device 10 as a whole, a voice input I/F (interface) 12 that receives voice input such as a microphone, a mouse, a keyboard, and the like for manual input. A manual input I/F (interface) 13, a memory 14, a voice recognition DB 15 that stores voice recognition algorithms and data necessary for voice recognition processing, and a log collection DB 16 that collects and records logs related to voice input are provided. The components are connected to each other via the system bus.

本実施形態において、音声認識入力装置10は、画像撮像装置20と通信可能に接続され、画像撮像装置20に対する種々の入力指示を行う。また、音声認識入力装置10は、画像撮像装置20を介してディスプレイ30と接続され、画像撮像装置20において取得した画像等をディスプレイ30に表示させ、表示させた画像に対して拡大や縮小等の所望の操作指示を行う。画像撮像装置20としては、X線装置、MRI装置、CT装置、PET装置など、医用画像取得のためのハードウェアを適用することができる。 In the present embodiment, the voice recognition input device 10 is communicably connected to the image pickup device 20 and gives various input instructions to the image pickup device 20. Further, the voice recognition input device 10 is connected to the display 30 via the image capturing device 20, displays the image or the like acquired by the image capturing device 20 on the display 30, and enlarges or reduces the displayed image. Give desired operation instructions. As the image capturing device 20, hardware for acquiring a medical image such as an X-ray device, an MRI device, a CT device, and a PET device can be applied.

音声認識入力装置10によって画像撮像装置等に対して音声による入力指示を行うために、図1に示すように、CPU11は、音声操作処理部120、手動操作処理部130及びシステム操作決定部140の機能を実現する。特に、音声操作処理部120は、音声認識部111、コマンド変換部112及びコマンド解析部113の機能を実現する。 As shown in FIG. 1, the CPU 11 includes a voice operation processing unit 120, a manual operation processing unit 130, and a system operation determining unit 140 in order to input a voice input instruction to the image capturing apparatus or the like by the voice recognition input device 10. Realize the function. In particular, the voice operation processing unit 120 realizes the functions of the voice recognition unit 111, the command conversion unit 112, and the command analysis unit 113.

なお、CPU11が実現するこれら各部の機能は、図示しない磁気ディスク等のメモリに格納されたプログラムをCPUが予め読み込んで実行することによりソフトウエアとして実現することができる。なお、CPU11に含まれる各部が実行する動作の一部又は全部を、ASIC(application specific integrated circuit)やFPGA(field−programmable gate array)により実現することもできる。 The functions of these units realized by the CPU 11 can be realized as software by the CPU previously reading and executing a program stored in a memory such as a magnetic disk (not shown). Note that part or all of the operations executed by the respective units included in the CPU 11 can be realized by an ASIC (application specific integrated circuit) or an FPGA (field-programmable gate array).

音声操作処理部120は、マイク等の音声入力I/F12を介して入力された音声による操作指示(音声入力)を認識して、画像撮像装置20に対して操作指示を行うものであり、音声認識部111、コマンド変換部112及びコマンド解析部113の機能を実現する。 The voice operation processing unit 120 recognizes a voice operation instruction (voice input) input via a voice input I/F 12 such as a microphone and gives an operation instruction to the image capturing apparatus 20. The functions of the recognition unit 111, the command conversion unit 112, and the command analysis unit 113 are realized.

音声認識部111は、予め音声認識DB15等に記憶された音声認識アルゴリズムに従って、音声入力I/F12を介して入力された音声による操作指示に対して音声認識処理を行い、認識結果である音声コマンドをコマンド変換部112に出力する。ここで、音声認識処理に際して音声認識部111は、後述する音声認識DB15に格納された音声認識データテーブル(図2参照)を用い、所定の音声認識アルゴリズムに従って音声認識処理を行い、認識結果として音声コマンドを選出する。音声認識部111による音声認識処理の詳細は後述する。 The voice recognition unit 111 performs voice recognition processing on a voice operation instruction input via the voice input I/F 12 according to a voice recognition algorithm stored in advance in the voice recognition DB 15 or the like, and outputs a voice command as a recognition result. Is output to the command conversion unit 112. Here, in the voice recognition process, the voice recognition unit 111 performs the voice recognition process according to a predetermined voice recognition algorithm using a voice recognition data table (see FIG. 2) stored in a voice recognition DB 15 described later, and outputs a voice as a recognition result. Select a command. Details of the voice recognition processing by the voice recognition unit 111 will be described later.

コマンド変換部112は、音声認識部111における音声認識処理を経て選出された音声コマンドに対応する操作コマンドに変換し、当該操作コマンドを術者による操作指示としてシステム操作決定部140及びコマンド解析部113に出力する。 The command conversion unit 112 converts an operation command corresponding to the voice command selected through the voice recognition processing in the voice recognition unit 111, and the operation command is used as an operation instruction by the operator, the system operation determination unit 140 and the command analysis unit 113. Output to.

コマンド解析部113は、コマンド変換部112から、術者による操作指示に係る操作コマンドに関する情報を取得し、操作履歴を生成してログ収集DB16に記録させると共に、当該操作履歴を解析する。ここで、操作コマンドに関する情報として、操作コマンドのみならず、当該操作コマンドに変換される前の音声コマンド等を含めることができる。また、コマンド解析部113は、操作履歴の解析結果に基づいて音声認識データテーブルの重み係数を更新する。重み係数の更新についての詳細は後述する。 The command analysis unit 113 acquires information on the operation command related to the operation instruction from the operator from the command conversion unit 112, generates an operation history and records it in the log collection DB 16, and analyzes the operation history. Here, the information regarding the operation command may include not only the operation command but also a voice command before being converted into the operation command. Further, the command analysis unit 113 updates the weighting coefficient of the voice recognition data table based on the analysis result of the operation history. Details of updating the weighting factor will be described later.

手動操作処理部130は、手動での操作を行う場合に、マウスやキーボード等の手動入力I/F13を介して入力された操作指示に基づいて当該操作指示に係る操作コマンドを生成し、システム操作決定部140に出力する。
システム操作決定部140は、音声操作処理部120又は手動操作処理部130から入力された操作コマンドを画像撮像装置20に出力すると共に、コマンド解析部113に出力する。
When performing a manual operation, the manual operation processing unit 130 generates an operation command related to the operation instruction based on the operation instruction input via the manual input I/F 13 such as a mouse or a keyboard, and performs a system operation. Output to the determination unit 140.
The system operation determination unit 140 outputs the operation command input from the voice operation processing unit 120 or the manual operation processing unit 130 to the image capturing device 20 and the command analysis unit 113.

音声入力I/F12は、術者等の操作者の発話を音声による操作指示(音声入力)として受け付けて電気信号の音声データに変換し、音声データを音声操作処理部120に出力するものであり、例えばマイク等を適用することができる。
手動入力I/F13は、術者等による手動の操作指示を受け付け、受け付けた操作指示を電気信号に変換して手動操作処理部130に出力するものであり、例えば、マウス、キーボード、タッチパネルなどの入力装置を適用することができる。
The voice input I/F 12 receives a speech of an operator such as an operator as a voice operation instruction (voice input), converts it into voice data of an electric signal, and outputs the voice data to the voice operation processing unit 120. For example, a microphone or the like can be applied.
The manual input I/F 13 receives a manual operation instruction from an operator, converts the received operation instruction into an electric signal, and outputs the electric signal to the manual operation processing unit 130. For example, a mouse, a keyboard, a touch panel, or the like. An input device can be applied.

メモリ14は、CPU11が実行するプログラムや演算処理の途中経過を記憶したり、音声や手動による操作指示を一時的に記憶したりする。
音声認識DB15は、予め定められた音声認識アルゴリズムを格納すると共に、音声認識処理に用いる音声認識データテーブルを記録している。音声認識データテーブルの詳細については後述する。
ログ収集DB16は、コマンド解析部113によって生成された操作履歴などの操作指示に関する情報を取得して記録する。
The memory 14 stores the program executed by the CPU 11 and the progress of arithmetic processing, and temporarily stores voice and manual operation instructions.
The voice recognition DB 15 stores a predetermined voice recognition algorithm and also records a voice recognition data table used for voice recognition processing. Details of the voice recognition data table will be described later.
The log collection DB 16 acquires and records information related to operation instructions such as an operation history generated by the command analysis unit 113.

(音声認識処理及び音声認識データテーブルについて)
音声認識データテーブルは、図2に示すように、音声コマンドに関するデータを示す音声コマンドデータdb1と、操作コマンドに関するデータを示す操作コマンドデータdb2と、音声コマンド毎に定められた重み係数を示す重み係数データdb3から構成される。
(About voice recognition processing and voice recognition data table)
As shown in FIG. 2, the voice recognition data table includes voice command data db1 indicating data regarding voice commands, operation command data db2 indicating data regarding operation commands, and weighting factors indicating weighting factors determined for each voice command. It is composed of data db3.

図2に示すように、音声認識データテーブルにおいて、同一の操作コマンドdb21に対して複数の音声コマンドdb11が対応付けて記録されている。このようにすることで、同一の操作指示に対して術者毎に異なる口癖や発話による指示がなされた場合であっても、音声認識処理を経て同一の操作を実現させることができる。また、音声コマンドデータdb1の各音声コマンドに対して、夫々コマンド読みdb12及び音声コマンドコードdb13が対応付けて記録されている。操作コマンドdb21についても、同様に操作コマンド毎に操作コマンドコードdb22が対応付けられて記憶されている。 As shown in FIG. 2, in the voice recognition data table, a plurality of voice commands db11 are recorded in association with the same operation command db21. By doing so, even if the operator gives different habits or utterances to the same operation instruction, the same operation can be realized through the voice recognition process. Also, a command reading db12 and a voice command code db13 are recorded in association with each voice command of the voice command data db1. Regarding the operation command db21, similarly, an operation command code db22 is associated with each operation command and stored.

ところで、音声認識部111は、次のように音声認識処理を行う。すなわち、音声認識部111は、まず、音声入力I/Fを介して入力された音声データを音波に変換し、音波から音声データの1文字ずつを音素に分解して特定する。続いて、隠れマルコフモデルに則った統計的機械学習や深層学習モデルを用いた機械学習等の音声認識アルゴリズムを用いて、音声データの音素とコマンド読みdb12の音素との照合を行う。この照合により、音声認識部111は、音声データと類似するコマンド読みdb12を選出し、選出されたコマンド読みに対応する音声コマンドdb11の候補とその確からしさの指標となる得点を出力する。 By the way, the voice recognition unit 111 performs a voice recognition process as follows. That is, the voice recognition unit 111 first converts the voice data input via the voice input I/F into sound waves, and decomposes and identifies each character of the voice data from the sound waves into phonemes. Then, the phoneme of the voice data is compared with the phoneme of the command reading db12 using a voice recognition algorithm such as statistical machine learning according to the hidden Markov model or machine learning using a deep learning model. By this matching, the voice recognition unit 111 selects a command reading db12 similar to the voice data, and outputs a candidate of the voice command db11 corresponding to the selected command reading and a score as an index of its certainty.

ここで、音声認識処理の一例として、術者が「画像縮小」と発話して操作指示を行う場合について検討する。術者が「画像縮小」と発話した場合、音声認識データテーブルのコマンド読みdb12において「がぞうしゅくしょう」と「がぞうしゅうしゅう」とは途中まで音素が一致している。このため、音声認識部11は、入力される音声データの品質に依存して「がぞうしゅくしょう」を、「画像収集」と誤って認識する虞がある。この場合、術者は操作コマンドdb21の画像縮小を指示したにも拘らず、音声認識の誤認識によって音声コマンドdb11の「がぞうしゅうしゅう」に対応した操作コマンドdb21の「透視記録」が操作コマンドとして選択され、術者の意図しない操作が行われてしまう。 Here, as an example of the voice recognition processing, consider a case where the operator speaks “image reduction” and gives an operation instruction. When the operator speaks “image reduction”, the phonemes of “gazoshushu” and “gazoshushu” halfway match in the command reading db12 of the voice recognition data table. Therefore, the voice recognition unit 11 may erroneously recognize "gazoshusho" as "image collection" depending on the quality of the input voice data. In this case, the operator selects the "perspective recording" of the operation command db21 corresponding to the "gazoshushu" of the voice command db11 as the operation command due to the incorrect recognition of the voice recognition, although the operator has instructed the image reduction of the operation command db21. Then, an operation unintended by the operator is performed.

そこで、音声認識データテーブルでは、このような誤認識を回避するために重み係数データdb3を音声コマンド毎に対応付けて記録している。重み係数データdb3は、音声認識処理の過程において出力される1以上の音声コマンド候補の各々に付帯した得点に対して乗算する重み係数である。重み係数データdb3に記録された重み係数は、各音声コマンドに対応し、当該音声コマンドの使用頻度等に応じて定められた値である。 Therefore, in the voice recognition data table, the weighting factor data db3 is recorded in association with each voice command in order to avoid such erroneous recognition. The weighting factor data db3 is a weighting factor for multiplying a score attached to each of one or more voice command candidates output in the process of voice recognition processing. The weighting factor recorded in the weighting factor data db3 is a value corresponding to each voice command and determined according to the frequency of use of the voice command and the like.

また、重み係数は、ログ収集DB16に記録された操作履歴をコマンド解析部113が解析した結果に基づいて更新することができる。すなわち、コマンド解析部113が、操作履歴を解析することにより、一定期間内における操作コマンド毎の使用回数を算出し、使用回数に基づいて重み係数を更新するためのオフセット係数Tを算出する。 Further, the weighting factor can be updated based on the result of the command analysis unit 113 analyzing the operation history recorded in the log collection DB 16. That is, the command analysis unit 113 analyzes the operation history to calculate the number of times of use for each operation command within a certain period, and calculates the offset coefficient T for updating the weighting coefficient based on the number of times of use.

オフセット係数Tは、例えば、図3に示すグラフに従って各操作コマンドに対応する操作コマンドコードが発行された積算回数によって定めることができる。この他、オフセット係数Tは、予め定めた期間における操作コマンドコードの発行総数に対する各操作コマンドの割合に基づいて算出することもできる。コマンド解析部113は、算出されたオフセット係数Tを操作コマンドに対応して記録される各重み係数に乗じることにより重み係数を更新する。 The offset coefficient T can be determined by, for example, the cumulative number of times the operation command code corresponding to each operation command is issued according to the graph shown in FIG. In addition, the offset coefficient T can be calculated based on the ratio of each operation command to the total number of operation command codes issued in a predetermined period. The command analysis unit 113 updates the weight coefficient by multiplying each calculated weight coefficient by the calculated offset coefficient T corresponding to the operation command.

なお、コマンド解析部113による操作履歴の解析は、自動的に行うことができる他、術者や装置提供者による操作指示に従って行う等任意のタイミングで行うことができる。また、コマンド解析部113は、音声認識部111の音声認識処理において誤検出が生じた場合には、操作コマンドの使用回数から減算するなどして、重み係数を更新することができる。 The analysis of the operation history by the command analysis unit 113 can be automatically performed, or can be performed at an arbitrary timing such as according to an operation instruction from an operator or a device provider. In addition, the command analysis unit 113 can update the weighting factor by subtracting from the number of times the operation command has been used, if an erroneous detection occurs in the voice recognition process of the voice recognition unit 111.

以下、このように構成された音声認識入力装置10による音声入力処理の流れについて図4のフローチャートに従って説明する。
図4に示すように、音声認識入力装置10が作動すると、音声入力を待機状態となる。音声入力I/Fにおいて音声入力があった場合には(ステップS101)、ステップS102に進み、音声認識部111が音声入力I/F12から音声データの入力を受け付け当該音声データの音素と音声認識DB15に登録された各コマンド読みの音素との照合を行い、コマンド読みに対応して記録された音声コマンドの候補を選出する。この候補の選出は、音声認識の確からしさの指標となる得点に基づいて判断することができる。
The flow of voice input processing by the voice recognition input device 10 configured as described above will be described below with reference to the flowchart of FIG.
As shown in FIG. 4, when the voice recognition input device 10 operates, it enters a standby state for voice input. When there is a voice input in the voice input I/F (step S101), the process proceeds to step S102, where the voice recognition unit 111 accepts the voice data input from the voice input I/F 12 and the phoneme of the voice data and the voice recognition DB 15. The phoneme of each command reading registered in is compared and the voice command candidate recorded corresponding to the command reading is selected. The selection of this candidate can be judged based on a score that is an index of the certainty of voice recognition.

次のステップS103では、ステップS102によって選出された音声コマンドの候補が1以上あるか否かを判定し、音声コマンドの候補数が1つ以上ない場合にはステップS104に進み音声コマンドなしとしてステップS101に戻る。音声コマンドの候補数が1以上ある場合にはステップS105に進み、音声コマンドの各候補に付与されている得点と、音声認識データテーブルに当該音声コマンドに対応して記録されている重み係数とを乗算する。 In the next step S103, it is determined whether or not there are one or more voice command candidates selected in step S102. If the number of voice command candidates is not one or more, the process proceeds to step S104 and it is determined that there is no voice command in step S101. Return to. If the number of voice command candidates is 1 or more, the process proceeds to step S105, and the score assigned to each voice command candidate and the weighting coefficient recorded in the voice recognition data table corresponding to the voice command are set. To multiply.

ステップS106では、ステップS105における得点と重み係数との乗算の結果、最高得点となる音声コマンド候補を選出する。次のステップS107では、最高得点、すなわち、選出された音声コマンド候補の得点が予め定めた閾値より大きいか否かを判定し、最高得点が予め定めた閾値より小さい場合には音声コマンドがなかったとしてステップS104を経て、音声による操作を実行せずに、ステップS101に戻り、音声認識入力装置10は、再度、音声入力を待機する状態となる。このとき、術者へ音声操作を実行しない旨の通知を、例えば合成された音声、アラーム、ディスプレイを用いて行うことができる。 In step S106, the voice command candidate with the highest score is selected as a result of the multiplication of the score and the weighting factor in step S105. In the next step S107, it is determined whether or not the highest score, that is, the score of the selected voice command candidate is larger than a predetermined threshold value. If the highest score is smaller than the predetermined threshold value, there is no voice command. After step S104, the operation returns to step S101 without performing a voice operation, and the voice recognition input device 10 is again in a state of waiting for voice input. At this time, the operator can be notified that the voice operation is not performed, for example, by using the synthesized voice, alarm, or display.

最高得点が予め定めた閾値より大きい場合には、ステップS108に進み最高得点を示した音声コマンドを音声認識処理の結果として決定する。決定された音声コマンドはコマンド変換部112に出力され、コマンド変換部112において、音声認識データテーブルを用いて、決定された音声コマンドを、当該音声コマンドに対応する操作コマンドに変換する(S109)。 If the highest score is larger than the predetermined threshold, the process proceeds to step S108, and the voice command showing the highest score is determined as the result of the voice recognition process. The determined voice command is output to the command conversion unit 112, and the command conversion unit 112 uses the voice recognition data table to convert the determined voice command into an operation command corresponding to the voice command (S109).

次のステップS110において、コマンド変換部112は、変換された操作コマンドをコマンド解析部113及びシステム操作決定部140に出力する。コマンド解析部113では、入力された操作コマンドを含めて操作履歴を更新生成し、ログ収集DB16に記録させる。システム操作決定部140では、入力された操作コマンドを画像撮像装置20に出力する。画像撮像装置20では、入力された操作コマンドに応じた操作が実行される。 In the next step S110, the command conversion unit 112 outputs the converted operation command to the command analysis unit 113 and the system operation determination unit 140. The command analysis unit 113 updates and generates the operation history including the input operation command and records it in the log collection DB 16. The system operation determination unit 140 outputs the input operation command to the image capturing device 20. In the image pickup device 20, an operation according to the input operation command is executed.

このように本実施形態によれば、操作コマンドに対して複数の音声コマンドを対応付けて記録し、かつ、各操作コマンドについて使用頻度の高い順に高い重み係数を持たせ音声認識処理用いることで、術者毎に異なる発話の癖や好みに依存せず精度よく音声認識処理を行うことができる。また、操作コマンドの使用頻度を記録し、当該使用頻度に応じて重み係数を更新することで、経時的に術者の使用頻度の高い操作コマンドについて音声認識処理の精度を向上させることができ、術者の音声による操作指示を正確に認識することができる。 As described above, according to this embodiment, a plurality of voice commands are associated with an operation command and recorded, and a high weighting coefficient is given to each operation command in descending order of frequency of use, and the voice recognition process is used. It is possible to perform the voice recognition processing with high accuracy without depending on the habits and preferences of the utterance which differ for each operator. In addition, by recording the frequency of use of the operation command and updating the weighting coefficient according to the frequency of use, it is possible to improve the accuracy of the voice recognition process for the operation command that the operator frequently uses over time. The operator's voice operation instruction can be accurately recognized.

(変形例)
上述した第1の実施形態では、コマンド解析部113が操作コマンドの使用頻度に基づいて重み係数を更新する例について説明した。本変形例では、入力された音声コマンドに基づいて重み係数を更新する例について説明する。
(Modification)
In the above-described first embodiment, the example in which the command analysis unit 113 updates the weighting factor based on the usage frequency of the operation command has been described. In this modification, an example in which the weighting factor is updated based on the input voice command will be described.

コマンド解析部113は、操作履歴を解析することにより、コマンド変換部112から入力された操作コマンド変換される前の音声コマンドについて、一定期間内における音声コマンド毎の検出頻度を算出する。そして、算出された音声コマンドの検出頻度に基づいて重み係数を更新するためのオフセット係数Vを算出する。 The command analysis unit 113 analyzes the operation history to calculate the detection frequency of each voice command within a certain period of time for the voice command input from the command conversion unit 112 before the operation command conversion. Then, the offset coefficient V for updating the weighting coefficient is calculated based on the calculated detection frequency of the voice command.

オフセット係数Vは、例えば、図5に示すグラフに従って、各音声コマンドに対応する音声コマンドコードが発行された積算回数によって定めることができる。この他、ある期間の音声コマンドコードの発行総数に対する各音声コマンドの割合に基づいてオフセット係数Vを決定しても良い。 The offset coefficient V can be determined by the cumulative number of times the voice command code corresponding to each voice command is issued according to the graph shown in FIG. 5, for example. In addition, the offset coefficient V may be determined based on the ratio of each voice command to the total number of voice command codes issued in a certain period.

コマンド解析部113は、算出されたオフセット係数Vを操作コマンドに対応して記録される各重み係数に乗じることにより重み係数を更新する。この場合にも、コマンド解析部113は、音声認識部111の音声認識処理において誤検出が生じた場合には、音声コマンドの積算回数から減算するなどして、重み係数を更新することが好ましい。 The command analysis unit 113 updates the weight coefficient by multiplying each calculated weight coefficient by the calculated offset coefficient V corresponding to the operation command. Also in this case, it is preferable that the command analysis unit 113 updates the weighting factor by subtracting from the number of times the voice command has been integrated when erroneous detection occurs in the voice recognition process of the voice recognition unit 111.

このように本変形例では、術者の発話に基づく音声コマンドについて検出頻度の高い順に高い重み係数を持たせ、当該重み係数を音声認識処理用いることで、術者毎に異なる発話の癖や好みに依存せず精度よく音声認識処理を行うことができる。また、音声コマンドの検出回数を記録し、当該検出回数に応じて重み係数を更新することで、経時的に術者の検出頻度の高い音声コマンドについて音声認識の精度を向上させることができる。上述の第1の実施形態に比して更に音声認識の精度を向上させることができ、術者の音声による操作指示を正確に認識することができる。 As described above, in this modified example, a voice command based on the utterance of the operator is given a high weighting coefficient in descending order of detection frequency, and the weighting coefficient is used in the voice recognition process, so that the utterance habits and preferences that are different for each operator The voice recognition process can be performed accurately without depending on. Further, by recording the number of times of detecting a voice command and updating the weighting coefficient according to the number of times of detection, it is possible to improve the accuracy of voice recognition for a voice command that is frequently detected by the operator over time. The accuracy of voice recognition can be further improved as compared with the first embodiment, and the operator's voice operation instruction can be accurately recognized.

なお、上述の操作コマンドの使用頻度に基づくオフセット係数T及び音声コマンドの検出頻度に基づくオフセット係数Vを共に乗じた結果を重み係数に乗じることにより更新することもできる。この場合には、使用頻度の高い操作コマンド且つ検出頻度の高い音声コマンドの音声認識精度がより向上する。この場合にも、コマンド解析部113は、音声認識部111の音声認識処理において誤検出が生じた場合には、操作コマンドの使用回数及び音声コマンドの積算回数から減算するなどして、重み係数を更新することが好ましい。 It should be noted that it is also possible to update by multiplying the result obtained by multiplying the offset coefficient T based on the use frequency of the operation command and the offset coefficient V based on the detection frequency of the voice command, by multiplying the weight coefficient. In this case, the voice recognition accuracy of the frequently used operation command and the frequently detected voice command is further improved. Also in this case, when an erroneous detection occurs in the voice recognition process of the voice recognition unit 111, the command analysis unit 113 subtracts the weighting factor from the number of times the operation command has been used and the number of times the voice command has been integrated. It is preferable to update.

(第2の実施形態)
上述した第1の実施形態及びその変形例においては、音声認識DB15内に1の音声認識データテーブルが格納されている例について説明した。本実施形態においては、音声認識DB15に、音声認識入力装置10が適用される外部装置の運用状況に依存して、図2に示すような音声認識データテーブルが複数格納されており、外部装置の運用状況に応じて音声認識処理に用いるデータテーブルを切り替える。
(Second embodiment)
In the above-described first embodiment and its modification, an example in which one voice recognition data table is stored in the voice recognition DB 15 has been described. In the present embodiment, a plurality of voice recognition data tables as shown in FIG. 2 are stored in the voice recognition DB 15 depending on the operation status of the external device to which the voice recognition input device 10 is applied. The data table used for the voice recognition processing is switched according to the operation status.

装置の運用状況として、例えば、検査開始前後、検査種別、X線出力の有無等が考えられ、音声認識DBには、予めこれらの状況に応じて複数の音声認識データテーブルtg001〜tg***を格納しておく。音声認識データテーブルの一例は、図2に示した通りである。また、音声認識DBには、図6に示すような装置の運用状況を示すデータテーブルが格納され、これらのデータテーブルを参照して適切な音声認識データテーブルを選択する。なお、図6(A)は、検査開始情報の状態を示すデータテーブル、(B)は、検査種別の状態を示すデータテーブル、(C)はX線照射情報の状態を示すデータテーブル、(D)は装置運用状況と音声認識データベースの分類を示すデータテーブルである。 The operation status of the device may be, for example, before and after the start of inspection, the inspection type, the presence or absence of X-ray output, and the like, and the voice recognition DB has a plurality of voice recognition data tables tg001 to tg*** according to these situations in advance. Is stored. An example of the voice recognition data table is as shown in FIG. Further, in the voice recognition DB, data tables showing the operation status of the device as shown in FIG. 6 are stored, and an appropriate voice recognition data table is selected by referring to these data tables. 6A is a data table showing the state of the inspection start information, FIG. 6B is a data table showing the state of the inspection type, FIG. 6C is a data table showing the state of the X-ray irradiation information, and FIG. ) Is a data table showing the device operation status and the classification of the voice recognition database.

以下、音声認識データテーブルtg001〜tg***の切り替えの流れについて、図7のフローチャートに従って説明する。
音声認識入力装置10が起動すると、システム操作決定部14が画像撮像装置20から逐次的に装置運用状況に係る情報を取得する(ステップS201)。本実施形態においては、システム操作決定部14が、例えば、検査開始情報、検査種別情報及びX線照射情報を取得する。装置運用状況に係る情報を取得すると、システム操作決定部14は、取得した情報それぞれについて従前の状態と比べて変化があったか否かを判定する(ステップS202)。
The flow of switching the voice recognition data tables tg001 to tg*** will be described below with reference to the flowchart of FIG.
When the voice recognition input device 10 is activated, the system operation determination unit 14 sequentially acquires the information related to the device operation status from the image capturing device 20 (step S201). In the present embodiment, the system operation determination unit 14 acquires, for example, inspection start information, inspection type information, and X-ray irradiation information. When the information related to the device operation status is acquired, the system operation determination unit 14 determines whether or not there is a change in each acquired information compared with the previous state (step S202).

ステップS202の判定において、検査開始情報、検査種別情報及びX線照射情報のうち何れか少なくとも1つの情報に変化があった場合にステップS203に進み、装置運用状況コマンドStを生成する。装置運用状況コマンドStは、図6(D)に示すように、検査開始情報、検査種別及びX線照射情報の3つの情報からなり、これらの組み合わせに応じて適用すべき音声認識データテーブルが定まるようになっている。 In the determination in step S202, if at least one of the inspection start information, the inspection type information, and the X-ray irradiation information has changed, the process proceeds to step S203, and the apparatus operation status command St is generated. As shown in FIG. 6D, the device operation status command St is composed of three pieces of information, that is, inspection start information, inspection type, and X-ray irradiation information, and the voice recognition data table to be applied is determined according to these combinations. It is like this.

システム操作決定部14は、生成された装置運用状況コマンドStを音声認識部111へ出力し(ステップS205)、音声認識部111は、入力された装置運用状況コマンドStに従って音声認識データテーブルを選択し、切り替える。装置運用状況コマンドStの各情報、例えば、検査開始情報が「検査開始後」を示すao1、検査種別が「Abdomen(腹部)」を示す1001、X線照射情報が「照射中」を示すc01である場合には、音声認識データベースtg003が選択される。 The system operation determination unit 14 outputs the generated device operation status command St to the voice recognition unit 111 (step S205), and the voice recognition unit 111 selects the voice recognition data table according to the input device operation status command St. , Switch. Each piece of information of the apparatus operation status command St, for example, the examination start information is ao1 indicating “after examination start”, the examination type is 1001 indicating “Abdomen (abdomen)”, and the X-ray irradiation information is c01 indicating “irradiating”. In some cases, the voice recognition database tg003 is selected.

上述のように音声認識DBに音声認識データテーブルが複数格納されている場合においても、第1の実施形態及びその変形例と同様に、重み係数の更新を行うことができる。 Even when a plurality of voice recognition data tables are stored in the voice recognition DB as described above, the weighting factor can be updated as in the first embodiment and its modification.

コマンド解析部113は、操作履歴を生成する際に、操作コマンドを示す操作コマンドコードや音声コマンドを示す音声コマンドコードと共に、検査開始の有無や検査種別に係るコマンドコード(図6参照)を記録する。このようにすることで、更新が必要な音声認識データベースの重み係数についてのみ更新を行うことができる。 When generating the operation history, the command analysis unit 113 records the operation command code indicating the operation command and the voice command code indicating the voice command, as well as the command code related to the presence or absence of the inspection start and the inspection type (see FIG. 6 ). .. By doing so, it is possible to update only the weighting coefficient of the voice recognition database that needs updating.

このように本実施形態によれば、音声認識入力装置を適用する装置の運用状況に応じて音声認識処理に用いる音声認識データテーブルを切り替えることができる。各音声認識データテーブルは、装置運用状況毎に使用頻度の高い操作、使用頻度の高い音声コマンドに比重を置いた重み係数を定めることができるため、音声認識処理の精度を向上させることができる。 As described above, according to the present embodiment, it is possible to switch the voice recognition data table used for the voice recognition processing according to the operation status of the device to which the voice recognition input device is applied. Since each voice recognition data table can define a weighting coefficient that weights a frequently used operation and a frequently used voice command for each device operation situation, the accuracy of the voice recognition process can be improved.

10・・・音声認識入力装置、11・・・CPU、12・・・音声入力I/F、13・・・手動入力I/F、14・・・メモリ、15・・・音声認識DB、16・・・ログ収集DB、20・・・画像撮像装置、30・・・ディスプレイ、111・・・音声認識部、112・・・コマンド変換部、113・・・コマンド解析部、120・・・音声操作処理部、130・・・手動操作処理部、140・・・システム操作決定部、20・・・画像撮像装置、30・・・ディスプレイ 10...Voice recognition input device, 11...CPU, 12...Voice input I/F, 13...Manual input I/F, 14...Memory, 15...Voice recognition DB, 16 ... log collection DB, 20... image pickup device, 30... display, 111... voice recognition unit, 112... command conversion unit, 113... command analysis unit, 120... voice Operation processing unit, 130... Manual operation processing unit, 140... System operation determination unit, 20... Image capturing device, 30... Display

Claims (7)

外部機器に対し操作コマンドを入力する音声認識入力装置であって、
1の操作コマンドについて複数の音声コマンドを対応付けて記録すると共に、音声コマンド毎に当該音声コマンドの使用頻度に応じた重み係数を記録した音声認識データテーブルを記憶した記憶部と、
音声入力を受け付け、該音声入力を認識対象として音声認識処理を行って前記音声入力に対応する音声コマンドを音声認識処理の結果として出力する音声認識部と、
前記音声認識データテーブルを参照して、前記音声コマンドを該音声コマンドに対応して記録された操作コマンドに変換するコマンド変換部と、
前記操作コマンドを前記外部機器に出力する操作決定部と、を備え、
前記音声認識部が、前記音声入力に相当し得る音声コマンド候補を複数選出し、これら複数の音声コマンド候補夫々に前記重み係数を乗じることにより最も確からしい音声コマンドを前記音声入力に対する音声認識処理の結果として出力する、音声認識入力装置。
A voice recognition input device for inputting an operation command to an external device,
A storage unit that stores a voice recognition data table in which a plurality of voice commands are associated with one operation command and recorded, and a weighting coefficient corresponding to the frequency of use of the voice command is recorded for each voice command.
A voice recognition unit that receives a voice input, performs a voice recognition process with the voice input as a recognition target, and outputs a voice command corresponding to the voice input as a result of the voice recognition process;
A command conversion unit for converting the voice command into an operation command recorded corresponding to the voice command with reference to the voice recognition data table;
An operation determining unit that outputs the operation command to the external device,
The voice recognition unit selects a plurality of voice command candidates that may correspond to the voice input, and multiplies each of the plurality of voice command candidates by the weighting factor to determine the most probable voice command in the voice recognition process for the voice input. A voice recognition input device that outputs as a result.
前記操作コマンド及び該操作コマンドに対応する前記音声コマンドの少なくとも一方を記録した操作履歴を生成すると共に、該操作履歴を解析した結果に基づいて前記重み係数を更新するコマンド解析部を備えた請求項1記載の音声認識入力装置。 A command analysis unit is provided, which generates an operation history recording at least one of the operation command and the voice command corresponding to the operation command, and updates the weighting coefficient based on a result of analysis of the operation history. 1. The voice recognition input device according to 1. 前記コマンド解析部が、前記操作コマンドの一定期間内における使用頻度又は音声コマンドの積算回数の少なくとも一方に基づいて重み係数を更新する請求項2記載の音声認識入力装置。 The voice recognition input device according to claim 2, wherein the command analysis unit updates the weighting factor based on at least one of a use frequency of the operation command within a certain period or an integrated number of voice commands. 前記コマンド解析部は、前記音声認識部において音声認識処理に誤検知が生じた場合には前記重み係数を小さくするように更新する請求項2又は請求項3記載の音声認識入力装置。 4. The voice recognition input device according to claim 2, wherein the command analysis unit updates the weighting coefficient so as to decrease the weighting coefficient when an erroneous detection occurs in the voice recognition processing in the voice recognition unit. 前記記憶部が、前記外部機器の運用状況に対応した複数の音声認識データテーブルを記憶し、
前記音声認識部が、前記外部機器の運用状況に応じて音声認識処理に用いる前記音声認識データテーブルを切り替える請求項1乃至請求項4の何れか1項記載の音声認識入力装置。
The storage unit stores a plurality of voice recognition data tables corresponding to the operating status of the external device,
The voice recognition input device according to any one of claims 1 to 4, wherein the voice recognition unit switches the voice recognition data table used for voice recognition processing according to an operation status of the external device.
コンピュータにより、医用画像撮像装置に対して音声により操作コマンドを入力させる音声認識入力プログラムであって、
1の操作コマンドについて複数の音声コマンドを対応付けて記録すると共に、音声コマンド毎に当該音声コマンドの使用頻度に応じた重み係数を記録した音声認識データテーブルを参照して、ユーザからの音声入力を認識対象として音声認識処理を行って前記音声入力に対応する音声コマンドを音声認識処理の結果として出力する音声認識ステップと、
前記音声認識データテーブルを参照して、前記音声コマンドを該音声コマンドに対応して記録された操作コマンドに変換するコマンド変換ステップと、
前記医用画像撮像装置に前記操作コマンドを出力する操作決定ステップと、を備え、
前記音声認識ステップにおいて、前記音声入力に相当し得る音声コマンド候補を複数選出し、これら複数の音声コマンド候補夫々に前記重み係数を乗じることにより最も確からしい音声コマンドを前記音声入力に対する音声認識処理の結果として出力させる、音声認識入力プログラム。
A voice recognition input program for causing a computer to input an operation command by voice to a medical image pickup device,
A plurality of voice commands are associated with one operation command and recorded, and a voice recognition data table in which a weighting coefficient corresponding to the frequency of use of the voice command is recorded for each voice command is referred to, and a voice input from the user is input. A voice recognition step of performing a voice recognition process as a recognition target and outputting a voice command corresponding to the voice input as a result of the voice recognition process;
A command conversion step of converting the voice command into an operation command recorded corresponding to the voice command with reference to the voice recognition data table;
An operation determining step of outputting the operation command to the medical image capturing device,
In the voice recognition step, a plurality of voice command candidates that may correspond to the voice input are selected, and the most probable voice command is multiplied by the weighting factor of each of the plurality of voice command candidates to perform the voice recognition process for the voice input. Speech recognition input program to output as a result.
請求項1乃至請求項5の何れか1項記載の音声認識入力装置と、
外部機器としての請求項1乃至請求項5の何れか1項記載の音声認識入力装置医用画像撮像装置と、を備え
請求項1乃至請求項5の何れか1項記載の音声認識入力装置が、前記医用画像撮像装置に対して音声認識入力により操作指示を行う医用画像撮像システム。
A voice recognition input device according to any one of claims 1 to 5,
The voice recognition input device according to any one of claims 1 to 5 as an external device, and the medical image pickup device according to any one of claims 1 to 5, wherein the voice recognition input device according to any one of claims 1 to 5. A medical image pickup system for giving an operation instruction to the medical image pickup apparatus by voice recognition input.
JP2018229984A 2018-12-07 2018-12-07 Voice recognition input device, voice recognition input program and medical imaging system Active JP7141938B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018229984A JP7141938B2 (en) 2018-12-07 2018-12-07 Voice recognition input device, voice recognition input program and medical imaging system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018229984A JP7141938B2 (en) 2018-12-07 2018-12-07 Voice recognition input device, voice recognition input program and medical imaging system

Publications (2)

Publication Number Publication Date
JP2020089641A true JP2020089641A (en) 2020-06-11
JP7141938B2 JP7141938B2 (en) 2022-09-26

Family

ID=71011904

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018229984A Active JP7141938B2 (en) 2018-12-07 2018-12-07 Voice recognition input device, voice recognition input program and medical imaging system

Country Status (1)

Country Link
JP (1) JP7141938B2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114631799A (en) * 2020-12-16 2022-06-17 西门子医疗有限公司 Computer-implemented method, imaging device and computer program product
US11443747B2 (en) * 2019-09-18 2022-09-13 Lg Electronics Inc. Artificial intelligence apparatus and method for recognizing speech of user in consideration of word usage frequency
US11568877B2 (en) 2020-08-05 2023-01-31 Interactive Solutions Corp. System to change image based on voice

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61122781A (en) * 1984-11-20 1986-06-10 Fujitsu Ltd Speech word processor
JPS6491199A (en) * 1987-10-02 1989-04-10 Toshiba Corp Operation controller using voice recognizing function
JP2004157919A (en) * 2002-11-08 2004-06-03 Nec Corp Input device, and voice input method, device and program
JP2006137366A (en) * 2004-11-15 2006-06-01 Honda Motor Co Ltd Instrument control device for vehicle
JP2006149909A (en) * 2004-12-01 2006-06-15 Toshiba Corp X-ray image diagnostic apparatus
JP2007226388A (en) * 2006-02-22 2007-09-06 Konica Minolta Medical & Graphic Inc Command input device and program
JP2009109587A (en) * 2007-10-26 2009-05-21 Panasonic Electric Works Co Ltd Voice recognition control device
JP2013134431A (en) * 2011-12-27 2013-07-08 Toyota Motor Corp Device, method, and program for processing command
JP2014081441A (en) * 2012-10-15 2014-05-08 Sharp Corp Command determination device, determination method thereof, and command determination program
JP2014170185A (en) * 2013-03-05 2014-09-18 Nec Corp Speech command recognition system
US20150379993A1 (en) * 2014-06-30 2015-12-31 Samsung Electronics Co., Ltd. Method of providing voice command and electronic device supporting the same
JP2016128924A (en) * 2010-05-19 2016-07-14 サノフィ−アベンティス・ドイチュラント・ゲゼルシャフト・ミット・ベシュレンクテル・ハフツング Interaction and/or change of operation data of instruction determination process

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61122781A (en) * 1984-11-20 1986-06-10 Fujitsu Ltd Speech word processor
JPS6491199A (en) * 1987-10-02 1989-04-10 Toshiba Corp Operation controller using voice recognizing function
JP2004157919A (en) * 2002-11-08 2004-06-03 Nec Corp Input device, and voice input method, device and program
JP2006137366A (en) * 2004-11-15 2006-06-01 Honda Motor Co Ltd Instrument control device for vehicle
JP2006149909A (en) * 2004-12-01 2006-06-15 Toshiba Corp X-ray image diagnostic apparatus
JP2007226388A (en) * 2006-02-22 2007-09-06 Konica Minolta Medical & Graphic Inc Command input device and program
JP2009109587A (en) * 2007-10-26 2009-05-21 Panasonic Electric Works Co Ltd Voice recognition control device
JP2016128924A (en) * 2010-05-19 2016-07-14 サノフィ−アベンティス・ドイチュラント・ゲゼルシャフト・ミット・ベシュレンクテル・ハフツング Interaction and/or change of operation data of instruction determination process
JP2013134431A (en) * 2011-12-27 2013-07-08 Toyota Motor Corp Device, method, and program for processing command
JP2014081441A (en) * 2012-10-15 2014-05-08 Sharp Corp Command determination device, determination method thereof, and command determination program
JP2014170185A (en) * 2013-03-05 2014-09-18 Nec Corp Speech command recognition system
US20150379993A1 (en) * 2014-06-30 2015-12-31 Samsung Electronics Co., Ltd. Method of providing voice command and electronic device supporting the same

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11443747B2 (en) * 2019-09-18 2022-09-13 Lg Electronics Inc. Artificial intelligence apparatus and method for recognizing speech of user in consideration of word usage frequency
US11568877B2 (en) 2020-08-05 2023-01-31 Interactive Solutions Corp. System to change image based on voice
CN114631799A (en) * 2020-12-16 2022-06-17 西门子医疗有限公司 Computer-implemented method, imaging device and computer program product

Also Published As

Publication number Publication date
JP7141938B2 (en) 2022-09-26

Similar Documents

Publication Publication Date Title
JP7145195B2 (en) Advanced pathological diagnosis
US10978192B2 (en) Methods and apparatus for generating clinical reports
KR100586286B1 (en) Eye gaze for contextual speech recognition
JP4994834B2 (en) Speech recognition system
US8498870B2 (en) Medical ontology based data and voice command processing system
US20080133233A1 (en) Medical assistance device
JP7141938B2 (en) Voice recognition input device, voice recognition input program and medical imaging system
JP6897677B2 (en) Information processing device and information processing method
JP2006521578A5 (en)
JP2018159788A (en) Information processing device, method and program
JP2009515260A (en) System and method for speech-based dialogue in radiological dictation and UI commands
WO2009105088A2 (en) Clinically intelligent parsing
US20120278072A1 (en) Remote healthcare system and healthcare method using the same
IL294684B2 (en) Diagnostic techniques based on speech models
Kurtz et al. Early detection of cognitive decline using voice assistant commands
KR20220005232A (en) Method, apparatur, computer program and computer readable recording medium for providing telemedicine service based on speech recognition
JP7225401B2 (en) MEDICAL SUPPORT DEVICE, OPERATION METHOD THEREOF, MEDICAL ASSISTANCE PROGRAM AND MEDICAL SUPPORT SYSTEM
Kaur Mouse movement using speech and non-speech characteristics of human voice
Abdelwahap et al. Applications Of Natural Language Processing In Healthcare Systems
JP6345502B2 (en) Medical diagnostic imaging equipment
JP2008129961A (en) Examination result recording program
Azarang et al. Development of a graphical user interface for automatic separation of human voice from Doppler ultrasound audio in diving experiments
US20220310099A1 (en) Surgical Microscope System and Corresponding System, Method and Computer Program for a Surgical Microscope System
JP2004233691A (en) Program and method for counseling
CN112530591B (en) Method for generating auscultation test vocabulary and storage equipment

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210618

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20211013

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220422

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220426

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220613

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220823

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220912

R150 Certificate of patent or registration of utility model

Ref document number: 7141938

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350