JP2023064658A - 行動履歴記録装置および行動履歴表示装置 - Google Patents

行動履歴記録装置および行動履歴表示装置 Download PDF

Info

Publication number
JP2023064658A
JP2023064658A JP2021175060A JP2021175060A JP2023064658A JP 2023064658 A JP2023064658 A JP 2023064658A JP 2021175060 A JP2021175060 A JP 2021175060A JP 2021175060 A JP2021175060 A JP 2021175060A JP 2023064658 A JP2023064658 A JP 2023064658A
Authority
JP
Japan
Prior art keywords
time
worker
action history
information
series
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021175060A
Other languages
English (en)
Inventor
修 瀬川
Osamu Segawa
一平 田中
Ippei Tanaka
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chubu Electric Power Co Inc
Original Assignee
Chubu Electric Power Co Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chubu Electric Power Co Inc filed Critical Chubu Electric Power Co Inc
Priority to JP2021175060A priority Critical patent/JP2023064658A/ja
Publication of JP2023064658A publication Critical patent/JP2023064658A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Position Input By Displaying (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】作業者の行動履歴を容易に記録することができる技術を提供する。【解決手段】音声認識手段120は、作業者が発する音声に含まれている単語を判別し、単語情報を時系列に出力する。注視点位置検出手段130は、作業者の注視点の位置を検出し、注視点位置情報を時系列に出力する。指先位置検出手段140は、作業者の指先の位置を検出し、指先位置情報を時系列に出力する。統合手段111は、時系列の単語情報、時系列の注視点位置情報および時系列の指先位置情報系列に基づいて、単語情報、注視点位置情報および指先位置情報を統合した統合情報を時系列に出力し、記憶手段150に登録する。画像情報生成手段112は、時系列の統合情報に基づいて、任意の時点における、作業者の注視点位置と指先位置、任意の時点を含む所定期間内に作業者が発した音声を示す単語系列を含む画像情報を時系列に生成し、表示手段160に出力する。【選択図】図1

Description

本発明は、作業者の行動履歴を記録および表示する技術に関する。
近年、産業界においては、熟練した作業技能を有する作業者(以下、「熟練作業者」という)が蓄積した作業のノウハウ等(「暗黙知」と呼ばれる)を記録し、他の作業者に伝承する必要性が高まっている。しかし、暗黙知を体系化し、技能を組織内で共有する手段の実現は容易でない。
そこで、技能継承にかかわる種々の技術が提案されている。例えば、特許文献1に開示されている作業支援装置では、作業者の視線の移動方向の測定量を測定する。そして、測定した測定量と予め用意された基準値とを比較し、比較結果に基づいて作業者の熟練度を判定している。
国際公開第2017/119127号
しかしながら、特許文献1に開示されている作業支援装置は、熟練度の比較を主目的にしている。また、作業者の注視点の情報のみを用いており、言語やジェスチャなどの情報は考慮されていない。このため、特許文献1に開示されている作業支援装置は、適用目的が限定され、広範な作業技能の記録と共有には適していない。
そこで、前記先行技術を含む種々の関連技術を検討した結果、注視点の情報に加え、言語やジェスチャなどの情報をデジタル記録し、これらの情報を統合することによって、より広範な作業技能の記録と共有を実現する技術を開発した。
近年、センサで取得した複数の情報を統合的に処理するマルチモーダル情報処理技術が開発されている。このマルチモーダル情報処理技術を用いることにより、複数の入力情報(マルチモーダル情報)を統合し、新たな付加価値を有する情報を生成することが可能となる。
作業者が何らかの目的作業を行う際に、作業時に発生する音声情報や音声情報と同期した注視点位置情報や指先位置情報を判別し、これらのマルチモーダル情報を選択的に統合処理することによって、作業者の暗黙知を含む行動履歴を記録し、行動履歴の情報を共有することができる。
本発明は、作業者の行動履歴を容易に記録することができる技術、また、作業者の行動履歴を容易に表示することができる技術を提供することを目的とする。
第1~第4発明は、作業者の行動履歴を記録する行動履歴記録装置に関する。
第1発明の行動履歴記録装置は、作業者が発声した音声に含まれている単語と作業者の注視点位置を統合した統合情報を作業者の行動履歴として記録する。
第1発明は、音声認識手段、注視点位置検出手段、統合手段、記憶手段を備えている。
音声認識手段は、作業者が発する音声に含まれている単語を判別し、単語を示す単語情報を時系列に出力する。音声認識手段は、公知の種々の音声認識手法を用いることができる。例えば、音声入力手段と単語判別手段により構成される音声認識手段を用いることができる。音声入力手段は、作業者が発する音声を入力し、音声を示す音声情音声を時系列に出力する。単語判別手段は、音声情報に基づいて、音声に含まれている単語を判別し、単語情報を時系列に出力する。
注視点位置検出手段は、作業者の注視点の位置を検出し、注視点位置を示す注視点位置情報を時系列に(各時刻における注視点位置を判別可能に)出力する。注視点位置検出手段は、公知の種々の注視点位置検出手法を用いることができる。なお、注視点位置を含む行動履歴を表示手段に表示する際には、表示手段の表示画面上における注視点位置を設定する必要がある。このため、注視点位置検出手段で検出した注視点位置と表示手段の表示画面上の座標系との対応関係を判別可能に構成される。
統合手段は、音声認識手段から出力された時系列の単語情報と注視点位置検出手段から出力された時系列の注視点位置情報に基づいて、単語情報と注視点位置情報を統合した統合情報を時系列に出力し、記憶手段に記録する。これにより、記憶手段には、各時点で作業者が発声した音声に含まれる単語と、各時点における作業者の注視点の位置を含む統合情報が時系列に記録される。すなわち、作業者が発声した音声と作業者の注視点の位置を統合した行動履歴が記録される。
第1発明は、作業者の行動履歴として音声と注視点の関連性を容易に記録することができる。
第2発明の行動履歴記録装置は、作業者が発声した音声に含まれている単語、作業者の注視点の位置および作業者の指先の位置を統合した統合情報を作業者の行動履歴として記録する。
第2発明は、音声認識手段、注視点位置検出手段、指先位置検出手段、統合手段、記憶手段を備えている。
音声認識手段としては、前述した音声認識手段を用いることができる。
注視点位置検出手段としては、前述した注視点位置検出手段を用いることができる。
指先位置検出手段は、作業者の指先の位置を検出し、指先位置を示す指先位置情報を時系列に(各時点における指先位置を判別可能に)出力する。指先位置検出手段は、公知の種々の指先位置検出手法を用いることができる。例えば、撮像手段と画像処理手段により構成される指先位置検出手段を用いることができる。撮像手段は、撮像領域を撮像し、時系列の撮像情報を出力する。画像処理手段は、撮像情報に基づいて、撮像領域内の指先位置を検出し、指先位置を示す指先位置情報を時系列に出力する。なお、指先位置を含む行動履歴を表示手段に表示する際には、表示手段の表示画面上における指先位置を設定する必要がある。このため、指先位置検出手段で検出した指先位置と表示手段の表示画面上の座標系との対応関係を判別可能に構成される。
統合手段は、時系列の単語情報、時系列の注視点位置情報および時系列の指先位置情報に基づいて、単語情報、注視点位置情報および指先位置情報を統合した統合情報を時系列に出力する。すなわち、時点t(n)における統合情報は、時点t(n)に作業者が発声した単語、および時点t(n)における作業者の注視点の位置および指先の位置から構成される。
第2発明は、作業者の行動履歴として音声、注視点および指先位置の関連性を容易に記録することができる。
第3発明の行動履歴記録装置は、作業者が発声した音声に含まれている単語と作業者の指先の位置を統合した統合情報を作業者の行動履歴として記録する。
第3発明は、音声認識手段、指先位置検出手段、統合手段、記憶手段を備えている。
音声認識手段としては、前述した音声認識手段を用いることができる。
指先位置検出手段としては、前述した指先位置検出手段を用いることができる。
統合手段は、時系列の単語情報と時系列の指先位置情報に基づいて、単語情報と指先位置情報を統合した統合情報を時系列に出力し、記憶手段に記録する。すなわち、時点t(n)における統合情報は、時点t(n)に作業者が発声した単語と時点t(n)における作業者の指先の位置から構成される。
第3発明は、作業者の行動履歴として音声と指先位置の関連性を容易に記録することができる。
第4発明の行動履歴記録装置は、作業者の注視点の位置と指先の位置を統合した統合情報を作業者の行動履歴として記録する。
第4発明は、注視点位置検出手段、指先位置検出手段、統合手段、記憶手段を備えている。
注視点位置検出手段としては、前述した注視点位置検出手段を用いることができる。
指先位置検出手段としては、前述した指先位置検出手段を用いることができる。
統合手段は、時系列の注視点位置情報と時系列の指先位置情報に基づいて、注視点位置情報と指先位置情報を統合した統合情報を時系列に出力し、記憶手段に記録する。すなわち、時点t(n)における統合情報は、時点t(n)における作業者の注視点の位置と指先の位置から構成される。
第4発明は、作業者の行動履歴として注視点と指先位置の関連性を容易に記録することができる。
なお、第1~第4発明では、統合手段から出力される時系列の統合情報を表示手段に表示することができる。
第5~第8発明は、作業者の行動履歴を表示する行動履歴表示装置に関する。
第5発明の行動履歴表示装置は、作業者が発声した音声に含まれている単語と作業者の注視点の位置を統合した統合情報を表示手段に表示する。
第5発明は、画像情報生成手段、記憶手段、表示手段を備えている。
記憶手段には、第1発明の記憶手段に記録された時系列の統合情報が記録されている。
画像情報生成手段は、記憶手段に記録されている、時系列の単語情報と時系列の注視点位置情報を統合した時系列の統合情報に基づいて、時系列の画像情報を生成し、表示手段に出力する。任意の時点の画像情報は、当該任意の時点における作業者の注視点の位置と、当該任意の時点を含む所定期間内に作業者が発声した音声を示す単語系列を含んでいる。
「任意の時点を含む所定期間」は、例えば、任意の時点が、あらかじめ設定した継続時間長の無音区間で挟まれている発話区間に含まれている場合には、当該発話区間を意味する。あるいは、任意の時点が、単語の始端時刻から終端時刻までの単語発声区間に含まれている場合には、当該単語発声区間を意味する。「所定期間内に作業者が発声した音声を示す単語系列」は、例えば、所定期間が、あらかじめ設定した継続時間長の無音区間で挟まれている発話区間に含まれている場合には、発話に含まれている単語の組み合わせを意味する。あるいは、所定期間が単語発声区間である場合には、当該単語を意味する。
時系列の統合情報は、行動履歴記録装置により時系列の統合情報が記録された記憶手段から直接読み出してもよいし、他の記憶手段を介して間接的に読み出してもよい。
第5発明では、作業者の行動履歴を、音声と注視点の関連性により容易に確認することができる。
第6発明の行動履歴表示装置は、作業者が発声した音声に含まれている単語と作業者の注視点の位置および指先の位置を統合した統合情報を表示する。
第6発明は、画像情報生成手段、記憶手段、表示手段を備えている。
記憶手段には、第2発明の記憶手段に記録された時系列の統合情報が記録されている。
画像情報生成手段は、記憶手段に記憶されている、時系列の単語情報と時系列の注視点位置情報および時系列の指先位置情報を統合した時系列の統合情報に基づいて、時系列の画像情報を生成し、表示手段に出力する。任意の時点の画像情報は、当該任意の時点における作業者の注視点の位置および指先の位置と、当該任意の時点を含む所定期間内に作業者が発声した音声を示す単語系列を含んでいる。
時系列の統合情報は、行動履歴記録装置により統合情報を記録した記憶手段から直接読み出してもよいし、他の記憶手段を介して間接的に読み出してもよい。
第6発明では、作業者の行動履歴を、音声と注視点および指先位置の関連性により容易、正確に確認することができる。
第7発明の行動履歴表示装置は、作業者が発声した音声に含まれている単語と作業者の指先の位置を統合した統合情報を表示する。
第7発明は、画像情報生成手段、記憶手段、表示手段を備えている。
記憶手段には、第3発明の記憶手段に記録された時系列の統合情報が記録されている。
画像情報生成手段は、記憶手段に記録されている、時系列の単語情報と時系列の指先位置情報を統合した時系列の統合情報に基づいて、時系列の画像情報を生成し、表示手段に出力する。任意の時点の画像情報は、当該任意の時点における作業者の指先の位置と、当該任意の時点を含む所定期間内に作業者が発声した音声を示す単語系列を含んでいる。
時系列の統合情報は、行動履歴記録装置により統合情報を記録した記憶手段から直接読み出してもよいし、他の記憶手段を介して間接的に読み出してもよい。
第7発明では、作業者の行動履歴を、音声と指先位置の関連性により容易に確認することができる。
第8発明の行動履歴表示装置は、作業者の注視点の位置と指先の位置を統合した統合情報を表示する。
第8発明は、画像情報生成手段、記憶手段、表示手段を備えている。
記憶手段には、第4発明の記憶手段に記録された時系列の統合情報が記録されている。
画像情報生成手段は、記憶手段に記憶されている、時系列の注視点位置情報と時系列の指先位置情報を統合した時系列の統合情報に基づいて、時系列の画像情報を生成し、表示手段に出力する。任意の時点の画像情報は、当該任意の時点における作業者の注視点の位置と指先の位置を含んでいる。
時系列の統合情報は、行動履歴記録装置により統合情報を記録した記憶手段から直接読み出してもよいし、他の記憶手段を介して間接的に読み出してもよい。
第8発明では、作業者の行動履歴を、注視点と指先位置の関連性により容易に確認することができる。
第5~第7発明の異なる形態では、画像情報生成手段は、任意の時点を含む所定期間内に作業者が発声した音声を示す単語系列を含む画像情報を、任意の時点を含む所定期間内に作業者が発声した音声に含まれている各単語の始端時刻から終端時刻までの区間の継続時間の間のみ生成する。
単語系列を含む画像情報を生成する継続時間は、「所定期間内に作業者が発声した音声に含まれている各単語の始端時刻と終端時刻」に基づいて適宜設定することができる。例えば、単語系列が複数の単語により構成されている場合には、最初の単語の始端時刻から最後の単語の終端時刻までの区間の継続時間を設定することができる。あるいは、単語系列が一つの単語で構成される場合には、当該単語の始端時刻から終端時刻までの区間の継続時間に設定することができる。
本形態では、作業者の発声タイミングと作業者の注視点の位置や指先の位置との関連性を容易に確認することができる。
第5~第7発明の異なる形態では、画像情報生成手段は、任意の時点を含む所定期内に作業者が発声した音声に特定の単語が含まれている場合には、当該特定の単語を含む単語系列が強調された画像情報を、当該特定の単語の始端時刻から終端時刻までの区間の継続時間の間のみ生成する。
例えば、所定期間内に作業者が発生した音声を示す単語系列を、当該単語系列を構成する最初の単語の始端時刻から最後の単語の終端時刻までの区間の継続時間の間のみ表示するとともに、特定の単語を、特定の単語の始端時刻から終端時刻にかけて、単語系列の表示形態と異なる表示態様(異なる色、異なる模様等)で、特定の単語の一方側から順次ハイライト表示する。あるいは、特定の単語を、単語系列の表示態様と異なる表示態様(異なる色、異なる模様等)で、特定の単語の始端時刻から終端時刻までの区間の継続時間の間のみハイライト表示する。
本形態では、特定の単語の発声タイミングを容易に確認することができる。
第5または第6発明の異なる形態では、画像情報生成手段は、単語系列が作業者の注視点の位置の近傍に配置された画像を示す画像情報を生成する。
単語系列を注視点の位置の近傍に配置する態様としては、例えば、単語系列を、三角の先端が注視点の位置の近傍に配置されるように吹き出し表示する。
本形態では、単語系列の発声タイミングと作業者の注視点の位置との対応関係を容易に確認することができる。
第5または第6発明の異なる形態では、画像情報生成手段は、単語系列が作業者の注視点の位置の近傍に配置された画像を示す画像情報を生成する。
単語系列を注視点の位置の近傍に配置する態様としては、例えば、単語系列を、三角の先端が注視点の位置の近傍に配置されるように吹き出し表示する。
本形態では、単語系列の発声タイミングと作業者の注視点の位置との関連性を容易に確認することができる。
第6または第7発明の異なる形態では、画像情報生成手段は、単語系列が作業者の指先の位置の近傍に配置された画像を示す画像情報を生成する。
単語系列を指先の湯地の近傍に配置する態様としては、例えば、単語系列を、三角の先端が指先の位置の近傍に配置されるように吹き出し表示する。
本形態では、単語系列の発声タイミングと作業者の指先の位置との関連性を容易に確認することができる。
第1~第4発明の行動履歴記録装置を用いることにより、作業者の行動履歴を容易に記録することができる。また、第5~第8発明の行動履歴表示装置を用いることにより、作業者の行動履歴を容易に確認することができる。
本発明の行動履歴記録装置あるいは行動履歴表示装置の第1実施形態のブロック図である。 第1実施形態の概要を説明する図である。 作業者が発する音声の一例を示す図である。 作業者が図3に示されている音声を発する場合における、行動履歴の表示画面の一例を示す図である。 作業者が図3に示されている音声を発する場合における、行動履歴の表示画面の他の例を示す図である。 作業者が図3に示されている音声を発する場合における、行動履歴の表示画面の他の例を示す図である。 本発明の行動履歴記録装置あるいは行動履歴表示装置の第2実施形態のブロック図である。 本発明の行動履歴記録装置あるいは行動履歴表示装置の第3実施形態のブロック図である。 本発明の行動履歴記録装置あるいは行動履歴表示装置の第4実施形態のブロック図である。 本発明の行動履歴記録装置の第5実施形態のブロック図である。 本発明の行動履歴表示装置の第5実施形態のブロック図である。
以下に、本発明の実施形態を、図面を参照して説明する。
まず、本発明の行動履歴記録装置について説明する。
本発明の行動履歴記録装置の第1実施形態100のブロック図が、図1に示されている。第1実施形態の行動履歴記録装置100は、作業者が発声した音声、作業者の注視点の位置および作業者の指先の位置に基づいて作業者の行動履歴を記録している。
第1実施形態の行動履歴記録装置100は、処理手段110、音声認識手段120、注視点位置検出手段130、指先位置検出手段140,記憶手段150,表示手段160を有している。
音声認識手段120は、作業者が発する音声に含まれている単語を判別する。
音声認識手段100は、公知の種々の音声認識手法を用いることができる。例えば、音声入力手段121と単語判別手段122を有する音声認識手段100を用いることができる。
音声入力手段121は、作業者の音声を入力し、アナログの音声情報を時系列のデジタル情報として出力する。音声入力手段121としては、例えば、マイクロフォンが用いられる。
単語判別手段122は、時系列の音声情報(音声情報系列)を入力し、音声情報に含まれている単語を判別し、単語と当該単語の始端時刻および終端時刻を含む時系列の単語情報を出力する。
ここで、単語の始端時刻および終端時刻は、単語判別手段122において、音声情報系列の特徴量から単語情報系列を探索する過程において判別することができる。例えば、既存手法である隠れマルコフモデル(HMM)による音響モデル、N‐gramによる言語モデル、およびOne‐Pass‐Viterbiアルゴリズムの組み合わせを用いることよって、音声情報系列の特徴量から音響的な類似度と言語的な類似度を総合的に評価し、入力された音声情報に適合する単語と、当該単語の音声情報中での時間的な存在位置を表す始端時刻および終端時刻を同時に判別することができる。
単語判別手段122は、公知の種々の音声認識アルゴリズムを用いることができる。例えば、HMM(隠れマルコフモデル)や、ニューラルネットワークと系列変換モデルに基づく手法などを用いることができる。
なお、単語判別手段122で判別する単語は、文法的な品詞(形態素)などの単位に限定されず、あらかじめ定義した任意の文字列であってもよい。
注視点位置検出手段は、作業者の注視点の位置を検出し、注視点位置を示す時系列の注視点位置情報を出力する。注視点位置情報には、注視点位置を検出した時刻が含まれている。
注視点位置検出手段は、公知の種々の注視点位置検出アルゴリズムを用いることができる。例えば、角膜反射法、暗瞳孔法等を用いることができる。
なお、注視点位置を含む行動履歴を表示手段に表示する際には、表示手段の表示画面に表示される作業者の視界に入った対象領域(CCDなどの画像センサで取得した設備画像など)に注視点位置が表示される。この場合、注視点位置と、表示画面上における座標系との対応関係を判別可能に構成する必要がある。例えば、表示画面に表示される設備の基準位置と注視点位置との対応関係を判別可能に構成する。
指先位置検出手段140は、作業者の指先の位置を検出し、指先位置を示す時系列の指先位置情報を出力する。指先位置情報には、指先位置を検出した時刻が含まれている。
指先位置検出手段は、公知の種々の物体検出アルゴリズムを用いることができる。例えば、CNN(畳み込みニューラルネットワーク)に基づく種々の物体検出手法を用いることができる。
画像処理手段は、撮像手段で撮像した撮像画像に基づいて、撮像領域内に作業者の指先が存在するか否かを判別する。撮像領域内に作業者の指先が存在する場合には、指先の位置を示す時系列の指先位置情報を出力する。
なお、指先位置を含む行動履歴を表示手段に表示する際には、表示手段の表示画面に表示される作業者の視界に入った対象領域(CCDなどの画像センサで取得した設備画像など)に指先位置が表示される。この場合、指先位置と、表示画面上における座標系との対応関係を判別可能に構成する必要がある。例えば、表示画面に表示される設備の基準位置と指先位置との対応関係を判別可能に構成する。
記憶手段150は、各処理を実行するプログラムや、種々のデータが記憶される。
表示手段160は、作業者の行動履歴を表示する際に用いられる。
処理手段110は、統合手段111と、画像情報生成手段112を有している。
統合手段111は、音声認識手段120から出力される時系列の単語情報(以下、「単語情報系列」という)と、注視点位置検出手段130から出力される時系列の注視点位置情報(以下、「注視点位置情報列」という)と、指先位置検出手段140から出力される時系列の指先位置情報(以下、「指先位置情報系列」という)に基づいて、単語情報、注視点位置情報および指先位置情報を統合した統合情報を時系列に出力する。この時、時点t(n)における統合情報は、時点t(n)に作業者が発声した単語、時点t(n)における作業者の注視点の位置および指先の位置から構成される。
時系列の画像情報(以下、「画像情報系列という)は、作業者の行動履歴情報として記憶手段150に記憶される。
なお、処理手段110によって、音声認識手段120の処理、注視点位置検出手段130の処理、指先位置検出手段の処理の一部あるいは全部を実行するように構成することもできる。
画像情報生成手段112は、記憶手段150に記憶されている、単語情報系列と注視点位置情報列および指先位置情報系列を統合した時系列の統合情報(以下、「統合情報系列」という)に基づいて、画像情報系列を生成する。画像情報系列は、表示手段160に出力されて、表示される。
画像情報生成手段112は、図1に示されているように、統合手段111から出力される統合情報系列に基づいて、画像情報系列を生成することもできる。
画像情報系列中の任意の時点の画像情報は、当該任意の時点における作業者の注視点の位置および指先の位置と、当該任意の時点を含む所定期間内に作業者が発声した音声を示す単語系列を含んでいる。
「任意の時点を含む所定期間」は、例えば、任意の時点が、あらかじめ設定した継続時間長の無音区間で挟まれている発話区間に含まれている場合には、当該発話区間を意味する。あるいは、任意の時点が、単語の始端時刻から終端時刻までの単語発声区間に含まれている場合には、当該単語発声区間を意味する。
「所定期間内に作業者が発声した音声を示す単語系列」は、例えば、所定期間が、あらかじめ設定した継続時間長の無音区間で挟まれている発話区間に含まれている場合には、発話に含まれている単語の組み合わせを意味する。あるいは、所定期間が単語発声区間である場合には、当該単語を意味する。
本実施形態では、音声認識手段120、注視点位置検出手段130、指先位置検出手段140、統合手段111、記憶手段150により、作業者の行動履歴を記録する行動履歴記録装置が構成されている。
また、本実施形態では、記憶手段150(あるいは、画像情報生成手段112)、表示手段160により、作業者の行動履歴を表示する行動履歴表示装置が構成されている。
すなわち、本実施形態は、行動履歴表示機能を備える行動履歴記録装置として構成されている。
これにより、本実施形態は、行動履歴表示装置の第1実施形態でもある。
次に、本実施形態の概要を、図2を参照して説明する。
統合手段111は、音声認識手段120から出力される単語情報系列、注視点位置検出手段130から出力される注視点位置情報系列および指先位置検出手段140から出力される指先位置情報系列を統合して、統合情報系列を出力し、記憶手段150に記憶する。
画像情報生成手段112は、記憶手段150に記憶されている統合情報系列に基づいて、画像情報系列を生成する。なお、画像情報生成手段112は、統合手段111から出力される統合情報系列に基づいて画像情報系列を生成するように構成することもできる。
図2では、画像情報系列は、時点t(1)~t(n)の統合画像を含んでいる。時点t(n)の統合画像には、単語系列「圧力正常確認。」が発話されている時に、注視点位置(一点鎖線)が表示部A1の数字「19.50」の位置にあり、指先位置(破線)がボタンB1の位置にあることが示されている。
このように、作業者の発話内容と、注視点位置および指先位置を時系列に表示することによって、作業者の行動履歴を、音声と注視点および指先との関連性により容易に確認することができる。
これにより、熟練作業者の暗黙知の確認が容易となり、熟練作業者の暗黙知の伝承に活用することができる。
次に、具定例に基づいて説明する。
以下では、発電プラントの故障復旧時に、作業者が、図3に示されている発話を行った場合について説明する。
音声認識手段120は、図3に示されている発話を音声認識して単語情報系列を出力する。
例えば、図4に示されているように、発話を示す単語系列「重故障、タービン第1軸受け振動、X方向、Y方向。」に含まれている単語「重故障」、「、」「タービン」、「第」「1」、「軸受け」、「振動」、「、」、「X」、「方向」、「、」、「Y」、「方向」、「。」を判別する。なお、単語系列「重故障、タービン第1軸受け振動、X方向、Y方向。」は、所定の継続時間長の無音として判別される区間で分割された発話の一例である。この時、各単語の始端時刻と終端時刻も判別されている。
図4には、画像情報で示される表示画面の一例が示されている。
なお、図4に示される、注視点位置や指先位置が表示される設備画面(背景画面)は、注視点位置情報で示される注視点位置や指先位置情報で示される指先位置と設備画面上の座標系との対応関係が判別可能であればよく、予め登録されている画面を表示してもよいし、作業者が撮像した画面を表示してもよい。また、拡大画面や縮小画面を表示してもよい。
図4に示されている表示画面から、注視点位置(一点鎖線)が、表示部A1に表示されている数字「19.50」の位置にあり、指先位置(破線)が、ボタンB1の位置にあることを確認することができる。また、図4に示されている注視点位置と指先位置の表示タイミングは、「重故障、タービン第1軸受け振動、X方向、Y方向。」という発話の発話区間(最初の単語「重故障」の始端時刻「T_S1」から、最後の単語「。」の終端時刻「T_E14」までの区間の継続時間)内であることを確認することができる。
図5に、画像情報で示される表示画面の異なる例が示されている。
図5に示されている表示画面では、作業者が発声した音声内に特別の単語が含まれている場合には、特別の単語を強調して表示(ハイライト表示)している。
例えば、発話を示す単語系列「重故障、タービン第1軸受け振動、X方向、Y方向。」内に、特別の単語「タービン」が含まれている場合には、単語「タービン」の始端時刻「T_S3」から終端時刻「T_E3」までの区間の継続時間の間のみ単語「タービン」を強調して表示する。
例えば、単語系列「重故障、タービン第1軸受け振動、X方向、Y方向。」の表示期間(最初の単語「重故障」の始端時刻「T_S1」から、最後の単語「。」の終端時刻「T_E14」までの区間の継続時間)内において、単語「タービン」の始端時刻「TS3」から終端時刻「T_E3」に向けて、一端側から他端側に順次ハイライト表示(色や模様等の表示態様を、他の部分の表示態様と変える)する。あるいは、単語「タービン」の始端時刻「TS3」から終端時刻「T_E3」までの区間の継続時間の間のみハイライト表示する。
なお、特定の単語は、複数の単語を組み合わせたものであってもよい。
図6に、画像情報で示される表示画面の異なる例が示されている。
図6に示されている表示画面では、発話を示す単語系列「重故障、タービン第1軸受け振動、X方向、Y方向。」を、注視点位置(一点鎖線)の近傍に配置している。例えば、単語配列を吹き出し表示するとともに、吹き出し表示の三角の先端を、注視点位置の近傍に配置する。
なお、発話を示す単語系列を、指先位置の希望に配置することもできる。
第1の実施形態の行動履歴記録装置では、単語情報系列、注視点位置情報系列および指先位置情報系列を統合した統合情報系列を作業者の行動履歴情報として記憶手段に記憶したが、行動履歴情報はこれに限定されない。
図7に、本発明の行動履歴記録装置の第2実施形態200が示されている。
第2実施形態の行動履歴記録装置200は、音声認識手段220,注視点位置検出手段230、統合手段211、画像情報生成手段212、記憶手段250、表示手段260を備えているが、第1実施形態の指先位置検出手段を備えていない。
すなわち、第2実施形態の行動履歴記録装置200は、単語情報系列と注視点位置情報系列を統合した統合情報系列を行動履歴情報として記憶手段250に記録している。
また、画像情報生成手段212は、記憶手段250に記憶されている(あるいは、統合手段211から出力される)統合情報系列に基づいて画像情報系列を生成し、表示手段260に表示している。
すなわち、本実施形態は、記憶手段250(あるいは、画像情報生成手段212)、表示手段260により、作業者の行動履歴を表示する行動履歴表示装置が構成されている。
これにより、本実施形態は、行動履歴表示装置の第2実施形態でもある。
図8に、本発明の行動履歴記録装置の第3実施形態300が示されている。
第3実施形態の行動履歴記録装置300は、音声認識手段320、指先位置検出手段340、統合手段311、画像情報生成手段312、記憶手段350、表示手段360を備えているが、第1実施形態の注視点位置検出手段を備えていない。
すなわち、第3実施形態の行動履歴記録装置300は、単語情報系列と指先位置情報系列を統合した統合情報系列を行動履歴情報として記憶手段350に記録している。
また、画像情報生成手段312は、記憶手段350に記憶されている(あるいは、統合手段311から出力される)統合情報系列に基づいて画像情報系列を生成し、表示手段360に表示している。
すなわち、本実施形態は、記憶手段350(あるいは、画像情報生成手段312)、表示手段360により、作業者の行動履歴を表示する行動履歴表示装置が構成されている。
これにより、本実施形態は、行動履歴表示装置の第3実施形態でもある。
図9に、本発明の行動履歴記録装置の第4実施形態400が示されている。
第4実施形態の行動履歴記録装置400は、注視点位置検出手段430、指先位置検出手段440、統合手段411、画像情報生成手段412、記憶手段450、表示手段460を備えているが、第1実施形態の音声認識手段を備えていない。
すなわち、第4実施形態の行動履歴記録装置400は、注視点位置情報系列と指先位置情報系列を統合した統合情報系列を行動履歴情報として記憶手段450に記録している。
また、画像情報生成手段412は、記憶手段450に記憶されている(あるいは、統合手段411から出力される)統合情報系列に基づいて画像情報系列を生成し、表示手段360に表示している。
すなわち、本実施形態は、記憶手段450(あるいは、画像情報生成手段412)、表示手段460により、作業者の行動履歴を表示する行動履歴表示装置が構成されている。
これにより、本実施形態は、行動履歴表示装置の第4実施形態でもある。
以上の実施形態では、行動履歴表示機能を備える行動履歴記録装置として構成したが、行動履歴記録装置と行動履歴表示装置に分けることもできる。
図10に、行動履歴記録装置の第5実施形態500のブロック図が示されている。
第5実施形態の行動履歴記録装置500は、第1実施形態の行動履歴記録装置100を分割したものであり、単語情報系列、注視点位置情報系列および指先位置情報系列を統合した統合情報系列を、作業者の行動履歴情報として記憶手段に記録するものである。
第5実施形態の行動履歴記録装置500は、音声認識手段520,注視点位置検出手段530,指先位置検出手段540、統合手段51、記憶手段550により構成されている。動作は、第1実施形態の行動履歴記録装置情報100と同じである。
記憶手段550に記録されている統合情報系列を用いて、行動履歴記録装置以外の処理装置により行動履歴を表示させることができることは、第1~第4実施形態の行動履歴記録装置と同様である。
図11に、行動履歴表示装置の第5実施形態600のブロック図が示されている。
第5実施形態の行動履歴表示装置600は、画像情報生成手段612、記憶手段650、表示手段660におり構成されている。
記憶手段650には、第1~第5実施形態の行動履歴記録装置のいずれかで記憶手段に記録した統合情報系列と同様の統合情報系列が記録されている。
動作は、第1~第4実施形態の行動履歴表示装置と同じである。
なお、第2~第4実施形態の行動履歴記録装置も、図10、図11のように行動履歴記録装置と行動履歴表示装置に分けることができる。
(態様1)
作業者の行動履歴を記録する行動履歴記録装置であって、
音声認識手段、注視点位置検出手段および指先位置検出手段のうちの少なくとも2つと、統合手段と、記憶手段と、を備え、
前記音声認識手段は、前記作業者が発声した音声に含まれている単語を判別し、単語を示す単語情報を時系列に出力し、
前記注視点位置検出手段は、前記作業者が注視している注視点位置を検出して、注視点位置を示す注視点位置情報を時系列に出力し、
前記指先位置検出手段は、前記作業者の指先位置を検出して、指先位置を示す指先位置情報を時系列に出力し、
前記統合手段は、前記音声認識手段から出力された時系列の単語情報、前記注視点位置検出手段から出力された時系列の注視点位置情報および前記指先位置検出手段から出力された時系列の指先位置情報のうちの少なくとも2つに基づいて、単語情報、注視点位置情報および指先位置情報のうちの少なくとも2つを統合した統合情報を時系列に出力し、前記記憶手段に記録することを特徴とする行動履歴記録装置。
本態様では、統合手段は、単語情報と注視点位置情報を統合した統合情報、単語情報と注視点位置情報および指先位置情報を統合した統合情報、単語情報と指先位置情報を統合した統合情報、注視点位置情報と指先位置情報を統合した統合情報のいずれかを時系列に出力し、記憶手段に記録する。
(態様2)
作業者の行動履歴を表示する行動履歴表示装置であって、
画像情報生成手段と、記憶手段と、表示手段と、を備え、
前記記憶手段には、態様1に記載の記憶手段に記録された時系列の統合情報が記録されており、
前記画像情報生成手段は、前記記憶手段に記録されている時系列の統合情報に基づいて、任意の時点における前記作業者の注視点位置、当該任意の時点における前記作業者の指先位置および当該任意の時点を含む所定期間内に前記作業者が発声した音声を示す単語系列を含む画像情報のうちの少なくとも2つを時系列に生成し、前記表示手段に出力することを特徴とする行動履歴表示装置。
本発明は、実施形態で説明した構成に限定されず、種々の変更、追加、削除が可能である。
作業者が発声した音声に含まれている単語と単語の始端時刻および終端時刻を判別する手法としては、公知の種々の手法を用いることができる。
作業者の注視点の位置を検出する手法としては、公知の種々の手法を用いることができる。
作業者の指先の位置を検出する手法としては、公知の種々の手法を用いることができる。
作業者の行動履歴(統合情報)を表示手段に表示する方法は、実施形態で説明した方法に限定されず、適宜変更可能である。
実施形態で説明した各構成は、単独で用いることもできるし、適宜選択した複数を組み合わせて用いることもできる。
100、200、300、400、500 行動履歴記録装置
110、210、310、410、510、610 処理手段
111、211、311、411、511 統合手段
112、212、312、412、612 画像情報生成手段
120、220、320、520 音声認識手段
121、221、321、521 音声入力手段
122、222、322、522 単語判別手段
130、230、430、530 注視点位置検出手段
140、340、440、540 指先位置検出手段
150、250、350、450、550 記憶手段
160、260、360、460、660 表示手段
600 行動履歴表示装置

Claims (13)

  1. 作業者の行動履歴を記録する行動履歴記録装置であって、
    音声認識手段と、注視点位置検出手段と、統合手段と、記憶手段と、を備え、
    前記音声認識手段は、前記作業者が発声した音声に含まれている単語を判別し、単語を示す単語情報を時系列に出力し、
    前記注視点位置検出手段は、前記作業者が注視している注視点位置を検出して、注視点位置を示す注視点位置情報を時系列に出力し、
    前記統合手段は、前記音声認識手段から出力された時系列の単語情報と前記注視点位置検出手段から出力された時系列の注視点位置情報に基づいて、単語情報と注視点位置情報を統合した統合情報を時系列に出力し、前記記憶手段に記録する
    ことを特徴とする行動履歴記録装置。
  2. 作業者の行動履歴を記録する行動履歴記録装置であって、
    音声認識手段と、注視点位置検出手段と、指先位置検出手段と、統合手段と、記憶手段と、を備え、
    前記音声認識手段は、前記作業者が発声した音声に含まれている単語を判別し、単語を示す単語情報を時系列に出力し、
    前記注視点位置検出手段は、前記作業者が注視している注視点位置を検出して、注視点位置を示す注視点位置情報を時系列に出力し、
    前記指先位置検出手段は、前記作業者の指先位置を検出して、指先位置を示す指先位置情報を時系列に出力し、
    前記統合手段は、前記音声認識手段から出力された時系列の単語情報、前記注視点位置検出手段から出力された時系列の注視点位置情報および前記指先位置検出手段から出力された時系列の指先位置情報に基づいて、単語情報、注視点位置情報および指先位置情報を統合した統合情報を時系列に出力し、前記記憶手段に記録する
    ことを特徴とする行動履歴記録装置。
  3. 作業者の行動履歴を記録する行動履歴記録装置であって、
    音声認識手段と、指先位置検出手段と、統合手段と、記憶手段と、を備え、
    前記音声認識手段は、前記作業者が発声した音声に含まれている単語を判別し、単語を示す単語情報を時系列に出力し、
    前記指先位置検出手段は、前記作業者の指先位置を検出して、指先位置を示す指先位置情報を時系列に出力し、
    前記統合手段は、前記音声認識手段から出力された時系列の単語情報と前記指先位置検出手段から出力された時系列の指先位置情報に基づいて、単語情報と指先位置情報を統合した統合情報を時系列に出力し、前記記憶手段に記録する
    ことを特徴とする行動履歴記録装置。
  4. 作業者の行動履歴を記録する行動履歴記録装置であって、
    注視点位置検出手段と、指先位置検出手段と、統合手段と、記憶手段と、を備え、
    前記注視点位置検出手段は、前記作業者が注視している注視点位置を検出して、注視点位置を示す注視点位置情報を時系列に出力し、
    前記指先位置検出手段は、前記作業者の指先位置を検出して、指先位置を示す指先位置情報を時系列に出力し、
    前記統合手段は、前記注視点位置検出手段から出力された時系列の注視点位置情報と前記指先位置検出手段から出力された時系列の指先位置情報に基づいて、注視点位置情報と指先位置情報を統合した統合情報を時系列に出力し、前記記憶手段に記録する
    ことを特徴とする行動履歴記録装置。
  5. 作業者の行動履歴を表示する行動履歴表示装置であって、
    画像情報生成手段と、記憶手段と、表示手段と、を備え、
    前記記憶手段には、請求項1に記載の記憶手段に記録された時系列の統合情報が記録されており、
    前記画像情報生成手段は、前記記憶手段に記録されている時系列の統合情報に基づいて、任意の時点における前記作業者の注視点位置と、当該任意の時点を含む所定期間内に前記作業者が発声した音声を示す単語系列を含む画像情報を時系列に生成し、前記表示手段に出力することを特徴とする行動履歴表示装置。
  6. 作業者の行動履歴を表示する行動履歴表示装置であって、
    画像情報生成手段と、記憶手段と、表示手段と、を備え、
    前記記憶手段には、請求項2に記載の記憶手段に記録された時系列の統合情報が記録されており、
    前記画像情報生成手段は、前記記憶手段に記録されている時系列の統合情報に基づいて、任意の時点における前記作業者の注視点位置および指先位置と、当該任意の時点を含む所定期間内に前記作業者が発声した音声を示す単語系列を含む画像情報を時系列に生成し、前記表示手段に出力することを特徴とする行動履歴表示装置。
  7. 作業者の行動履歴を表示する行動履歴表示装置であって、
    画像情報生成手段と、記憶手段と、表示手段と、を備え、
    前記記憶手段には、請求項3に記載の記憶手段に記録された時系列の統合情報が記録されており、
    前記画像情報生成手段は、前記記憶手段に記憶されている時系列の統合情報に基づいて、任意の時点における前記作業者の指先位置と、当該任意の時点を含む所定期間内に前記作業者が発声した音声を示す単語系列を含む画像情報を時系列に生成し、前記表示手段に出力することを特徴とする行動履歴表示装置。
  8. 作業者の行動履歴を表示する行動履歴表示装置であって、
    画像情報生成手段と、記憶手段と、表示手段と、を備え、
    前記記憶手段には、請求項4に記載の記憶手段に記録された時系列の統合情報が記録されており、
    前記画像情報生成手段は、前記記憶手段に記憶されている時系列の統合情報に基づいて、任意の時点における前記作業者の注視点位置と指先位置を含む画像情報を時系列に生成し、前記表示手段に出力することを特徴とする行動履歴表示装置。
  9. 請求項5~7のうちのいずれか一項に記載の行動履歴表示装置であって、
    前記画像情報生成手段は、前記任意の時点を含む所定期間内に前記作業者が発声した音声を示す単語系列を含む画像情報を、前記任意の時点を含む所定期間内に前記作業者が発声した音声に含まれている各単語の始端時刻と終端時刻に基づいて設定した期間生成することを特徴とする行動履歴表示装置。
  10. 請求項9に記載の行動履歴表示装置であって、
    前記画像情報生成手段は、前記任意の時点を含む所定期内に前記作業者が発声した音声に特定の単語が含まれている場合には、当該特定の単語を含む単語系列が強調された画像情報を、当該特定の単語の始端時刻と終端時刻に基づいて設定した期間生成することを特徴とする行動履歴表示装置。
  11. 請求項5~7のうちのいずれか一項に記載の行動履歴表示装置であって、
    前記画像情報生成手段は、前記任意の時点を含む所定期間内に前記作業者が発声した音声に特定の単語が含まれている場合に、当該特定の単語を含む単語系列を含む画像情報を、当該特定の単語の始端時刻と終端時刻に基づいて設定した期間生成することを特徴とする行動履歴表示装置。
  12. 請求項5または6に記載の行動履歴表示装置であって、
    前記画像情報生成手段は、前記単語系列が前記作業者の注視点位置の近傍に配置された画像を示す画像情報を生成することを特徴とする行動履歴表示装置。
  13. 請求項6または7に記載の行動履歴表示装置であって、
    前記画像情報生成手段は、前記単語系列が前記作業者の指先位置の近傍に配置された画像を示す画像情報を生成することを特徴とする行動履歴表示装置。
JP2021175060A 2021-10-26 2021-10-26 行動履歴記録装置および行動履歴表示装置 Pending JP2023064658A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021175060A JP2023064658A (ja) 2021-10-26 2021-10-26 行動履歴記録装置および行動履歴表示装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021175060A JP2023064658A (ja) 2021-10-26 2021-10-26 行動履歴記録装置および行動履歴表示装置

Publications (1)

Publication Number Publication Date
JP2023064658A true JP2023064658A (ja) 2023-05-11

Family

ID=86271530

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021175060A Pending JP2023064658A (ja) 2021-10-26 2021-10-26 行動履歴記録装置および行動履歴表示装置

Country Status (1)

Country Link
JP (1) JP2023064658A (ja)

Similar Documents

Publication Publication Date Title
US11037553B2 (en) Learning-type interactive device
US11817084B2 (en) Adaptive interface in a voice-based networked system
US8560327B2 (en) System and method for synchronizing sound and manually transcribed text
JP3676969B2 (ja) 感情検出方法及び感情検出装置ならびに記録媒体
EP2562746A1 (en) Apparatus and method for recognizing voice by using lip image
US20140207457A1 (en) False alarm reduction in speech recognition systems using contextual information
JP2006048065A (ja) 音声対話式言語指導法及び装置
JP6154155B2 (ja) プロミネンスを使用した音声対話システム
TW201203222A (en) Voice stream augmented note taking
JP5753769B2 (ja) 音声データ検索システムおよびそのためのプログラム
JP4587854B2 (ja) 感情解析装置、感情解析プログラム、プログラム格納媒体
CN110136721A (zh) 一种评分生成方法、装置、存储介质及电子设备
JP2018155957A (ja) 音声キーワード検出装置および音声キーワード検出方法
US20180168498A1 (en) Computer Automated Method and System for Measurement of User Energy, Attitude, and Interpersonal Skills
US20170076626A1 (en) System and Method for Dynamic Response to User Interaction
JP2005534983A (ja) 自動音声認識の方法
JP2015530614A (ja) 精度スコアを使用した音声認識性能を予測するための方法およびシステム
US20210103635A1 (en) Speaking technique improvement assistant
JP5267995B2 (ja) 会話グループ把握装置、会話グループ把握方法、及びプログラム
JP2007316330A (ja) 韻律識別装置及び方法、並びに音声認識装置及び方法
JP2023064658A (ja) 行動履歴記録装置および行動履歴表示装置
JP6427377B2 (ja) 設備点検支援装置
JP2018087847A (ja) 対話制御装置、その方法及びプログラム
JP6950708B2 (ja) 情報処理装置、情報処理方法、および情報処理システム
KR20210050107A (ko) 파킨슨병 진단용 애플리케이션