JP2021135811A - Character input support control device, character input support system, and character input support program - Google Patents

Character input support control device, character input support system, and character input support program Download PDF

Info

Publication number
JP2021135811A
JP2021135811A JP2020032222A JP2020032222A JP2021135811A JP 2021135811 A JP2021135811 A JP 2021135811A JP 2020032222 A JP2020032222 A JP 2020032222A JP 2020032222 A JP2020032222 A JP 2020032222A JP 2021135811 A JP2021135811 A JP 2021135811A
Authority
JP
Japan
Prior art keywords
image
text data
character
data
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020032222A
Other languages
Japanese (ja)
Inventor
清文 門馬
Kiyobumi Momma
清文 門馬
峰岩 金
Hogan Kin
峰岩 金
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tokyo Gas Co Ltd
Original Assignee
Tokyo Gas Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tokyo Gas Co Ltd filed Critical Tokyo Gas Co Ltd
Priority to JP2020032222A priority Critical patent/JP2021135811A/en
Publication of JP2021135811A publication Critical patent/JP2021135811A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)
  • Character Discrimination (AREA)

Abstract

To extract a character image from a display image based on image data already recorded on a recording medium to generate text data, and store image data of a captured image itself and the generated text data in association with each other.SOLUTION: A communication terminal device 12 reads recorded data already stored in a file server 14 or the like to display an image, the displayed image data is transmitted to an OCR server 16 via the file server 14, and characters included in the image are converted into text data and stored as a comment associated with the image data. By associating the characters displayed on the image as first text data with the image data, the characters can be used as search key words when a necessary image is searched for from a large amount of image files, and quick search processing can be achieved.SELECTED DRAWING: Figure 4

Description

本発明は、撮像現場での発話音声データを用いて、ファイル名やコメントを登録するための文字入力支援制御装置、文字入力支援システム、文字入力支援プログラムに関するものである。 The present invention relates to a character input support control device, a character input support system, and a character input support program for registering a file name and a comment by using utterance voice data at an imaging site.

例えば、製造業等の広大な工場を管理する企業において、日々の点検業務やトラブル時の対応業務の際、デジタルカメラやスマートホン(スマートフォンという場合もある)を用いて現場の状況をデジタルファイルとして映像記録する必要がある。また、撮像デバイスとして、近年では、スマートグラスに代表されるウェアラブル端末を用いることもある。 For example, in a company that manages a vast factory such as the manufacturing industry, the situation at the site is recorded as a digital file using a digital camera or smart phone (sometimes called a smartphone) during daily inspection work and troubleshooting work. It is necessary to record the video. Further, in recent years, a wearable terminal typified by smart glasses may be used as an imaging device.

ところで、撮像したデジタルファイルの対象物及びファイル名の関連付けは、オフィス等に戻ってからパソコン等でリネームする必要があったが、類似の映像記録から撮像時の状況を思い出して入力するのは労力がかかっている。 By the way, it was necessary to rename the object and the file name of the captured digital file on a computer after returning to the office, but it is laborious to remember the situation at the time of imaging from a similar video recording. Is on.

なお、参考として、撮像したデジタルファイルを自動で整理する技術として、特許文献1〜特許文献3の技術が提案されている。 As a reference, the techniques of Patent Documents 1 to 3 have been proposed as techniques for automatically organizing captured digital files.

特許文献1には、転送されてきた画像データ、又は読み取り装置で読み取った画像データを、領域分離してテキストが含まれているか否かによって、格納時の解像度を変更することが記載されている。 Patent Document 1 describes that the image data transferred or the image data read by a reading device is separated into areas and the resolution at the time of storage is changed depending on whether or not text is included. ..

具体的には、テキストが含まれている場合は、OCR(Optical Character Recognition)での読み取り精度を維持する解像度とし、テキストが含まれていない場合は、格納占有領域を軽減する解像度とする。 Specifically, when the text is included, the resolution is set to maintain the reading accuracy by OCR (Optical Character Recognition), and when the text is not included, the resolution is set to reduce the storage occupied area.

また、特許文献2には、動画像からベストショットに対応するフレーム画像を、精度よく、効率的かつ高速に抽出することが記載されている。 Further, Patent Document 2 describes that a frame image corresponding to the best shot is extracted from a moving image with high accuracy, efficiency and high speed.

さらに、特許文献3には、予め登録された認識用の画像パターンに応じて自動的に撮像画像を振り分けることが記載されている。 Further, Patent Document 3 describes that captured images are automatically sorted according to a pre-registered image pattern for recognition.

特開2007−312224号公報Japanese Unexamined Patent Publication No. 2007-31224 特開2016−225679号公報Japanese Unexamined Patent Publication No. 2016-225679 特開2010−56884号公報JP-A-2010-56884

しかしながら、特許文献1では、イメージとテキストとをそれぞれ異なる適正な解像度で格納しておき、次にプリントアウト等を実行するときに、原稿とほぼ同一の状態でプリントすることを目的としていると考えられ、撮像した画像データとは別に、テキストデータとして格納し、例えば、画像データとテキストデータとを並べて表示するような概念はなく、示唆もされていない。 However, in Patent Document 1, it is considered that the purpose is to store the image and the text at different appropriate resolutions, and to print the image and the text in almost the same state as the original when the next printout or the like is executed. There is no concept or suggestion that the image data is stored as text data separately from the captured image data, and the image data and the text data are displayed side by side, for example.

また、特許文献2のように、大量の映像を自動で整理、または類似映像からベストショットだけを抜き出すなどの画像解析技術は従来から存在し、サービスとしても提供されているが、上記課題(類似の映像記録から撮像時の状況を思い出して入力するときの労力増大)を解決するものではない。 Further, as in Patent Document 2, image analysis technology such as automatically organizing a large amount of images or extracting only the best shots from similar images has existed conventionally and is provided as a service, but the above-mentioned problem (similarity). It does not solve the problem of increased labor when inputting by remembering the situation at the time of imaging from the video recording of.

なお、特許文献3では、予め登録した認識用の画像パターンに応じて、自動的に撮像画像を振り分けているが、初期設定(認識用の画像パターンの登録)が必須であり、撮像現場における様々な状況変化に対応できない。 In Patent Document 3, the captured images are automatically sorted according to the image pattern for recognition registered in advance, but the initial setting (registration of the image pattern for recognition) is indispensable, and various images are taken at the imaging site. I can't respond to changes in the situation.

本発明は、既に記録媒体に記録されている画像データに基づく表示画像から、文字画像を抽出してテキストデータを生成し、撮像画像自体の画像データと、生成したテキストデータとを関連付けて格納することができる文字入力支援制御装置、文字入力支援システム、文字入力支援プログラムを得ることが目的である。 The present invention extracts a character image from a display image based on image data already recorded on a recording medium to generate text data, and stores the image data of the captured image itself and the generated text data in association with each other. The purpose is to obtain a character input support control device, a character input support system, and a character input support program that can be used.

本発明に係る文字入力支援制御装置は、画像格納領域に格納された画像データを読み出して、表示部に表示する表示制御部と、前記表示部に表示された画像の中の文字画像を抽出して文字認識テキストデータを生成する文字認識部と、前記文字認識部で生成した文字認識テキストデータを、前記画像データに関連付けて格納するテキストデータ格納部と、
を有している。
The character input support control device according to the present invention reads out the image data stored in the image storage area and extracts the display control unit to be displayed on the display unit and the character image in the image displayed on the display unit. A character recognition unit that generates character recognition text data, and a text data storage unit that stores the character recognition text data generated by the character recognition unit in association with the image data.
have.

本発明によれば、表示制御部が、画像格納領域に格納された画像データを読み出して、表示部に表示する。 According to the present invention, the display control unit reads out the image data stored in the image storage area and displays it on the display unit.

文字認識部では、表示部に表示された画像の中の文字画像を抽出して文字認識テキストデータを生成する。テキストデータ格納部では、文字認識部で生成した文字認識テキストデータを、前記画像データに関連付けて格納する。 The character recognition unit extracts a character image from the image displayed on the display unit to generate character recognition text data. The text data storage unit stores the character recognition text data generated by the character recognition unit in association with the image data.

これにより、既に記録媒体に記録されている画像データに基づく表示画像から、文字画像を抽出してテキストデータを生成し、撮像画像自体の画像データと、生成したテキストデータとを関連付けて格納することができる。 As a result, character images are extracted from the display image based on the image data already recorded on the recording medium to generate text data, and the image data of the captured image itself and the generated text data are stored in association with each other. Can be done.

本発明において、前記文字認識テキストデータに基づく文字画像が、撮像された画像のコメントとして表示されることを特徴としている。 The present invention is characterized in that a character image based on the character recognition text data is displayed as a comment of the captured image.

撮像画像と共にコメントとして文字認識テキストデータが表示されることで、撮像画像の特定、識別が容易となる。 By displaying the character recognition text data as a comment together with the captured image, it becomes easy to identify and identify the captured image.

本発明において、前記表示部による画像表示中に発話した音声データを、音声認識テキストデータに変換する音声認識部をさらに有し、前記テキストデータ格納部が、前記音声認識部で音声認識した音声認識テキストデータを、前記画像データに関連付けて格納すると共に、前記音声認識テキストデータが、前記画像のタイトル及びコメントの少なくとも一方として表示されることを特徴としている。 In the present invention, the voice recognition unit further includes a voice recognition unit that converts voice data spoken during image display by the display unit into voice recognition text data, and the text data storage unit performs voice recognition by the voice recognition unit. The text data is stored in association with the image data, and the voice recognition text data is displayed as at least one of the title and the comment of the image.

文字認識は、撮像された画像の中の文字を認識するものであり、限られた情報となる。これに対して、例えば表示部による画像表示中に、頭に思い描いた情報を発話し、その発話した音声テキストデータを、タイトル及びコメントの少なくとも一方として表示することで、画像の特定、識別がさらに容易となる。 Character recognition recognizes characters in an captured image and is limited information. On the other hand, for example, during image display by the display unit, the information envisioned in the head is uttered, and the uttered voice text data is displayed as at least one of the title and the comment, thereby further identifying and identifying the image. It will be easy.

本発明に係る文字入力支援システムは、画像格納領域に格納された画像データを読み出して、表示部に表示する表示制御部を備えた通信端末装置と、前記表示部に表示された画像の中の文字画像を抽出して文字認識テキストデータを生成する文字認識部を備えた文字認識サーバと、前記表示部に表示された画像の画像データに、前記文字認識部で生成した文字認識テキストデータを関連付けて格納するテキストデータ格納部を備えたデータ格納サーバと、を有している。 The character input support system according to the present invention includes a communication terminal device having a display control unit that reads out image data stored in an image storage area and displays it on a display unit, and an image displayed on the display unit. A character recognition server equipped with a character recognition unit that extracts a character image and generates character recognition text data, and the image data of the image displayed on the display unit are associated with the character recognition text data generated by the character recognition unit. It has a data storage server provided with a text data storage unit for storing the data.

本発明によれば、通信端末装置、文字認識サーバ、及びデータ格納サーバを、ネットワークを介して連携させて、文字入力支援システムを構築する。 According to the present invention, a communication terminal device, a character recognition server, and a data storage server are linked via a network to construct a character input support system.

通信端末装置の表示制御部では、画像格納領域に格納された画像データを読み出して、表示部に表示する。 The display control unit of the communication terminal device reads out the image data stored in the image storage area and displays it on the display unit.

文字認識サーバの文字認識部では、表示部に表示された画像の中の文字画像を抽出して文字認識テキストデータを生成する。データ格納サーバでは、テキストデータ格納部に、文字認識部で生成した文字認識テキストデータを、前記画像データ格納部に格納した文字認識対象の画像データに関連付けて格納する。 The character recognition unit of the character recognition server extracts the character image from the image displayed on the display unit and generates character recognition text data. In the data storage server, the character recognition text data generated by the character recognition unit is stored in the text data storage unit in association with the image data of the character recognition target stored in the image data storage unit.

これにより、既に記録媒体に記録されている画像データに基づく表示画像から、文字画像を抽出してテキストデータを生成し、画像データと、生成したテキストデータとを関連付けて格納することができる。 Thereby, the character image can be extracted from the display image based on the image data already recorded on the recording medium to generate the text data, and the image data and the generated text data can be stored in association with each other.

本発明において、前記文字認識テキストデータに基づく文字画像が、撮像された画像のコメントとして表示されることを特徴としている。 The present invention is characterized in that a character image based on the character recognition text data is displayed as a comment of the captured image.

撮像画像と共にコメントとして文字認識テキストデータが表示されることで、撮像画像の特定、識別が容易となる。 By displaying the character recognition text data as a comment together with the captured image, it becomes easy to identify and identify the captured image.

本発明において、前記表示部による画像表示中に発話した音声データを、音声認識テキストデータに変換する音声認識サーバをさらに有し、前記テキストデータ格納部が、前記音声認識サーバで音声認識した音声認識テキストデータを、前記画像データに関連付けて格納すると共に、前記音声認識テキストデータが、前記画像のタイトル及びコメントの少なくとも一方として表示されることを特徴としている。 In the present invention, there is further a voice recognition server that converts voice data spoken during image display by the display unit into voice recognition text data, and the text data storage unit voice-recognizes voice recognition by the voice recognition server. The text data is stored in association with the image data, and the voice recognition text data is displayed as at least one of the title and the comment of the image.

文字認識は、撮像された画像の中の文字を認識するものであり、限られた情報となる。これに対して、例えば表示部による画像表示中に、頭に思い描いた情報を発話し、その発話した音声テキストデータを、タイトル及びコメントの少なくとも一方として表示することで、撮像画像の特定、識別がさらに容易となる。 Character recognition recognizes characters in an captured image and is limited information. On the other hand, for example, during image display by the display unit, the information envisioned in the head is spoken, and the spoken voice text data is displayed as at least one of the title and the comment, so that the captured image can be identified and identified. It will be easier.

本発明において、前記通信端末装置の撮像部で撮像した撮像画像は、前記データ格納サーバへ格納後に、予め許可を得た特定の通信端末装置に制限された状態で閲覧可能とされることを特徴としている。 The present invention is characterized in that the captured image captured by the imaging unit of the communication terminal device can be viewed in a state of being restricted to a specific communication terminal device for which permission has been obtained in advance after being stored in the data storage server. It is supposed to be.

データ格納サーバが不特定多数からアクセス可能であっても、通信端末装置に閲覧制限をかけることで、例えば、データ格納サーバが、契約によって記憶容量を確保し得る外部ストレージ等であっても、秘匿性を維持することができる。 Even if the data storage server can be accessed by an unspecified number of people, by restricting viewing on the communication terminal device, for example, even if the data storage server is an external storage that can secure storage capacity by contract, it is kept secret. Sex can be maintained.

本発明において、画像とテキストとがセットになった表示領域を1単位のフレームとして、格納されたフレームを一覧するビュワー機能を搭載することを特徴としている。 The present invention is characterized in that it is equipped with a viewer function for listing stored frames, with a display area in which an image and text are set as one unit of frames.

画像とテキストとがセットになって表示されることで、関連のある画像の仕分け等の作業が容易となる。 By displaying the image and the text as a set, it becomes easy to sort the related images.

本発明に係る文字入力支援プログラムは、コンピュータを、請求項1〜請求項3の何れか1項記載の文字入力支援制御装置の各部として動作させることを特徴としている。 The character input support program according to the present invention is characterized in that the computer is operated as each part of the character input support control device according to any one of claims 1 to 3.

本発明によれば、既に記録媒体に記録されている画像データに基づく表示画像から、文字画像を抽出してテキストデータを生成し、撮像画像自体の画像データと、生成したテキストデータとを関連付けて格納することができる。 According to the present invention, a character image is extracted from a display image based on image data already recorded on a recording medium to generate text data, and the image data of the captured image itself is associated with the generated text data. Can be stored.

第1の実施の形態に係る、文字入力支援システムを構成する、通信端末装置、ファイルサーバ、OCRサーバの相互の接続状態を示すネットワーク図である。FIG. 5 is a network diagram showing a mutual connection state of a communication terminal device, a file server, and an OCR server constituting a character input support system according to the first embodiment. 第1の実施の形態に係る通信端末装置のハード構成を示す制御ブロック図である。It is a control block diagram which shows the hardware composition of the communication terminal apparatus which concerns on 1st Embodiment. 第1の実施の形態の通信端末装置に適用可能なデバイス例であり、(A)がスマートフォンの斜視図、(B)がデジタルカメラの斜視図、(C)がヘッドセット型ウェアラブルカメラの斜視図、(D)がスマートグラス型ウェアラブルカメラの斜視図である。An example of a device applicable to the communication terminal device of the first embodiment, (A) is a perspective view of a smartphone, (B) is a perspective view of a digital camera, and (C) is a perspective view of a headset-type wearable camera. , (D) is a perspective view of a smart glass type wearable camera. 第1の実施の形態係る文字入力支援システムにおける文字入力支援制御を実行するための通信プロトコルである。The first embodiment is a communication protocol for executing character input support control in the character input support system according to the first embodiment. 第1の実施の形態に係る通信端末装置のモニタの正面図であり、(A)は撮影時画像、(B)はOCR処理時画像、(C)は履歴一覧画像、(D)は機能設定画像である。It is a front view of the monitor of the communication terminal apparatus which concerns on 1st Embodiment, (A) is an image at the time of shooting, (B) is an image at the time of OCR processing, (C) is a history list image, (D) is a function setting. It is an image. 第2の実施の形態に係る、文字入力支援システムを構成する、通信端末装置、ファイルサーバ、OCRサーバの相互の接続状態を示すネットワーク図である。FIG. 5 is a network diagram showing a mutual connection state of a communication terminal device, a file server, and an OCR server constituting a character input support system according to the second embodiment. 第2の実施の形態係る文字入力支援システムにおける文字入力支援制御を実行するための通信プロトコルである。The second embodiment is a communication protocol for executing character input support control in the character input support system according to the second embodiment. 第2の実施の形態に係る通信端末装置のモニタの正面図であり、(A)は撮影時画像、(B)はOCR処理時画像、(C)は履歴一覧画像、(D)は機能設定画像である。It is a front view of the monitor of the communication terminal apparatus which concerns on 2nd Embodiment, (A) is an image at the time of shooting, (B) is an image at the time of OCR processing, (C) is a history list image, (D) is a function setting. It is an image.

「第1の実施の形態」 "First embodiment"

図1には、第1の実施の形態に係るファイル用文字入力支援システム10の概略構成図が示されている。 FIG. 1 shows a schematic configuration diagram of a file character input support system 10 according to the first embodiment.

ファイル用文字入力支援システム10は、当該ファイル用文字入力支援システム10を利用する利用者11が所持する通信端末装置12と、ファイルサーバ14とで構成され、ネットワーク18を介して、相互に通信可能となっている。また、ファイルサーバ14には、通信回線を介してOCRサーバ16が接続されている。 The file character input support system 10 is composed of a communication terminal device 12 owned by a user 11 who uses the file character input support system 10 and a file server 14, and can communicate with each other via a network 18. It has become. Further, the OCR server 16 is connected to the file server 14 via a communication line.

(通信端末装置12) (Communication terminal device 12)

図2に示される如く、通信端末装置12は、マイクロコンピュータ20を備えている。マイクロコンピュータ20は、CPU20A、RAM20B、ROM20C、入出力ポート20D、及びこれらを接続するデータバスやコントロールバス等で構成されたバス20Eによって構成されている。 As shown in FIG. 2, the communication terminal device 12 includes a microcomputer 20. The microcomputer 20 is composed of a CPU 20A, a RAM 20B, a ROM 20C, an input / output port 20D, and a bus 20E composed of a data bus, a control bus, and the like connecting them.

I/O20Dには、入出力デバイス22、大規模記憶媒体24、撮像デバイス26、及びネットワーク18と接続するための通信I/F28が接続されている。 The I / O 20D is connected to the input / output device 22, the large-scale storage medium 24, the image pickup device 26, and the communication I / F 28 for connecting to the network 18.

入出力デバイス22は、モニタ及び入力パッドとして機能するタッチパネル部22Aと、スピーカ22Bと、マイクロフォン22Cとを備える。 The input / output device 22 includes a touch panel unit 22A that functions as a monitor and an input pad, a speaker 22B, and a microphone 22C.

通信I/F28は、ネットワーク18に接続された無線中継装置30を介してネットワーク18との間で、データを送受信する。より具体的には、撮像デバイス26で撮像した画像データは、自身(通信端末装置12)の大規模記憶装置24に格納する場合と、ネットワーク18を介してファイルサーバ14(図1参照)へ転送(送信)する場合とがある。さらには、ネットワーク18に接続された、ファイルサーバ14とは別の外部ストレージに転送する場合もある。なお、撮像は、動画と静止画の何れであってもよい。 The communication I / F 28 transmits / receives data to / from the network 18 via the wireless relay device 30 connected to the network 18. More specifically, the image data captured by the imaging device 26 is stored in the large-scale storage device 24 of itself (communication terminal device 12) and transferred to the file server 14 (see FIG. 1) via the network 18. It may be (sent). Further, the file may be transferred to an external storage connected to the network 18 and different from the file server 14. The imaging may be either a moving image or a still image.

動画の場合は、マイクロフォン22Cで収録した音データ(後述する環境音データ)を含み、静止画の場合は、環境音データは存在しないという違いはある。また、静止画においても、画像データに関連付けて音声データをそのまま記録する機能を持つ撮像デバイスもある。 In the case of moving images, the sound data recorded by the microphone 22C (environmental sound data described later) is included, and in the case of still images, there is no environmental sound data. Further, even in a still image, there is an imaging device having a function of recording audio data as it is in association with image data.

以下において、単に、「撮像」とした場合は、動画と静止画とを含むものとする。また、以下において、画像データと音声データとを総称して、「記録データ」という。すなわち、ファイルサーバ14は、画像データと音声データとを管理制御する機能を有する。 In the following, the term "imaging" simply includes moving images and still images. Further, in the following, the image data and the audio data are collectively referred to as "recorded data". That is, the file server 14 has a function of managing and controlling image data and audio data.

また、以下において、単に、音声データという場合は、撮像デバイス26による動画の撮像時の周辺環境音データと、通信端末装置12を管理(所持)する管理者が撮像している対象を特定するために発話する発話音声データとを含むものとし、必要に応じて、環境音データと発話音声データとは、区別して説明する。また、静止画の場合、発話音声データは収録可能である。 Further, in the following, in the case of simply referred to as voice data, in order to identify the ambient sound data at the time of capturing the moving image by the imaging device 26 and the target imaged by the administrator who manages (possessed) the communication terminal device 12. It is assumed that the utterance voice data to be uttered is included, and the environmental sound data and the utterance voice data will be described separately as necessary. Further, in the case of a still image, utterance voice data can be recorded.

(通信端末装置12の適用例) (Application example of communication terminal device 12)

通信端末装置12は、少なくとも、上記基本機能(入出力デバイス機能(特に、マイクロフォン)、撮像デバイス機能、及び通信I/F機能)を備えていればよい。一例として、図3(A)に示すスマートフォン12SPが代表的な通信端末装置12として適用可能である。なお、通常、スマートフォン12SPは通話機能を持つことで、当該通話機能を持たない比較的大画面サイズ(7〜10インチ程度)のタブレット端末とは異なるカテゴリとする場合もあるが、ここでは、撮像デバイス機能という同等の機能を有するので、以下において、「スマートフォン12SP」といった場合は、タブレット端末を含むものとする。 The communication terminal device 12 may have at least the above basic functions (input / output device function (particularly, microphone), image pickup device function, and communication I / F function). As an example, the smartphone 12SP shown in FIG. 3A can be applied as a typical communication terminal device 12. Normally, the smartphone 12SP has a call function, so that it may be in a different category from a tablet terminal having a relatively large screen size (about 7 to 10 inches) that does not have the call function. Since it has the same function as a device function, the term "smartphone 12SP" in the following includes a tablet terminal.

すなわち、図3(A)に示される如く、スマートフォン12SPは、通信機能(図2に示す通信I/F28を含む)を備えており、筐体32の前面がタッチパネル部22Aとされ、タッチパネル部22Aの周囲には、スピーカ22B及びマイクロフォン22Cが設けられている。また、筐体32の前面及び背面には、それぞれ撮像デバイスの一部を構成するカメラレンズ26F及び26Rが設けられている。 That is, as shown in FIG. 3A, the smartphone 12SP has a communication function (including the communication I / F28 shown in FIG. 2), the front surface of the housing 32 is a touch panel portion 22A, and the touch panel portion 22A. A speaker 22B and a microphone 22C are provided around the speaker. Further, on the front surface and the back surface of the housing 32, camera lenses 26F and 26R, which form a part of the imaging device, are provided, respectively.

また、その他の通信端末装置12の例としては、図3(B)に示すデジタルカメラ12DCが適用可能である。デジタルカメラ12DCの場合、デジタルカメラ12DC自体に通信機能を持たせなくても、通信機能(例えば、WiFi機能等)を備えたSDカードを用いることで、通信端末装置12として適用可能である。 Further, as an example of the other communication terminal device 12, the digital camera 12DC shown in FIG. 3B can be applied. In the case of the digital camera 12DC, even if the digital camera 12DC itself does not have a communication function, it can be applied as a communication terminal device 12 by using an SD card having a communication function (for example, WiFi function).

さらに、通信端末装置12の例としては、図3(C)に示される如く、ヘッドセット型ウェアラブルカメラユニット12HSが適用可能である。ヘッドセット型ウェアラブルカメラユニット12HSでは、利用者がヘルメット等に装着する撮像デバイス26と、利用者11が把持するその他のデバイス(入出力デバイス22及び通信I/F28等)とが分離され、ケーブル34で接続されている。 Further, as an example of the communication terminal device 12, as shown in FIG. 3C, a headset type wearable camera unit 12HS can be applied. In the headset-type wearable camera unit 12HS, the image pickup device 26 worn by the user on a helmet or the like and other devices (input / output device 22 and communication I / F 28, etc.) held by the user 11 are separated, and the cable 34 is used. It is connected with.

また、通信端末装置12の例としては、図3(D)に示される如く、入出力デバイス22及び撮像デバイス26を含む一部又は全部の機能が眼鏡型の装着部に組み込まれたスマートグラス型ウェアラブルカメラユニット12SGであってもよい。 Further, as an example of the communication terminal device 12, as shown in FIG. 3D, a smart glass type in which some or all functions including the input / output device 22 and the image pickup device 26 are incorporated in the eyeglass-type wearing portion. It may be a wearable camera unit 12SG.

(ファイルサーバ14) (File server 14)

図1に示される如く、ファイルサーバ14は、マイクロコンピュータとしての機能を備えており、図示は省略するが、CPU、RAM、ROM、I/O、及びバスを有している。 As shown in FIG. 1, the file server 14 has a function as a microcomputer, and although not shown, it has a CPU, RAM, ROM, I / O, and a bus.

また、ファイルサーバ14は、大規模記憶装置として、画像データ格納領域とテキストデータ格納領域を持つデータベース14Aを備えている。データベース14Aには、ファイルサーバ14の制御に基づき、通信端末装置12から受信した記録データがファイル化されて格納されるようになっている。 Further, the file server 14 includes a database 14A having an image data storage area and a text data storage area as a large-scale storage device. In the database 14A, the recorded data received from the communication terminal device 12 is stored as a file under the control of the file server 14.

(OCRサーバ16) (OCR server 16)

第1の実施の形態では、通信端末装置12の撮像デバイスの付加的機能として、OCR処理アプリケーションプログラム(以下、OCRアプリという)を設定した。このOCRアプリは、通信端末装置12の大規模記憶装置24及びファイルサーバ14のデータベース14A、並びに、ネットワーク18に接続されたその他の外部ストレージ(図示省略)に格納された記録データを読み出して、ファイルサーバ14を介して、OCRサーバ16へ送り、撮像された画像に含まれる文字を読み取って、文字情報に変換し、記録データに関連付けられた添付情報としてそれぞれの格納領域に格納する機能を有している。添付情報は、記録データに付加されるコメント領域に格納される。 In the first embodiment, an OCR processing application program (hereinafter referred to as an OCR application) is set as an additional function of the image pickup device of the communication terminal device 12. This OCR application reads out the recorded data stored in the large-scale storage device 24 of the communication terminal device 12, the database 14A of the file server 14, and other external storage (not shown) connected to the network 18, and files. It has a function of sending to the OCR server 16 via the server 14, reading the characters included in the captured image, converting them into character information, and storing them in each storage area as attached information associated with the recorded data. ing. The attached information is stored in the comment area added to the recorded data.

コメント領域としては、一例として、Exif(登録商標「Exchangeable Image File Format」)情報の一部として設けられたコメント領域が利用可能である。Exif(登録商標)情報領域には、撮像に関する情報(撮影日時、メーカー名、モデル名、解像度、シャッター速度、絞り、ISO、フラッシュ有無、焦点距離、サムネイル画像、及びGPS情報等)を記録する領域であり、この撮像に関する情報の一つとしてコメント領域が設けられている。 As an example, a comment area provided as a part of Exif (registered trademark "Exchangeable Image File Format") information can be used as the comment area. The Exif (registered trademark) information area is an area for recording information related to imaging (shooting date / time, manufacturer name, model name, resolution, shutter speed, aperture, ISO, flash presence / absence, focal length, thumbnail image, GPS information, etc.). Therefore, a comment area is provided as one of the information regarding this imaging.

OCR処理により、画像から読みとった文字情報を、コメント領域に格納し、画像を閲覧するときに、当該コメント領域の文字情報を併せて表示することで、画像のみに比べて、撮像画像の仕分けに役立てることができる。 By OCR processing, the character information read from the image is stored in the comment area, and when the image is viewed, the character information in the comment area is also displayed, so that the captured image can be sorted as compared with the image alone. Can be useful.

以下に、第1の実施の形態の作用を、図4の通信プロトコルに基づいて説明する。 The operation of the first embodiment will be described below based on the communication protocol of FIG.

図4は、図1に示す通信端末装置12、ファイルサーバ14、及びファイルサーバ14に接続されたOCRサーバ16で、ネットワーク18を介して実行される通信プロトコルである。 FIG. 4 is a communication protocol executed via the network 18 by the communication terminal device 12, the file server 14, and the OCR server 16 connected to the file server 14 shown in FIG.

通信端末装置12のOCRアプリ機能により、画像読み出しを指示すると(ステップ100)、ファイルサーバ14のデータベース14Aから記録データが読み出される(ステップ102)。このとき、記録データの読み出し対象は、自身(通信端末装置12)の大規模記憶装置24や、ネットワーク18に接続された外部ストレージであってもよい(ステップ104)。 When the image reading is instructed by the OCR application function of the communication terminal device 12 (step 100), the recorded data is read from the database 14A of the file server 14 (step 102). At this time, the target for reading the recorded data may be the large-scale storage device 24 of itself (communication terminal device 12) or the external storage connected to the network 18 (step 104).

読み出された記録データは、入出力デバイス22のタッチパネル部22A(モニタ)に表示される(ステップ106)。 The read recorded data is displayed on the touch panel unit 22A (monitor) of the input / output device 22 (step 106).

表示された画像の画像データは、ファイルサーバ14を介して、OCRサーバ16へ送信される(ステップ108)。OCRサーバ16では、受信した画像データをOCR処理し、文字画像を抽出する(ステップ110)。抽出された文字画像は、第1テキストデータとして通信端末装置12へ返信される(ステップ112)。なお、第1テキストデータの「第1」とは、後述する、音声−文字変換で生成された第2テキストデータを区別するためのものである。 The image data of the displayed image is transmitted to the OCR server 16 via the file server 14 (step 108). The OCR server 16 performs OCR processing on the received image data and extracts a character image (step 110). The extracted character image is returned to the communication terminal device 12 as first text data (step 112). The "first" of the first text data is for distinguishing the second text data generated by the voice-character conversion, which will be described later.

第1テキストデータを受け取った通信端末装置12のモニタには、画像と共に、タイトル表示欄とコメント表示欄が設けられている。通信端末装置12では、受信した第1テキストデータを、コメント表示欄に表示する(ステップ118)。 The monitor of the communication terminal device 12 that has received the first text data is provided with a title display column and a comment display column together with an image. The communication terminal device 12 displays the received first text data in the comment display field (step 118).

ここで、利用者11は、タイトル表示欄又はコメント表示欄を選択し(ステップ120)、タイトル表示欄のテキストデータ又はコメント表示欄のテキストデータを手動で(入力パッドのキー入力操作で)編集する(ステップ122)。なお、編集不要の場合もある。 Here, the user 11 selects the title display field or the comment display field (step 120), and manually edits the text data in the title display field or the text data in the comment display field (by key input operation of the input pad). (Step 122). In some cases, editing is not required.

通信端末装置12において、利用者11の操作で、「確定」指示があると(ステップ124)、タイトル欄及びコメント欄のテキストデータを元の画像データと関連付けて、記録データ読み出し先の格納領域に格納する。 In the communication terminal device 12, when there is a "confirmation" instruction by the operation of the user 11 (step 124), the text data in the title column and the comment column is associated with the original image data and stored in the storage area of the recorded data read destination. Store.

例えば、記録データの読み出し先がファイルサーバ14の場合は、第1テキストデータをファイルサーバ14へ送信し(ステップ126)、テキストデータ格納領域を更新する(ステップ128)。なお、画像データの読み出し先が、通信端末装置12又はその他の外部ストレージにおいても同様に、第1テキストデータが送信され、それぞれの画像データのテキストデータ格納領域を更新すればよい。 For example, when the read destination of the recorded data is the file server 14, the first text data is transmitted to the file server 14 (step 126), and the text data storage area is updated (step 128). Similarly, the first text data may be transmitted to the image data read destination in the communication terminal device 12 or other external storage, and the text data storage area of each image data may be updated.

図5は、図4の通信プロトコルの実行に基づいて、表示される通信端末装置12の入出力デバイス22(タッチパネル部22A)の表示画面の遷移図である。 FIG. 5 is a transition diagram of a display screen of the input / output device 22 (touch panel unit 22A) of the communication terminal device 12 to be displayed based on the execution of the communication protocol of FIG.

図5(A)は、図4のステップ102においてタッチパネル部22Aの全域が撮像画面表示欄40となって、読み出した記録データに基づく画像が表示される状態である。 FIG. 5A shows a state in which the entire area of the touch panel unit 22A serves as the imaging screen display field 40 in step 102 of FIG. 4, and an image based on the read recorded data is displayed.

図5(B)は、表示されている画像の第1テキストデータ表示画面である。このとき、タッチパネル部22Aは、撮像画面表示欄42と、タイトル表示欄44と、コメント表示欄46とに分割され、第1テキストデータは、コメント表示欄46に表示される。 FIG. 5B is a first text data display screen of the displayed image. At this time, the touch panel unit 22A is divided into an imaging screen display field 42, a title display field 44, and a comment display field 46, and the first text data is displayed in the comment display field 46.

図5(C)は、OCR処理を行って第1テキストデータが付加された画像の履歴表示例であり、タッチパネル部22Aの全域が履歴表示欄48となっている。 FIG. 5C is an example of history display of an image to which the first text data is added by performing OCR processing, and the entire area of the touch panel unit 22A is the history display field 48.

履歴表示欄48には、通信端末装置12から、読み出し先のストレージ(自身の大規模記憶装置24、ファイルサーバ14、及びネットワーク18に接続されたその他の外部ストレージ)にアクセスし、指定したファイル(記録データ、テキストデータ)が一覧表示される。図5(C)では履歴表示欄48に、1ファイル分の枠内にタイトル名、画像、及びコメントが表示され、最大3枠分表示されているが、スクロール又は切り替えによって、他のファイルの枠を表示することが可能である。 In the history display field 48, the communication terminal device 12 accesses the read destination storage (own large-scale storage device 24, file server 14, and other external storage connected to the network 18), and a designated file ( Recorded data, text data) are displayed in a list. In FIG. 5C, the title name, image, and comment are displayed in the history display field 48 in the frame for one file, and a maximum of three frames are displayed. However, by scrolling or switching, frames for other files are displayed. Can be displayed.

なお、図5(C)のように、ファイルサーバ14や、その他の外部ストレージからダウンロードして画像を表示する場合、セキュリティ、秘匿性の観点から、予め特定した通信端末装置12に制限することが好ましい。例えば、パスワードを入力して閲覧可能とする、或いは、通信端末装置12毎のデフォルト設定で、閲覧の可否を決めておく、等が考えられる。 As shown in FIG. 5C, when the image is downloaded from the file server 14 or other external storage and displayed, the image may be limited to the communication terminal device 12 specified in advance from the viewpoint of security and confidentiality. preferable. For example, it is conceivable to enter a password to enable browsing, or to decide whether or not to browse by the default setting for each communication terminal device 12.

図5(D)は、通信端末装置12にインストールされる文字入力支援アプリケーションプログラムの各種設定画面表示欄50であり、OCR処理を実行するか否か(OCRアプリの起動の要否)の切り替え設定することができるようになっている。 FIG. 5D shows various setting screen display fields 50 of the character input support application program installed in the communication terminal device 12, and is a setting for switching whether or not to execute the OCR process (whether or not the OCR application needs to be started). You can do it.

以上説明したように第1の実施の形態では、通信端末装置12において、OCRアプリを起動して、既に何れかに格納されている画像を読み出して表示すると、当該表示された画像データがファイルサーバ14を介して、OCRサーバ16へ送られ、画像に含まれる文字を文字情報(第1テキストデータ)に変換し、画像データに関連付けられたコメントとして格納される。 As described above, in the first embodiment, when the OCR application is started in the communication terminal device 12 and the image already stored in any of them is read and displayed, the displayed image data is displayed on the file server. It is sent to the OCR server 16 via 14, converts the characters included in the image into character information (first text data), and is stored as a comment associated with the image data.

この画像に表示された文字が第1のテキストデータとして、画像データに関連付けられることで、大量の画像ファイルの中から、必要な画像を検索する際の検索キーワードとして利用することができ、迅速な検索処理を実現することができる。 By associating the characters displayed in this image with the image data as the first text data, it can be used as a search keyword when searching for a necessary image from a large number of image files, which is quick. Search processing can be realized.

「第2の実施の形態」 "Second embodiment"

以下に、本発明の第2の実施の形態について説明する。 The second embodiment of the present invention will be described below.

第1の実施の形態では、OCR処理により、撮像された画像の中の文字画像をテキストデータ(第1テキストデータ)に変換して、第1テキストデータをコメント表示欄に格納することが特徴であった。 The first embodiment is characterized in that the character image in the captured image is converted into text data (first text data) by OCR processing and the first text data is stored in the comment display field. there were.

これに対して、第2の実施の形態は、OCR処理を実行するOCRサーバ16に加え、ネットワーク18上に発話音声−文字変換制御機能を持つ音声認識サーバ36を接続し、通信端末装置12及びファイルサーバ14との間で通信可能とした。 On the other hand, in the second embodiment, in addition to the OCR server 16 that executes the OCR process, a voice recognition server 36 having a spoken voice-character conversion control function is connected on the network 18, and the communication terminal device 12 and Communication with the file server 14 is possible.

すなわち、第2の実施の形態では、画像を見た利用者11が、撮像直後に撮像現場において、画像に関連して発した音声(発話音声データ)を、音声認識サーバ36へ送り、文字情報(第2テキストデータ)に変換して、タイトル表示欄又はコメント表示欄に格納することを特徴としている。 That is, in the second embodiment, the user 11 who sees the image sends the voice (spoken voice data) emitted in relation to the image to the voice recognition server 36 at the imaging site immediately after the image capture, and character information. It is characterized in that it is converted into (second text data) and stored in the title display column or comment display column.

ファイル名は、規則性を持つ番号や日付等が、自動的に付与され、設定されるのが一般的である(例えば、「DVC01012020-001」等)。 The file name is generally automatically assigned and set with a regular number, date, etc. (for example, "DVC01012020-001").

第2の実施の形態では、通信端末装置12による撮像が実行される撮像拠点において、撮像が動画の場合は、撮像中(主として動画)又は撮像後(主として静止画)のプレビュー表示中に、利用者11(利用者、図1参照)が発話した音声(発話音声データ)を文字情報に変換し、記録データのタイトル名とした。 In the second embodiment, in the imaging base where the imaging by the communication terminal device 12 is executed, when the imaging is a moving image, it is used during the preview display during imaging (mainly moving image) or after imaging (mainly still image). The voice (spoken voice data) spoken by the person 11 (user, see FIG. 1) was converted into character information and used as the title name of the recorded data.

また、撮像が静止画の場合は、静止画の撮像後に当該静止画を一定時間プレビュー表示させている間に、利用者11(図1参照)が発話した音声(発話音声データ)を文字情報に変換し、記録データのタイトル名とした。 When the image is a still image, the voice (spoken voice data) spoken by the user 11 (see FIG. 1) is used as character information while the still image is preview-displayed for a certain period of time after the still image is captured. It was converted and used as the title name of the recorded data.

なお、第2テキストデータは、タイトル名とすると共に、或いはタイトル名に代えて、OCR処理で変換された第1テキストデータと同様に、コメント表示欄に格納するようにしてもよい。 The second text data may be used as the title name, or instead of the title name, may be stored in the comment display field in the same manner as the first text data converted by the OCR process.

以下に、第2の実施の形態の作用を、図7の通信プロトコルに基づいて説明する。 The operation of the second embodiment will be described below based on the communication protocol of FIG.

図7は、図6に示す通信端末装置12、ファイルサーバ14、及びファイルサーバ14に接続されたOCRサーバ16で、ネットワーク18を介して実行される通信プロトコルである。 FIG. 7 is a communication protocol executed via the network 18 by the communication terminal device 12, the file server 14, and the OCR server 16 connected to the file server 14 shown in FIG.

通信端末装置12のOCRアプリ機能により、画像読み出しを指示すると(ステップ100)、ファイルサーバ14のデータベース14Aから記録データが読み出される(ステップ102)。このとき、記録データの読み出し対象は、自身(通信端末装置12)の大規模記憶装置24や、ネットワーク18に接続された外部ストレージであってもよい(ステップ104)。 When the image reading is instructed by the OCR application function of the communication terminal device 12 (step 100), the recorded data is read from the database 14A of the file server 14 (step 102). At this time, the target for reading the recorded data may be the large-scale storage device 24 of itself (communication terminal device 12) or the external storage connected to the network 18 (step 104).

読み出された記録データは、入出力デバイス22のタッチパネル部22A(モニタ)に表示される(ステップ106)。 The read recorded data is displayed on the touch panel unit 22A (monitor) of the input / output device 22 (step 106).

表示された画像の画像データは、ファイルサーバ14を介して、OCRサーバ16へ送信される(ステップ108)。OCRサーバ16では、受信した画像データをOCR処理し、文字画像を抽出する(ステップ110A)。抽出された文字画像は、第1テキストデータとして通信端末装置12へ返信される(ステップ112)。なお、第1テキストデータの「第1」とは、後述する、音声−文字変換で生成された第2テキストデータを区別するためのものである。 The image data of the displayed image is transmitted to the OCR server 16 via the file server 14 (step 108). The OCR server 16 performs OCR processing on the received image data and extracts a character image (step 110A). The extracted character image is returned to the communication terminal device 12 as first text data (step 112). The "first" of the first text data is for distinguishing the second text data generated by the voice-character conversion, which will be described later.

第1テキストデータを受け取った通信端末装置12のモニタには、画像と共に、タイトル表示欄とコメント表示欄が設けられている。通信端末装置12では、受信した第1テキストデータを、コメント表示欄に表示する(ステップ118)。 The monitor of the communication terminal device 12 that has received the first text data is provided with a title display column and a comment display column together with an image. The communication terminal device 12 displays the received first text data in the comment display field (step 118).

以上がOCR処理に関する通信プロトコルとなり、第1の実施の形態と同様である。 The above is the communication protocol related to OCR processing, which is the same as that of the first embodiment.

次に、音声認識処理に関する通信プロトコルについて、説明する。 Next, a communication protocol related to voice recognition processing will be described.

コメント欄に第1テキストデータが表示されると(前述したステップ118)、次に、利用者11は、音声入力として、タイトル又はコメントを選択する(ステップ150)。 タイトル又はコメントを選択後、利用者11は、撮像現場で発話して音声入力を実行する(ステップ152)。 When the first text data is displayed in the comment field (step 118 described above), the user 11 then selects a title or comment as voice input (step 150). After selecting the title or comment, the user 11 speaks at the imaging site and executes voice input (step 152).

発明した音声データは、通信端末装置12から音声認識サーバ36へ送信される(ステップ154)。 The voice data of the invention is transmitted from the communication terminal device 12 to the voice recognition server 36 (step 154).

音声認識サーバ36では、音声認識処理を実行し、音声データを文字情報に変換し、第2テキストデータを生成する(ステップ156)。 The voice recognition server 36 executes voice recognition processing, converts voice data into character information, and generates second text data (step 156).

第2テキストデータは、音声認識サーバ36から通信端末装置12へ返信され(ステップ158)、タイトル欄又はコメント欄に表示される(ステップ160)。 The second text data is returned from the voice recognition server 36 to the communication terminal device 12 (step 158) and displayed in the title column or the comment column (step 160).

ここで、利用者11は、タイトル表示欄又はコメント表示欄を選択し(ステップ120)、タイトル表示欄のテキストデータ又はコメント表示欄のテキストデータを手動で(入力パッドのキー入力操作で)編集する(ステップ122)。なお、編集不要の場合もある。 Here, the user 11 selects the title display field or the comment display field (step 120), and manually edits the text data in the title display field or the text data in the comment display field (by key input operation of the input pad). (Step 122). In some cases, editing is not required.

通信端末装置12において、利用者11の操作で、「確定」指示があると(ステップ124)、タイトル欄及びコメント欄のテキストデータを元の画像データと関連付けて、記録データ読み出し先の格納領域に格納する。 In the communication terminal device 12, when there is a "confirmation" instruction by the operation of the user 11 (step 124), the text data in the title column and the comment column is associated with the original image data and stored in the storage area of the recorded data read destination. Store.

例えば、記録データの読み出し先がファイルサーバ14の場合は、第1テキストデータをファイルサーバ14へ送信し(ステップ126)、テキストデータ格納領域を更新する(ステップ128)。なお、画像データの読み出し先が、通信端末装置12又はその他の外部ストレージにおいても同様に、第1テキストデータが送信され、それぞれの画像データのテキストデータ格納領域を更新すればよい。 For example, when the read destination of the recorded data is the file server 14, the first text data is transmitted to the file server 14 (step 126), and the text data storage area is updated (step 128). Similarly, the first text data may be transmitted to the image data read destination in the communication terminal device 12 or other external storage, and the text data storage area of each image data may be updated.

図8は、図7の通信プロトコルの実行に基づいて、表示される通信端末装置12の入出力デバイス22(タッチパネル部22A)の表示画面の遷移図である。 FIG. 8 is a transition diagram of a display screen of the input / output device 22 (touch panel unit 22A) of the communication terminal device 12 to be displayed based on the execution of the communication protocol of FIG. 7.

図8(A)は、図4のステップ102においてタッチパネル部22Aの全域が撮像画面表示欄40となって、読み出した記録データに基づく画像が表示される状態である。 FIG. 8A shows a state in which the entire area of the touch panel unit 22A serves as the imaging screen display field 40 in step 102 of FIG. 4, and an image based on the read recorded data is displayed.

図8(B)は、表示されている画像の第1テキストデータ表示画面である。このとき、タッチパネル部22Aは、撮像画面表示欄42と、タイトル表示欄44と、コメント表示欄46とに分割され、第1テキストデータは、コメント表示欄46に表示され、第2テキストデータは、タイトル表示欄44及び/又はコメント表示欄46に表示される。 FIG. 8B is a first text data display screen of the displayed image. At this time, the touch panel unit 22A is divided into an imaging screen display field 42, a title display field 44, and a comment display field 46, the first text data is displayed in the comment display field 46, and the second text data is displayed. It is displayed in the title display field 44 and / or the comment display field 46.

図8(C)は、OCR処理を行って第1テキストデータが付加された画像の履歴表示例であり、タッチパネル部22Aの全域が履歴表示欄48となっている。 FIG. 8C is an example of history display of an image to which the first text data is added by performing OCR processing, and the entire area of the touch panel unit 22A is the history display field 48.

履歴表示欄48には、通信端末装置12から、読み出し先のストレージ(自身の大規模記憶装置24、ファイルサーバ14、及びネットワーク18に接続されたその他の外部ストレージ)にアクセスし、指定したファイル(記録データ、テキストデータ)が一覧表示される。図5(C)では履歴表示欄48に、1ファイル分の枠内にタイトル名、画像、及びコメントが表示され、最大3枠分表示されているが、スクロール又は切り替えによって、他のファイルの枠を表示することが可能である。 In the history display field 48, the communication terminal device 12 accesses the read destination storage (own large-scale storage device 24, file server 14, and other external storage connected to the network 18), and a designated file ( Recorded data, text data) are displayed in a list. In FIG. 5C, the title name, image, and comment are displayed in the history display field 48 in the frame for one file, and a maximum of three frames are displayed. However, by scrolling or switching, frames for other files are displayed. Can be displayed.

なお、図8(C)のように、ファイルサーバ14や、その他の外部ストレージからダウンロードして画像を表示する場合、セキュリティ、秘匿性の観点から、予め特定した通信端末装置12に制限することが好ましい。例えば、パスワードを入力して閲覧可能とする、或いは、通信端末装置12毎のデフォルト設定で、閲覧の可否を決めておく、等が考えられる。 As shown in FIG. 8C, when the image is downloaded from the file server 14 or other external storage and displayed, the image may be limited to the communication terminal device 12 specified in advance from the viewpoint of security and confidentiality. preferable. For example, it is conceivable to enter a password to enable browsing, or to decide whether or not to browse by the default setting for each communication terminal device 12.

図8(D)は、通信端末装置12にインストールされる文字入力支援アプリケーションプログラムの各種設定画面表示欄50であり、音声認識処理、及びOCR処理を実行するか否かを切り替え設定することができるようになっている。 FIG. 8D shows various setting screen display fields 50 of the character input support application program installed in the communication terminal device 12, and it is possible to switch and set whether to execute the voice recognition process and the OCR process. It has become like.

以上説明したように第2の実施の形態では、OCR処理による画像からの文字情報抽出に加え、発話音声データが音声認識サーバ36へ送られ、発話した音声データを文字情報(第2テキストデータ)に変換し、画像データに関連付けられたタイトル又はコメントとして格納される。 As described above, in the second embodiment, in addition to extracting character information from the image by OCR processing, spoken voice data is sent to the voice recognition server 36, and the spoken voice data is used as character information (second text data). Is converted to and stored as a title or comment associated with the image data.

この画像に表示された文字が第2のテキストデータとして、画像データに関連付けられることで、大量の画像ファイルの中から、必要な画像を検索する際の検索キーワードとして利用することができ、迅速な検索処理を実現することができる。 By associating the characters displayed in this image with the image data as the second text data, it can be used as a search keyword when searching for the required image from a large number of image files, which is quick. Search processing can be realized.

なお、第2の実施の形態では、既に格納された記録データに対してOCR処理を行ったため、音声認識もOCR処理とともに行うようにしたが、発話による音声認識の時期は、OCR処理とは別に、撮像直後であってもよい。 In the second embodiment, since the recorded data already stored is subjected to OCR processing, voice recognition is also performed together with OCR processing, but the timing of voice recognition by utterance is different from OCR processing. , It may be immediately after imaging.

10 ファイル用文字入力支援システム
11 利用者
12 通信端末装置
12SP スマートフォン
12DC デジタルカメラ
12HS ヘッドセット型ウェアラブルカメラユニット
12SG スマートグラス型ウェアラブルカメラユニット
14 ファイルサーバ
14A データベース
16 OCRサーバ
18 ネットワーク
20 マイクロコンピュータ
20A CPU
20B RAM
20C ROM
20D 入出力ポート
20E バス
22 入出力デバイス
22A タッチパネル部
22B スピーカ
22C マイクロフォン
24 ハードディスク
26 撮像デバイス
28 通信I/F
30 無線中継装置
32 筐体
34 ケーブル
36 音声認識サーバ
40 撮像画面表示欄
42 撮像画面表示欄
44 タイトル表示欄
46 コメント表示欄
48 履歴表示欄
10 Character input support system for files 11 Users 12 Communication terminal equipment 12SP Smartphone 12DC Digital camera 12HS Headset type wearable camera unit 12SG Smart glass type wearable camera unit 14 File server 14A Database 16 OCR server 18 Network 20 Microcomputer 20A CPU
20B RAM
20C ROM
20D I / O port 20E bus 22 I / O device 22A Touch panel 22B Speaker 22C Microphone 24 Hard disk 26 Imaging device 28 Communication I / F
30 Wireless relay device 32 Housing 34 Cable 36 Voice recognition server 40 Imaging screen display column 42 Imaging screen display column 44 Title display column 46 Comment display column 48 History display column

Claims (9)

画像格納領域に格納された画像データを読み出して、表示部に表示する表示制御部と、
前記表示部に表示された画像の中の文字画像を抽出して文字認識テキストデータを生成する文字認識部と、
前記文字認識部で生成した文字認識テキストデータを、前記画像データに関連付けて格納するテキストデータ格納部と、
を有する文字入力支援制御装置。
A display control unit that reads out the image data stored in the image storage area and displays it on the display unit.
A character recognition unit that extracts a character image from the image displayed on the display unit to generate character recognition text data, and a character recognition unit.
A text data storage unit that stores character recognition text data generated by the character recognition unit in association with the image data, and a text data storage unit.
Character input support control device with.
前記文字認識テキストデータに基づく文字画像が、撮像された画像のコメントとして表示される、
請求項1記載の文字入力支援制御装置。
A character image based on the character recognition text data is displayed as a comment of the captured image.
The character input support control device according to claim 1.
前記表示部による画像表示中に発話した音声データを、音声認識テキストデータに変換する音声認識部をさらに有し、
前記テキストデータ格納部が、前記音声認識部で音声認識した音声認識テキストデータを、前記画像データに関連付けて格納すると共に、
前記音声認識テキストデータが、前記画像のタイトル及びコメントの少なくとも一方として表示される、
請求項1又は請求項2記載の文字入力支援制御装置。
It further has a voice recognition unit that converts voice data uttered during image display by the display unit into voice recognition text data.
The text data storage unit stores the voice recognition text data voice-recognized by the voice recognition unit in association with the image data, and at the same time.
The voice recognition text data is displayed as at least one of the title and the comment of the image.
The character input support control device according to claim 1 or 2.
画像格納領域に格納された画像データを読み出して、表示部に表示する表示制御部を備えた通信端末装置と、
前記表示部に表示された画像の中の文字画像を抽出して文字認識テキストデータを生成する文字認識部を備えた文字認識サーバと、
前記表示部に表示された画像の画像データに、前記文字認識部で生成した文字認識テキストデータを関連付けて格納するテキストデータ格納部を備えたデータ格納サーバと、
を有する文字入力支援システム。
A communication terminal device equipped with a display control unit that reads out image data stored in the image storage area and displays it on the display unit.
A character recognition server equipped with a character recognition unit that extracts a character image from the image displayed on the display unit and generates character recognition text data.
A data storage server provided with a text data storage unit that stores the character recognition text data generated by the character recognition unit in association with the image data of the image displayed on the display unit.
Character input support system with.
前記文字認識テキストデータに基づく文字画像が、撮像された画像のコメントとして表示される、
請求項4記載の文字入力支援システム。
A character image based on the character recognition text data is displayed as a comment of the captured image.
The character input support system according to claim 4.
前記表示部による画像表示中に発話した音声データを、音声認識テキストデータに変換する音声認識サーバをさらに有し、
前記テキストデータ格納部が、前記音声認識サーバで音声認識した音声認識テキストデータを、前記画像データに関連付けて格納すると共に、
前記音声認識テキストデータが、前記画像のタイトル及びコメントの少なくとも一方として表示される、
請求項5記載の文字入力支援システム。
It also has a voice recognition server that converts voice data spoken during image display by the display unit into voice recognition text data.
The text data storage unit stores the voice recognition text data voice-recognized by the voice recognition server in association with the image data, and at the same time.
The voice recognition text data is displayed as at least one of the title and the comment of the image.
The character input support system according to claim 5.
前記通信端末装置の撮像部で撮像した撮像画像は、前記データ格納サーバへ格納後に、予め許可を得た特定の通信端末装置に制限された状態で閲覧可能とされる、
請求項4〜請求項6の何れか1項記載の文字入力支援システム。
After being stored in the data storage server, the captured image captured by the imaging unit of the communication terminal device can be viewed in a state of being restricted to a specific communication terminal device for which permission has been obtained in advance.
The character input support system according to any one of claims 4 to 6.
画像とテキストとがセットになった表示領域を1単位のフレームとして、格納されたフレームを一覧するビュワー機能を搭載する、
請求項4〜請求項7の何れか1項記載の文字入力支援システム。
Equipped with a viewer function that lists the stored frames, with the display area where the image and text are set as one unit frame.
The character input support system according to any one of claims 4 to 7.
コンピュータを、
請求項1〜請求項3の何れか1項記載の文字入力支援制御装置の各部として動作させる、
文字入力支援プログラム。
Computer,
Operate as each part of the character input support control device according to any one of claims 1 to 3.
Character input support program.
JP2020032222A 2020-02-27 2020-02-27 Character input support control device, character input support system, and character input support program Pending JP2021135811A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020032222A JP2021135811A (en) 2020-02-27 2020-02-27 Character input support control device, character input support system, and character input support program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020032222A JP2021135811A (en) 2020-02-27 2020-02-27 Character input support control device, character input support system, and character input support program

Publications (1)

Publication Number Publication Date
JP2021135811A true JP2021135811A (en) 2021-09-13

Family

ID=77661312

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020032222A Pending JP2021135811A (en) 2020-02-27 2020-02-27 Character input support control device, character input support system, and character input support program

Country Status (1)

Country Link
JP (1) JP2021135811A (en)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003037770A (en) * 2001-07-24 2003-02-07 Casio Comput Co Ltd Electronic camera, method for controlling the electronic camera, motion-picture camera and method for controlling the motion-picture camera
JP2003111009A (en) * 2001-09-28 2003-04-11 Fuji Photo Film Co Ltd Electronic album editing device
JP2003219327A (en) * 2001-09-28 2003-07-31 Canon Inc Image management device, image management method, control program, information processing system, image data management method, adaptor, and server
JP2008152372A (en) * 2006-12-14 2008-07-03 Brother Ind Ltd Image data management system, imaging terminal and image server
JP2014053876A (en) * 2012-09-10 2014-03-20 Canon Marketing Japan Inc Imaging apparatus, control method of the same, and computer program
JP2018169697A (en) * 2017-03-29 2018-11-01 西日本電信電話株式会社 Video data processing apparatus, video data processing method, and computer program
JP2019135609A (en) * 2018-02-05 2019-08-15 東京瓦斯株式会社 Character input support system, character input support control device, and character input support program

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003037770A (en) * 2001-07-24 2003-02-07 Casio Comput Co Ltd Electronic camera, method for controlling the electronic camera, motion-picture camera and method for controlling the motion-picture camera
JP2003111009A (en) * 2001-09-28 2003-04-11 Fuji Photo Film Co Ltd Electronic album editing device
JP2003219327A (en) * 2001-09-28 2003-07-31 Canon Inc Image management device, image management method, control program, information processing system, image data management method, adaptor, and server
JP2008152372A (en) * 2006-12-14 2008-07-03 Brother Ind Ltd Image data management system, imaging terminal and image server
JP2014053876A (en) * 2012-09-10 2014-03-20 Canon Marketing Japan Inc Imaging apparatus, control method of the same, and computer program
JP2018169697A (en) * 2017-03-29 2018-11-01 西日本電信電話株式会社 Video data processing apparatus, video data processing method, and computer program
JP2019135609A (en) * 2018-02-05 2019-08-15 東京瓦斯株式会社 Character input support system, character input support control device, and character input support program

Similar Documents

Publication Publication Date Title
AU2010284736B2 (en) Metadata tagging system, image searching method and device, and method for tagging a gesture thereof
JP4552632B2 (en) Portable device
US8615395B2 (en) Generating a display screen in response to detecting keywords in speech
US9137308B1 (en) Method and apparatus for enabling event-based media data capture
JP2018525651A (en) Smart glasses
US20100268929A1 (en) Electronic device and setting method thereof
JP2006165822A (en) Electronic camera and program
WO2007004520A1 (en) Searching system and searching method
US9973649B2 (en) Photographing apparatus, photographing system, photographing method, and recording medium recording photographing control program
US10380426B2 (en) Image processing apparatus, image processing method, and non-transitory storage medium
JP2008269411A (en) Image keyword editing system, image keyword provision server and image keyword editing device
JP2017021672A (en) Search device
JP2021135811A (en) Character input support control device, character input support system, and character input support program
JP2011004351A (en) Image processing apparatus, method of controlling the apparatus, program thereof, and storage medium
JP2021135810A (en) Character input support control device, character input support system, and character input support program
JP2019135609A (en) Character input support system, character input support control device, and character input support program
CN109617946A (en) The method and photographing device that Text region result data customized in image is uploaded automatically
CN103514428A (en) Intelligent prompting device and method
JP2019040401A (en) Information management device, information management system, and information management method
WO2012137341A1 (en) Image information processing server
JP5721617B2 (en) Image processing apparatus and control method thereof
JP7333027B2 (en) Information processing device, information processing method and program
KR102237940B1 (en) System for making and showing of augmented reality photos connected with video clips
JP2020119444A (en) Character input support system, character input support control device, character input support control method and character input support program
JP4661980B2 (en) Image recognition apparatus and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220823

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230213

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230404