JP2005266014A - Image recognition device for visually handicapped person, method and program thereof - Google Patents

Image recognition device for visually handicapped person, method and program thereof Download PDF

Info

Publication number
JP2005266014A
JP2005266014A JP2004075251A JP2004075251A JP2005266014A JP 2005266014 A JP2005266014 A JP 2005266014A JP 2004075251 A JP2004075251 A JP 2004075251A JP 2004075251 A JP2004075251 A JP 2004075251A JP 2005266014 A JP2005266014 A JP 2005266014A
Authority
JP
Japan
Prior art keywords
image
image recognition
recognition processing
visually impaired
sensor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004075251A
Other languages
Japanese (ja)
Other versions
JP3837572B2 (en
Inventor
Yukio Kosugi
幸夫 小杉
Ariaki Uto
有昭 宇都
Akio Iwabori
明生 岩堀
Tadao Sakaguchi
忠夫 坂口
Tatsuya Shimazaki
達也 島崎
Daisuke Kimura
大輔 木村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tokyo Institute of Technology NUC
Original Assignee
Tokyo Institute of Technology NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tokyo Institute of Technology NUC filed Critical Tokyo Institute of Technology NUC
Priority to JP2004075251A priority Critical patent/JP3837572B2/en
Publication of JP2005266014A publication Critical patent/JP2005266014A/en
Application granted granted Critical
Publication of JP3837572B2 publication Critical patent/JP3837572B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To enhance accuracy of automatic recognition by restricting candidates for a recognized object and to provide a visually handicapped person with support information for stable walk by an acoustic signal, etc. <P>SOLUTION: This image recognition device 10 for visually handicapped person is provided with a multi-spectrum image sensor 20, a posture sensor 30, an image recognition processing means 40, a processing mode control (compulsive switching) means 50, an acoustic signal generation means 60 and an acoustic signal reproduction means 70. The image recognition processing means 40 is provided with a processing mode setting part 41 which selects the optimal processing mode, an image recognition part 42, a radon conversion means 43, a staircase recognition means 44, a neural network 45 and a support information output means 46. The image recognition part 42 performs recognition processing of an image in the selected processing mode. <P>COPYRIGHT: (C)2005,JPO&NCIPI

Description

本発明は、視覚障害者用画像認識装置に関するものであり、特に、福祉工学分野において、視覚障害者の街頭歩行支援のための携帯型画像認識装置に関する。   The present invention relates to an image recognition apparatus for visually impaired persons, and more particularly to a portable image recognition apparatus for assisting visually impaired persons in walking on the street in the field of welfare engineering.

従来の視覚障害者誘導装置では、盲人用プレート内にICチップを埋め込む、あるいは歩行経路に電磁波の発信源を埋め込む、目的地別に異なった色のガイド線を設置するなど、主として歩行経路上に特殊な加工を施すことによって、歩行者が携行する認識装置に歩行位置情報を提供するものが主として用いられてきた(非特許文献1を参照されたい)。これらの歩行支援環境が整備可能な地域は極めて狭い範囲に限定されるため、視覚障害者が一般の街路を歩行する場合には、依然として介助者の支援、もしくは数の限られている盲導犬による介助が必要であった。
一方、街路における画像自動認識技術は、その対象の多くが形状、色の統一された車両ナンバー(非特許文献2を参照されたい)や、道路標識などの認識(非特許文献3を参照されたい)に限られ、視覚障害者が−般街路を歩行する際に遭遇するさまざまな障害、(例えば盲人用プレート上にはみ出して置かれた自転車や、工事中のバリケード、街路の段差、階段やホーム段差、交差点の交通信号機など)に対して、画像自動認識技術はほとんど適用不可能とされてきた。
Y. Kaneko, T. Harada, Y. Hirahara et al: Development of the Navigation System for the Visually Impaired, Proc. IEEE APBME #5.2.3, (Kyoto 2003) 藤吉弘亘、梅崎太造、今村友彦、金出武雄著:ニューラルネットワークによるナンバープレートの位置検出、電子情報通信学会論文誌、Vol.J80-D-II, No.6, pp 1627- 1634(1997) M.Nakamura, S. Kodama, N.Kitamura and M. Umeno:Vision Supporting System for Car Driver using Neural Network ,Proc.ICONIP98,pp.1082-1085(1998)
In the conventional visually impaired guidance device, the IC chip is embedded in the blind plate, the electromagnetic wave source is embedded in the walking path, or a guide wire of a different color is installed for each destination. For example, a device that provides walking position information to a recognition device carried by a pedestrian has been mainly used (see Non-Patent Document 1). Since the area where these walking support environments can be established is limited to a very narrow area, when a visually impaired person walks on a general street, assistance by a caregiver or assistance by a guide dog with a limited number of people remains. Was necessary.
On the other hand, in the automatic image recognition technology on the street, most of the objects are recognition of vehicle numbers (see non-patent document 2) and road signs whose shapes and colors are unified (see non-patent document 3). ) And various obstacles that visually impaired people encounter when walking on general streets (for example, bicycles placed on the plate for blind people, barricades under construction, street steps, stairs and homes) It has been considered that the automatic image recognition technology is hardly applicable to steps, traffic lights at intersections, and the like.
Y. Kaneko, T. Harada, Y. Hirahara et al: Development of the Navigation System for the Visually Impaired, Proc.IEEE APBME # 5.2.3, (Kyoto 2003) Hiroyoshi Fujiyoshi, Taizo Umezaki, Tomohiko Imamura, Takeo Kanade: License plate position detection by neural network, IEICE Transactions, Vol.J80-D-II, No.6, pp 1627-1634 (1997) ) M. Nakamura, S. Kodama, N. Kitamura and M. Umeno: Vision Supporting System for Car Driver using Neural Network, Proc. ICONIP98, pp.1082-1085 (1998)

即ち、従来技術による装置や技法では、歩行者が携行する画像取得装置から得られる画像情報より、視覚障害者の歩行に障害となる物および歩行の助けとなる物を識別する際、認識対象物が多岐にわたるため、安定した認識機構を構成することが困難であった。
一方、正常な視覚機能を有する歩行者は、足元を見る時と、水平方向、側方を見るときでは、自らの意思によって眼球を目標物に向け、同時に脳内の画像認識機構を対象物の認識にふさわしい処理系に切り替えて高い認識能力を確保している。たとえば、足元を見るモードでは、信号機の色を判別しようという意志をもった処理は行わない。反対に、遠方に視野を求めている場合には、足元の穴を認識しようという処理は抑制されている。
That is, in the conventional apparatus and technique, when identifying an object that obstructs the walking of visually impaired persons and an object that helps walking, from the image information obtained from the image acquisition apparatus carried by the pedestrian, the recognition target object However, it was difficult to construct a stable recognition mechanism.
On the other hand, pedestrians with normal visual functions, when looking at their feet, looking horizontally or sideways, aim their eyes at the target and at the same time use the image recognition mechanism in the brain for the object. Switching to a processing system suitable for recognition ensures high recognition ability. For example, in the mode of looking at the feet, the process with the intention to determine the color of the traffic light is not performed. On the other hand, when the field of view is required far away, the process of recognizing the hole at the foot is suppressed.

本発明では、上記のヒトの画像認識系にヒントを得て、視覚障害者が画像取得系の対象物方向を自由に変更できるハンドヘルド形状とするとともに、画像取得系に付加した姿勢センサ(3次元加速度センサ)より、対象とする画像がどの方向から取得されたか、安定した静止状態で取得されたかといった撮影状況に関するアプリオリ情報を認識系に提供し、認識系は、このアプリオリ情報にもとづいて得られた画像の処理モードを変更し、より精度の高い認識結果を生成し、音響信号等によってこの結果を視覚障害者に提供する。   In the present invention, the above-described human image recognition system is used as a handheld shape that allows a visually impaired person to freely change the object direction of the image acquisition system, and a posture sensor (three-dimensional) added to the image acquisition system. A priori information relating to the shooting situation, such as from which direction the target image was acquired, and in a stable still state, is provided to the recognition system, and the recognition system is obtained based on this a priori information. The image processing mode is changed, a more accurate recognition result is generated, and the result is provided to the visually impaired by an acoustic signal or the like.

本発明による視覚障害者用画像認識装置は、
波長帯域が各々異なる複数の画像を同時に取得するマルチスペクトル画像センサと、
前記装置の姿勢情報(即ち前記画像センサの撮影方向)を取得する姿勢センサ(例えば3次元加速度センサ、傾斜角センサなど)と、
前記姿勢センサで取得された前記姿勢情報(即ち装置における画像センサの光軸と水平面との間でなす角度)に基づき、交通信号標識が発する光の波長を含むような波長帯域を持つ画像に対して画像認識処理を行う交通信号標識認識処理モード、通常の画像認識処理を行う障害物認識処理モード、及び、前記複数の画像の各々の中心部に限定して画像認識処理を行う路面認識処理モード、を含む複数の処理モードのうちの1つを選択し、この選択された処理モードで前記複数の画像の少なくとも1つの画像の認識処理を行う画像認識処理手段と、
前記画像認識処理手段による画像認識処理の結果に応じて音響信号を生成する音響信号生成手段と、
前記生成された音響信号を再生する音響再生手段(スピーカやイヤホンなど)と、
を具えることを特徴とする。
本発明によれば、従来は、単一の画像処理モードで実行していたものを、姿勢情報に応じて最適な処理モードに設定できるため画像認識の精度を実用可能なレベルまで増加させることが可能となる。換言すれば、知覚する様々なデータから当該処理モードで必要とされるデータのみに限定して認識処理を実行するため、精度の向上を図りつつさらに計算コストの削減も達成できる。即ち、本発明はマルチスペクトル画像から路上の歩行障害物および目標物を認識する携帯型画像自動認識システムに加速度センサを付加し、認識対象物の候補を限定することで自動認識の精度を高め、音響信号等で視覚障害者に対し安定した歩行支援情報を提供する。なお、装置の姿勢は、所望の処理モードに応じてユーザが意識的に変更することができる。
An image recognition apparatus for a visually impaired person according to the present invention includes:
A multispectral image sensor that simultaneously acquires a plurality of images each having a different wavelength band; and
An attitude sensor (for example, a three-dimensional acceleration sensor, an inclination angle sensor, etc.) for acquiring attitude information of the device (that is, a shooting direction of the image sensor);
Based on the posture information acquired by the posture sensor (that is, the angle formed between the optical axis of the image sensor and the horizontal plane in the apparatus), an image having a wavelength band that includes the wavelength of light emitted by the traffic signal sign A traffic signal sign recognition processing mode for performing image recognition processing, an obstacle recognition processing mode for performing normal image recognition processing, and a road surface recognition processing mode for performing image recognition processing limited to the center of each of the plurality of images Image recognition processing means for selecting one of a plurality of processing modes including, and performing recognition processing of at least one image of the plurality of images in the selected processing mode;
Acoustic signal generating means for generating an acoustic signal according to the result of the image recognition processing by the image recognition processing means;
Sound reproduction means (speakers, earphones, etc.) for reproducing the generated acoustic signal;
It is characterized by comprising.
According to the present invention, what is conventionally executed in a single image processing mode can be set to an optimum processing mode according to posture information, so that the accuracy of image recognition can be increased to a practical level. It becomes possible. In other words, since the recognition process is executed only from the various data perceived to the data required in the processing mode, the calculation cost can be further reduced while improving the accuracy. That is, the present invention adds an acceleration sensor to a portable image automatic recognition system that recognizes walking obstacles and targets on the road from multispectral images, and increases the accuracy of automatic recognition by limiting the candidates for recognition objects, Provide stable walking support information for visually impaired people with acoustic signals. Note that the posture of the apparatus can be consciously changed by the user according to a desired processing mode.

また、本発明による視覚障害者用画像認識装置は、
前記複数の処理モードのうちユーザが所望する処理モードを入力する入力手段と、
前記入力された処理モードに強制的に設定して動作するよう前記画像認識処理手段を制御する処理モード制御手段、
を具えることを特徴とする。
本発明によれば、視覚障害者であるユーザが特定の処理モードに切り替えたいときに即座に切り替えることが可能となる。
In addition, the image recognition apparatus for the visually impaired according to the present invention is as follows.
An input means for inputting a processing mode desired by the user among the plurality of processing modes;
Processing mode control means for controlling the image recognition processing means to operate by forcibly setting the input processing mode;
It is characterized by comprising.
According to the present invention, when a user who is visually impaired wants to switch to a specific processing mode, it is possible to switch immediately.

さらにまた、本発明による視覚障害者用画像認識装置は、
前記画像認識手段は、前記複数の画像の少なくとも1つの画像を複数の領域に分割し、領域ごとにフーリエ変換し領域ごとに輝度値の変化量を示す特徴量であるパワー(即ち当該領域の複雑さを示すファクター)を求めるパワー算出手段を含む、
ことを特徴とする。
本発明によれば、それぞれの小領域ごとにどれくらい複雑かを高精度に検出することが可能であり、この複雑さによって障害物を検知するような障害物認識処理モード、或いは、単調な路面の複雑さと路面以外の物体の複雑さとを識別するような路面認識処理モードで非常に効果的に機能する。
Furthermore, the image recognition apparatus for the visually impaired according to the present invention is as follows.
The image recognition means divides at least one image of the plurality of images into a plurality of regions, performs Fourier transform for each region, and represents a power (that is, a complex amount of the region) indicating a change amount of luminance value for each region. Power calculation means for obtaining a factor)
It is characterized by that.
According to the present invention, it is possible to accurately detect how complicated each small region is, and an obstacle recognition processing mode for detecting an obstacle by this complexity, or a monotonous road surface. It functions very effectively in a road surface recognition processing mode that discriminates between complexity and complexity of objects other than the road surface.

さらにまた、本発明による視覚障害者用画像認識装置は、
前記画像認識手段は、
前記画像の全領域をラドン変換するラドン変換手段と、
前記ラドン変換された画像を複数の領域に分割し各領域内の最大輝度値を求め、所定の輝度値を越える領域の配置パターンに基づき階段を識別する階段識別手段と、を含む、
ことを特徴とする。
本構成によれば、領域の配置パターンに基づき、階段の有無、さらには上り階段か下り階段かまで高精度に認識可能である。特に、視覚障害者にとって階段は歩行上最も危険な構造物に含まれるものであるため、このような高精度な階段識別機能を設けることによって障害者がけがをする恐れを顕著に減少させることができるようになる。
Furthermore, the image recognition apparatus for the visually impaired according to the present invention is as follows.
The image recognition means includes
Radon conversion means for performing radon conversion on the entire area of the image;
A step identification unit that divides the Radon transformed image into a plurality of regions, obtains a maximum luminance value in each region, and identifies a step based on an arrangement pattern of regions exceeding a predetermined luminance value;
It is characterized by that.
According to this configuration, the presence / absence of a staircase, and whether it is an ascending staircase or a descending staircase can be recognized with high accuracy based on the arrangement pattern of regions. In particular, since the staircase is included in the most dangerous structure for walking for visually impaired people, providing such a highly accurate staircase identification function can significantly reduce the risk of injury to persons with disabilities. become able to.

さらにまた、本発明による視覚障害者用画像認識装置は、
前記マルチスペクトル画像センサは、
画像を撮影する撮影手段と、
撮影対象と前記撮影手段との間に設けられた、複数の波長帯域の光を通過させる光学バンドパスフィルタと、を含む、
ことを特徴とする。
本構成によれば、安価なフィルタとCCDカメラやCMOSカメラなどのような安価な撮影手段を組み合わせることによって簡易にマルチスペクトル画像センサを構成させることが可能となる。特に、信号標識の赤の波長帯、黄色の波長帯、或いは青の波長帯のみを選択的に通過させるフィルタを用いれば、最も危険を伴いかつ重要な交通標識の識別時に非常に効果的に機能する。
Furthermore, the image recognition apparatus for the visually impaired according to the present invention is as follows.
The multispectral image sensor is
Photographing means for photographing an image;
An optical bandpass filter that is provided between the object to be imaged and the image capturing means and transmits light of a plurality of wavelength bands;
It is characterized by that.
According to this configuration, it is possible to easily configure a multispectral image sensor by combining an inexpensive filter and an inexpensive photographing unit such as a CCD camera or a CMOS camera. In particular, a filter that selectively passes only the red, yellow, or blue wavelength bands of signal signs can function very effectively when identifying the most dangerous and important traffic signs. To do.

さらにまた、本発明による視覚障害者用画像認識装置は、
前記姿勢センサは、3次元加速度センサを含み、
前記装置は、
前記3次元加速度センサが前記装置がほぼ静止状態であると認識したときのみ、前記複数の画像を取得するよう前記マルチスペクトル画像センサを制御する画像センサ制御手段を具える、
ことを特徴とする。
本発明によれば、画像のブレによる対象物の誤認識する確率を顕著に減少させることができる。
Furthermore, the image recognition apparatus for the visually impaired according to the present invention is as follows.
The posture sensor includes a three-dimensional acceleration sensor,
The device is
Image sensor control means for controlling the multispectral image sensor to acquire the plurality of images only when the three-dimensional acceleration sensor recognizes that the device is substantially stationary.
It is characterized by that.
According to the present invention, the probability of erroneous recognition of an object due to image blurring can be significantly reduced.

さらにまた、本発明による視覚障害者用画像認識装置は、
前記画像認識処理手段は、
画像から得られた学習用スペクトル特性、学習用周波数特性、及び学習用エッジの直線性を含む特性データと前記画像における実際の状況を記述した教師データとで予め学習させてあるニューラルネットワークと、
前記ニューラルネットワークを使用して前記複数の画像から取得したスペクトル特性、周波数特性及びエッジの直線性に基づき、歩行支援情報(コースアウト、歩行時の危険性の程度、障害物の方向の告知などの総合的な情報)を出力する支援情報出力手段と、を含み、
前記音響信号生成手段は、前記歩行支援情報に基づき前記音響信号を生成する、
ことを特徴とする。
本発明によれば、ユーザに総合的な歩行支援情報を与えることが可能となり、ユーザの歩行時の安全性をさらに向上させることが可能である。
Furthermore, the image recognition apparatus for the visually impaired according to the present invention is as follows.
The image recognition processing means includes
A neural network that has been pre-trained with characteristic data including the spectral characteristics for learning obtained from the image, frequency characteristics for learning, and linearity of the edge for learning, and teacher data describing the actual situation in the image;
Based on spectral characteristics, frequency characteristics and edge linearity acquired from the plurality of images using the neural network, walking support information (out of course, degree of danger during walking, notification of obstacle direction, etc.) Supporting information output means for outputting
The acoustic signal generating means generates the acoustic signal based on the walking support information.
It is characterized by that.
ADVANTAGE OF THE INVENTION According to this invention, it becomes possible to give comprehensive walk assistance information to a user, and it is possible to further improve the safety at the time of a user's walk.

上述したように本発明の解決手段を装置として説明してきたが、本発明はこれらに実質的に相当する方法、プログラム、プログラムを記録した記憶媒体としても実現され得るものであり、本発明の範囲にはこれらも包含されるものと理解されたい。
例えば、本発明による視覚障害者用画像認識装置を方法として実現させると、視覚障害者用画像認識方法は、
波長帯域が各々異なる複数の画像をマルチスペクトル画像センサを使用して同時に取得するマルチスペクトル画像センシングステップと、
前記マルチスペクトル画像センサの姿勢情報を姿勢センサを使用して取得する姿勢センシングステップと、
前記姿勢センシングステップで取得された前記姿勢情報に基づき、交通信号標識が発する光の波長を含むような波長帯域を持つ画像に対して画像認識処理を行う交通信号標識認識処理モード、通常の画像認識処理を行う障害物認識処理モード、及び、前記複数の画像の各々の中心部に限定して画像認識処理を行う路面認識処理モードを含む複数の処理モードのうちの1つを選択し、この選択された処理モードで前記複数の画像の少なくとも1つの画像の認識処理を演算手段を使用して行う画像認識処理ステップと、
前記画像認識処理ステップによる画像認識処理の結果に応じて、演算手段及び信号生成回路を使用して音響信号を生成する音響信号生成ステップと、
を含むことを特徴とする。
或いは、上記各ステップからなる方法をコンピュータに実行させるプログラムとして、本発明を実現することもできる。
視覚障害者用画像認識方法をコンピュータに実行させるための視覚障害者用画像認識プログラムであって
波長帯域が各々異なる複数の画像をマルチスペクトル画像センサを使用して同時に取得するマルチスペクトル画像センシングステップと、
前記マルチスペクトル画像センサの姿勢情報を姿勢センサを使用して取得する姿勢センシングステップと、
前記姿勢センシングステップで取得された前記姿勢情報に基づき、交通信号標識が発する光の波長を含むような波長帯域を持つ画像に対して画像認識処理を行う交通信号標識認識処理モード、通常の画像認識処理を行う障害物認識処理モード、及び、前記複数の画像の各々の中心部に限定して画像認識処理を行う路面認識処理モードを含む複数の処理モードのうちの1つを選択し、この選択された処理モードで前記複数の画像の少なくとも1つの画像の認識処理を行う画像認識処理ステップと、
前記画像認識処理ステップによる画像認識処理の結果に応じて、信号生成回路を使用して音響信号を生成する音響信号生成ステップと、
を含むことを特徴とする視覚障害者用画像認識プログラムである。
As described above, the solution of the present invention has been described as an apparatus. However, the present invention can be realized as a method, a program, and a storage medium storing the program substantially corresponding to these, and the scope of the present invention. It should be understood that these are also included.
For example, when the image recognition apparatus for visually impaired persons according to the present invention is realized as a method, the image recognition method for visually impaired persons is:
A multispectral image sensing step of simultaneously acquiring a plurality of images having different wavelength bands using a multispectral image sensor;
Attitude sensing step for obtaining attitude information of the multispectral image sensor using an attitude sensor;
Based on the posture information acquired in the posture sensing step, a traffic signal sign recognition processing mode for performing image recognition processing on an image having a wavelength band including a wavelength of light emitted by a traffic signal sign, normal image recognition Select one of a plurality of processing modes including an obstacle recognition processing mode for performing processing and a road surface recognition processing mode for performing image recognition processing limited to the center of each of the plurality of images. An image recognition processing step of performing recognition processing of at least one image of the plurality of images using a calculation means in the processed mode,
According to the result of the image recognition processing by the image recognition processing step, an acoustic signal generation step of generating an acoustic signal using a calculation means and a signal generation circuit;
It is characterized by including.
Alternatively, the present invention can be realized as a program that causes a computer to execute the method including the above steps.
A multi-spectral image sensing step for simultaneously obtaining a plurality of images having different wavelength bands using a multi-spectral image sensor for causing a computer to execute an image recognition method for the visually impaired ,
Attitude sensing step for obtaining attitude information of the multispectral image sensor using an attitude sensor;
Based on the posture information acquired in the posture sensing step, a traffic signal sign recognition processing mode for performing image recognition processing on an image having a wavelength band including a wavelength of light emitted by a traffic signal sign, normal image recognition Select one of a plurality of processing modes including an obstacle recognition processing mode for performing processing and a road surface recognition processing mode for performing image recognition processing limited to the center of each of the plurality of images. An image recognition processing step for recognizing at least one of the plurality of images in the processed mode,
An acoustic signal generation step of generating an acoustic signal using a signal generation circuit according to the result of the image recognition processing by the image recognition processing step;
It is an image recognition program for visually impaired persons characterized by including.

以降、諸図面を参照しつつ、本発明の実施態様を詳細に説明する。
図1は、本発明による視覚障害者用画像認識装置の基本的な構成を示すブロック図であある。図に示すように、視覚障害者用画像認識装置10は、マルチスペクトル画像センサ20、姿勢センサ30、画像認識処理手段40、処理モード制御(強制切替)手段50、音響信号生成手段60、及び音響信号再生手段70を具える。画像認識処理手段40は、最適な処理モードを選択する処理モード設定部41、画像認識部42、ラドン変換手段43、階段認識手段44、ニューラルネットワーク45、及び支援情報出力手段46を具える。処理モード設定部41は、姿勢センサで取得された前記姿勢情報に基づき、交通信号標識が発する光の波長を含むような波長帯域を持つ画像に対して画像認識処理を行う交通信号標識認識処理モード、通常の画像認識処理を行う障害物認識処理モード、及び、前記複数の画像の各々の中心部に限定して画像認識処理を行う路面認識処理モードを含む複数の処理モードのうちの1つを選択し、画像認識部42は、選択された処理モードで画像の認識処理を行う。その他の構成要素の機能は前述したとおりである。
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
FIG. 1 is a block diagram showing a basic configuration of an image recognition apparatus for a visually impaired person according to the present invention. As shown in the figure, the image recognition apparatus 10 for the visually impaired includes a multispectral image sensor 20, a posture sensor 30, an image recognition processing means 40, a processing mode control (forced switching) means 50, an acoustic signal generation means 60, and an acoustic signal. A signal reproducing means 70 is provided. The image recognition processing unit 40 includes a processing mode setting unit 41 that selects an optimal processing mode, an image recognition unit 42, a radon conversion unit 43, a staircase recognition unit 44, a neural network 45, and a support information output unit 46. The processing mode setting unit 41 is a traffic signal sign recognition processing mode for performing image recognition processing on an image having a wavelength band including the wavelength of light emitted by the traffic signal sign based on the posture information acquired by the posture sensor. One of a plurality of processing modes including an obstacle recognition processing mode for performing normal image recognition processing and a road surface recognition processing mode for performing image recognition processing limited to the center of each of the plurality of images. Then, the image recognition unit 42 performs image recognition processing in the selected processing mode. The functions of the other components are as described above.

図2は、本発明による視覚障害者用画像認識装置の具体的な装置構成例を示すブロック図である。
本装置は、複数の波長の画像を同時に獲得することのできるマルチスペクトル画像センサ80と、この画像入力の処理モードを切替える処理モード切替器82、処理モード切替器に姿勢情報を提供するための、3次元加速度センサ84及び加速度よりセンサ姿勢を算出するセンサ姿勢算出器86、各センサ姿勢に適合した処理モードで認識処理を行う複数の認識処理機構を含む画像認識処理部90、及び、認識結果に従って周波数・音色等を変化させる、或いは音響信号を生成する音響信号発生器92、処理モードを強制的に変更・固定する強制処理スイッチ88、及び変化させた或いは生成した音響信号を再生するスピーカ94から構成される。
FIG. 2 is a block diagram showing a specific apparatus configuration example of the image recognition apparatus for the visually impaired according to the present invention.
This apparatus includes a multispectral image sensor 80 that can simultaneously acquire images of a plurality of wavelengths, a processing mode switch 82 that switches the processing mode of the image input, and posture information for providing the processing mode switch. According to the three-dimensional acceleration sensor 84, a sensor posture calculator 86 for calculating a sensor posture from the acceleration, an image recognition processing unit 90 including a plurality of recognition processing mechanisms for performing recognition processing in a processing mode suitable for each sensor posture, and the recognition result From an acoustic signal generator 92 that changes the frequency, tone, etc., or generates an acoustic signal, a forcible processing switch 88 that forcibly changes / fixes the processing mode, and a speaker 94 that reproduces the changed or generated acoustic signal Composed.

以下、各構成要素の機能について説明する。
画像解析モード切替機構(自動・手動)
図3は、本発明による装置に搭載するセンサ部の構成図である。図に示すように、グリップ部106に固定されたCCDカメラ102の光軸(O−O’)上に3D加速度センサ100が設置され、その出力がセンサ姿勢算出器(CPU)に送出される。CCDカメラ102には、フィルタ・レンズ104が装着されている。
いま、水平面と光軸の成す角度をφとするとき、グリップ106の把持角度によって、φは0度(光軸の水平状態)から、90度(光軸が路面に対して垂直)まで変化する。先ず、センサシステムが静止状態にあることを確認するため、3D加速度センサの相直交する3方向の加速度のベクトル和が重力加速度9.8m/s2にほぼ一致するときに画像の取得を行う。これによって、画像のフレによる誤認識の確率を低減させることができる。
Hereinafter, the function of each component will be described.
Image analysis mode switching mechanism (automatic / manual)
FIG. 3 is a configuration diagram of a sensor unit mounted on the apparatus according to the present invention. As shown in the figure, the 3D acceleration sensor 100 is installed on the optical axis (OO ′) of the CCD camera 102 fixed to the grip portion 106, and the output is sent to a sensor attitude calculator (CPU). A filter lens 104 is attached to the CCD camera 102.
Now, assuming that the angle between the horizontal plane and the optical axis is φ, φ varies from 0 degree (horizontal state of the optical axis) to 90 degrees (the optical axis is perpendicular to the road surface) depending on the gripping angle of the grip 106. . First, in order to confirm that the sensor system is in a stationary state, an image is acquired when the vector sum of accelerations in three orthogonal directions of the 3D acceleration sensor substantially matches the gravitational acceleration 9.8 m / s 2 . As a result, the probability of misrecognition due to image blur can be reduced.

次いで、このセンサ系がほぼ静止状態にあるときに、光軸に対する重力加速度ベクトルの角度φ’から、式「φ=90度−φ’」によって水平面と光軸との間で成す角度φを算出する。このφの大小に従って、処理モード切替器は、以下の3つのモードを切り替え、それぞれの角度域にふさわしい画像処理系を駆動する。
モード1:−δ1<φ<δ1:交通信号標識認識処理モード
モード2:δ1≦φ<(90度−δ2):障害物認識処理モード
モード3:(90度−δ2)≦φ<(90度+δ2):路面認識処理モード
なお、許容角度δ1、δ2は、使用する環境に応じて事前に設定する。また、グリップ上端には、強制モード選択スイッチが設置され、上記の切り替えモードに優先して、各モードを選択することが可能である。
Next, when the sensor system is almost stationary, the angle φ formed between the horizontal plane and the optical axis is calculated from the angle φ ′ of the gravitational acceleration vector with respect to the optical axis by the formula “φ = 90 degrees−φ ′”. To do. The processing mode switching unit switches the following three modes according to the magnitude of φ, and drives an image processing system suitable for each angular range.
Mode 1: −δ1 <φ <δ1: Traffic signal sign recognition processing mode Mode 2: δ1 ≦ φ <(90 degrees−δ2): Obstacle recognition processing mode mode 3: (90 degrees−δ2) ≦ φ <(90 degrees + Δ2): Road surface recognition processing mode The allowable angles δ1 and δ2 are set in advance according to the environment to be used. In addition, a forced mode selection switch is installed at the upper end of the grip, and each mode can be selected in preference to the above switching mode.

画像の複雑さの検出機構
路上の障害物(例えば、放置自転車、フェンス、工事用バリケード等)では、一般的に平坦な路面に比して空間周波数の高い成分の比率が大きい。そこで、図4に示すように入力画像110を多数の正方形の小領域112に分割し、各小領域112ごとに2次元高速フーリエ変換を施し、式(1)によりフーリエ変換後画像を2値化するための閾値を決定する。
次に式(2)により変換後画像を2値化し、式(3)に従って各小領域のパワーを算出する。

Figure 2005266014

ここでPmaxはフーリエ変換画像の最大輝度値(グローバルな最大値)、θは閾値、Z1(i,j)はフーリエ変換後画像の各ピクセルの輝度値、Z2(i,j)は2値化後の各ピクセルの輝度値、Powerは各小領域のパワーである。
画面内の複数領域についてパワーがあらかじめ設定した閾値を上回る場合には、何らかの障害物が発見されたものと解釈して警告音を発生する。このとき、最大のパワーが得られた小正方領域の画面内の位置に応じて音響信号発生器の発生信号の音色および周波数を時間的に変化させることで、画像内のどの領域に障害物が見られるかを視覚障害者に知らしめる。 Image complexity detection mechanism Obstacles on the road (for example, abandoned bicycles, fences, construction barricades, etc.) generally have a higher ratio of components having a higher spatial frequency than flat road surfaces. Therefore, as shown in FIG. 4, the input image 110 is divided into a large number of square small regions 112, subjected to two-dimensional fast Fourier transform for each small region 112, and binarized after Fourier transform by Equation (1). A threshold for determining the threshold is determined.
Next, the converted image is binarized by Expression (2), and the power of each small region is calculated according to Expression (3).
Figure 2005266014

Here, P max is the maximum brightness value (global maximum value) of the Fourier transform image, θ is a threshold value, Z 1 (i, j) is the brightness value of each pixel of the image after Fourier transform, and Z 2 (i, j) is The luminance value of each pixel after binarization, Power, is the power of each small area.
When the power exceeds a preset threshold value for a plurality of areas in the screen, it is interpreted that some kind of obstacle has been found and a warning sound is generated. At this time, by changing temporally the timbre and frequency of the generated signal of the acoustic signal generator according to the position in the screen of the small square area where the maximum power was obtained, an obstacle in any area in the image Let the visually impaired know if you can see it.

c)ラドン変換による階段画像の認識機構
取得した画像全領域に対してラドン変換を行う。ラドン変換後の画像により直線成分の有無が判別できる。その画像を領域に分割し、その領域内の最大輝度値を取得する。得られた各領域の輝度値を5レベル程度に分類し、その各レベルの連結性や存在位置のパターンと階段が存在するパターンとを比較し判別する。
c) Staircase image recognition mechanism by radon transformation Radon transformation is performed on the entire acquired image area. The presence or absence of a linear component can be determined from the image after the Radon transform. The image is divided into regions, and the maximum luminance value in the region is acquired. The obtained luminance value of each region is classified into about five levels, and the connectivity and the pattern of the existing position of each level are compared with the pattern in which the staircase is present for determination.

d)デュアルパス・フィルターによる簡易マルチスペクトル画像センサ系の構成
近年各国でLED式交通信号機が普及しつつあるが、LED式交通信号機では、図5に示すように鋭い発光スペクトル強度特性を有する。即ち、赤、青、黄、の各信号は、それぞれに特有な波長帯を持つ。
従って、鋭い通過域特性を有する光学バンドパスフィルタを挿入することで、S/Nの良い信号機認識処理が可能になる。しかるに通常のカラーCCD画像センサでは、RGB表色系を近似した通過域特性を有するモザイク状フィルタを半導体前面に装着しているため、鋭いスペクトルの抽出は困難である。そこで、本発明では、既存のRGBカラーCCDの前面に、双バンド通過の特性(通過波長帯域480〜520nmおよび620〜660nm)を有する光学フィルタを装着することで、信号機の育と赤に相当する波長成分を効果的に抽出する。
d) Configuration of a simple multispectral image sensor system using a dual pass filter In recent years, LED traffic signals have become widespread in various countries, but LED traffic signals have sharp emission spectrum intensity characteristics as shown in FIG. That is, each of the red, blue, and yellow signals has a unique wavelength band.
Therefore, by inserting an optical bandpass filter having a sharp passband characteristic, it is possible to perform signal recognition processing with a good S / N. However, in a normal color CCD image sensor, it is difficult to extract a sharp spectrum because a mosaic filter having passband characteristics approximating the RGB color system is attached to the front surface of the semiconductor. Therefore, in the present invention, an optical filter having dual-band pass characteristics (pass wavelength bands 480 to 520 nm and 620 to 660 nm) is attached to the front surface of the existing RGB color CCD, which corresponds to traffic light and red. Extracts wavelength components effectively.

e)路面認識処理モード
図3のセンサ系がモード3の位置に保持された場合、若しくは強制的に選択スイッチによって、「路面認識処理モード」が選択された場合には、センサの感度受容野を画像の中心部に限定し、その部分のスペクトル情報にもとづいて、対象物の認識を行う。この場合、上記d)で用いた2波長帯域に加えるに、480〜520nmのG帯域および、近赤外域(880〜960nm)を加えた4波長マルチスペクトル画像センサを図3のセンサ部に使用する。これらの各スペクトル強度を、予め学習させたあるニューラルネットワークの多層パーセプトロンに入力することで、歩行中の路面上の盲人用プレートや、アスファルト道路、水溜りの有無などを高い精度で判別できる。
e) Road surface recognition processing mode When the sensor system of FIG. 3 is held at the position of mode 3, or when the “road surface recognition processing mode” is forcibly selected by the selection switch, the sensitivity receptive field of the sensor is set. The object is recognized based on the spectral information of the portion limited to the center of the image. In this case, in addition to the two wavelength bands used in d) above, a 4-wavelength multispectral image sensor in which the G band of 480 to 520 nm and the near infrared band (880 to 960 nm) are added is used in the sensor section of FIG. . By inputting these spectrum intensities to a multilayer perceptron of a certain neural network that has been learned in advance, it is possible to discriminate with high accuracy whether or not there are blind plates, asphalt roads, and puddles on the road surface during walking.

これまでの画像処理技術の実世界に対する適用は、白線や階段など極めてある特定の物事のみを認識対象としてきた。本発明では複数の対象物に対して、センサ系が保持されている角度をアプリオリ情報として、あるいは強制的に選択されるモードに従って対象物の範囲と、その認識にふさわしい処理系の選択を行うことで、より現実的な認識結果を得ることができる。「特に、障害物認識処理モード」にあっては、周波数特性の視点から見た「歩行可能の是非の判別」という極めて漠然とした情報を取得し、この装置を用いるユーザーの立場に立った有用な出力を与えることができる。また歩行不可の可能性のある場合のみ障害物解析を行うという手法により、疑いのない場所での無駄な解析を省略しシステムの応答性を高めるとともに、過剰な警戒信号が使用者へ与える緊張・疲労感を低減することができる。   Up to now, the application of image processing technology to the real world has been focused only on certain specific things such as white lines and stairs. In the present invention, for a plurality of objects, the range of the object and the processing system suitable for the recognition are selected according to the mode in which the angle at which the sensor system is held is a priori information or is forcibly selected. Thus, a more realistic recognition result can be obtained. In the “obstacle recognition processing mode” in particular, it is very useful from the standpoint of the user who uses this device by acquiring extremely vague information such as “determination of whether walking is possible” from the viewpoint of frequency characteristics. Output can be given. In addition, by analyzing the obstacles only when there is a possibility of being unable to walk, unnecessary analysis in an unsuspecting place is omitted to improve the responsiveness of the system. A feeling of fatigue can be reduced.

機器形状
図6は、本発明による視覚障害者用画像認識装置の実施態様で使用するセンサ部の平面図である。ハーフミラーを用いた構造により3台のCCDカメラCCD1-3(CCD3は図示せず)直前に設置した光学フィルタFl〜F3(F3は図示せず)によって4チャンネルのマルチスペクトル観測系を構成している。なお、Flはデュアルパスフィルタで、RGB出力を有するCCDlに内臓されているモザイクフィルタとの組合せで、2チャンネル分を担当する。対象物の同一箇所について4チャンネルのスペクトルを同時取得することが可能な単軸の画像取得機を形成している。取得した情報はノートPCに送られる。PC上に搭載されている汎用数値解析ソフト(本実施例ではMATLABというソフトを使用した。)はそれらの情報を受け取り、前述した各種画像認識処理を行う。画像認識処理結果により障害物フラグや各種信号機フラグなど適切なフラグを立て、それを音声出力モジュールに送る。
Equipment shapes Figure 6 is a plan view of a sensor unit for use in embodiments of the visually impaired image recognition apparatus according to the present invention. A four-channel multispectral observation system is configured by optical filters Fl to F3 (F3 not shown) installed in front of three CCD cameras CCD1-3 (CCD3 not shown) with a structure using a half mirror. Yes. Fl is a dual-pass filter and takes charge of two channels in combination with a mosaic filter built in CCD1 having RGB output. It forms a single-axis image acquisition machine that can simultaneously acquire 4-channel spectra for the same part of the object. The acquired information is sent to the notebook PC. General-purpose numerical analysis software installed on a PC (in this embodiment, software called MATLAB) receives such information and performs the above-described various image recognition processes. Appropriate flags such as an obstacle flag and various traffic signal flags are set based on the image recognition processing result, and the flag is sent to the audio output module.

画像処理実施例
画像認識処理の実施例として、4chスペクトル情報を用いたニューラルネットによる識別モデルと結果、歩行可能是非判別モデルと結果、階段認識のモデルと結果を示す。
1)4chスペクトル情報を用いた識別モデルおよび結果
本発明による視覚障害者用画像認識装置において、4chスペクトル情報を用いた使用して、道路上のある光景(道路、白線、水溜り、青信号、赤信号を含む画像)を解析しその識別結果(道路、白線、水溜り、青信号、赤信号)を表1のコンフュージョンマトリクスに示す。

Figure 2005266014
Image Processing Example As an example of the image recognition processing, a discrimination model and result by a neural network using 4ch spectrum information, a walkable right and wrong discrimination model and result, a staircase recognition model and result are shown.
1) Identification model and results using 4ch spectrum information In the image recognition apparatus for visually impaired persons according to the present invention, using 4ch spectrum information, a certain scene on the road (road, white line, puddle, blue light, red light) The image including the signal is analyzed and the identification results (road, white line, puddle, blue light, red light) are shown in the confusion matrix in Table 1.
Figure 2005266014

表1の対角成分より算出される識別成績は平均約90%となっており、実用に絶えうることが期待できる。盲人用タイルプレートや白線の追尾、信号認識などにその結果は用いることができる。特に、安全面での重要性の高い交通信号の青・赤の認識率が高いことは、本発明による技法の有用性を示すものである。
また、実際に本発明による装置で測定した4chそれぞれの画像を図7と図8に示す。図7は歩行者用信号機(LED、青)を撮影したものであるが、それぞれのチャンネルで明確な差があらわれていることが分かる。即ち、青、及び緑のスペクトル画像では、図に示すように青信号の「人の形状のマーク」を非常にシャープに捉えることができる。同様に、図8は歩行者用信号機(LED、赤)を撮影したものであり、赤のスペクトル画像では、図に示すように、赤信号の「マーク」を非常にシャープに捉えることができる。
The discrimination results calculated from the diagonal components in Table 1 average about 90% and can be expected to be practical. The results can be used for blind tile plates, tracking of white lines, signal recognition, etc. In particular, the high recognition rate of blue and red for traffic signals that are highly important in terms of safety indicates the usefulness of the technique according to the present invention.
7 and 8 show the images of the four channels actually measured by the apparatus according to the present invention. FIG. 7 is a picture of a pedestrian traffic light (LED, blue). It can be seen that there is a clear difference between the channels. That is, in the blue and green spectral images, as shown in the figure, the “human-shaped mark” of the blue signal can be captured very sharply. Similarly, FIG. 8 is a photograph of a pedestrian traffic light (LED, red), and in the red spectrum image, as shown in the figure, the “mark” of the red signal can be captured very sharply.

2)歩行可能是非判別モデルと結果
図9は、廊下を撮影した画像であり、この元画像を部分ごとに2次元フーリエ変換し、まとめ前述の式で2値化したものが図10である。床面に比べ壁の部分では特徴的な白い画像がえられることが分かる。この局所ごとに輝度値を累計し、それをパワーとし表示したものが図11である。歩行可能な床面はパワーが低く、壁やエッジとは明確に区別することができる。
図12に廊下の画像の別の例を示す。図より歩行可能な廊下部分は安全域、注意しなければならない緑部(エッジ)は危険域として認識できていることがわかる。この危険領域が画像内指定域に進入した段階で、ユーザーに警告信号を音声により渡して危険を知らせる。
2) Walkable right and wrong discrimination model and result FIG. 9 shows an image of a corridor, and FIG. 10 shows an image obtained by subjecting this original image to a two-dimensional Fourier transform for each part and binarizing the above equation. It can be seen that a characteristic white image can be obtained in the wall portion compared to the floor surface. FIG. 11 shows the accumulated luminance values for each local area and displays them as power. Walkable floors have low power and can be clearly distinguished from walls and edges.
FIG. 12 shows another example of the corridor image. It can be seen from the figure that the corridor that can be walked is recognized as a safety zone, and the green part (edge) that should be noted is recognized as a danger zone. When the dangerous area enters the designated area in the image, a warning signal is delivered to the user by voice to notify the danger.

3)階段認識のモデルと結果
図13に上り階段の取得画像例(図の左の画像)、エッジ抽出画像例(図の右の画像)、図14に、図13の画像のラドン変換画像の輝度値を示す。
図より、上り階段進入時には90°付近の直線成分が複数存在していることがわかる。この特徴量を検出するため、中央部60°から120°の輝度値をスキャンし、0から4の5レベルに判別したもの(判別の鮮明化のためレベル1は強制的にレベル0にした)を図15に示す。図より、上り階段進入時にはレベル2以上の連続または独立した存在がふたつ(以上)存在することがわかる。
3) Staircase recognition model and results FIG. 13 shows an example of an acquired image of an upstairs (left image in the figure), an example of an edge extraction image (right image in the figure), and FIG. 14 shows a Radon transform image of the image in FIG. Indicates the luminance value.
From the figure, it can be seen that there are multiple linear components around 90 ° when entering the upstairs. In order to detect this feature amount, the luminance value from 60 ° to 120 ° in the central part is scanned and discriminated to 5 levels from 0 to 4 (level 1 was forcibly set to level 0 for clarity of discrimination) Is shown in FIG. From the figure, it can be seen that there are two (or more) continuous or independent entities of level 2 or higher when entering the upstairs.

次に図16に下り階段の取得画像例(図の左の画像)、エッジ抽出画像例(図の右の画像)、図17に、図16の画像のラドン変換画像の輝度値を示す。
図より、下り階段進入時には90°付近の直線成分が連続的に存在していることがわかる。この特徴量を検出するため、中央部60°から120°の輝度値をスキャンし、5レベルに判別したもの(判別の鮮明化のためレベル1は強制的にレベル0にした)を図18に示す。図より、下り階段画像の中央部上に見られる特徴的な直線の反復が、レベル2以上の3連続という形で表れていることが、この3連続を下り階段に特有のものとして、判別を行う。
Next, FIG. 16 shows an example of a descending staircase acquired image (left image in the figure), an edge extracted image example (right image in the figure), and FIG. 17 shows the luminance values of the Radon converted image of the image in FIG.
From the figure, it can be seen that there is a continuous linear component around 90 ° when entering the downstairs. In order to detect this feature quantity, the luminance value from the central part 60 ° to 120 ° is scanned and discriminated into five levels (level 1 is forcibly set to level 0 for the sake of discrimination) in FIG. Show. From the figure, it can be identified that the repetition of the characteristic straight line seen on the center of the descending staircase image appears in the form of 3 consecutive levels above level 2. Do.

これらの特徴から上り階段と下り階段を識別する。条件をまとめると以下のとおりである。
(1)ラドン変換画像の中央部60°から120°の輝度値をスキャンし、輝度値を各5レベルに判別する
(2)レベル3以上の3(以上の)連続が存在すれば、下り階段の可能性を通告する
(3)上述の条件を満たさない場合で、レベル2以上の連続または独立した存在がふたつ(以上)ある場合、上り階段の可能性を通告する
(4)上記二つの条件を満たさない場合、階段は存在しない可能性を通告する
この判定システムを廊下歩行動画に適用したが、「階段なし」という結果を得た。そして、下りおよび上り階段進入動画に適用した結果を図19、図20に示す。図の縦軸は判定結果を示し、0が階段なし、1が上り階段、2が下り階段の判定を示す。階段進入時に階段の存在の認識、上り下りの判別ができていることが分かる。
From these characteristics, the upstairs and downstairs are identified. The conditions are summarized as follows.
(1) Scan the luminance value from 60 ° to 120 ° in the center of the Radon conversion image, and discriminate the luminance value into 5 levels. (2) If there are 3 (or more) continuations of level 3 or higher, descending stair (3) If the above conditions are not met and there are two (or more) continuous or independent entities of level 2 or higher, notify the possibility of ascending stairs (4) The above two conditions If the condition is not satisfied, the possibility that there is no staircase is notified. This judgment system was applied to the corridor walking video, and the result was “no staircase”. And the result applied to the going down and up stairway approach animation is shown in FIG. 19 and FIG. The vertical axis in the figure indicates the determination result, where 0 indicates no staircase, 1 indicates an upstairs, and 2 indicates a downstairs. It can be seen that the presence of stairs and the up / down discrimination can be made when entering the stairs.

4)統合的な障害判断
これまで取得した画像の評価のため、色特徴、周波数特性、輪郭線の直線性、という視点からみた特性値を取得しそれぞれの結果を得た。これらを統合的に判断するためメタクラスの処理系を据える。図21にその概念図を示す。
図のように、それぞれの視点から見た特徴評価は並列に存在する(特徴評価の視点は増設可能)。それらの上位クラスで統合的に状況を判断するものとして学習済みのニューラルネットワークを置く。この学習は一般的な階段、廊下、道を学習したものでもよいし、もしユーザーの歩行する区域が限定されたものであるならば、その実データをもとに学習させればなおよい。このニューラルネットワークが最終的な判断(コースアウト、歩行警告、安全信号)を出すこととなる。
以上、詳述したように、本発明による手法によれば、街路上の画像をオンライン自動解析し、視覚障害者が街路を歩行するのに障害となる対象物の情報や、歩行支援情報を高い精度で自動生成し、音声等によって視覚障害者に提供することが可能になる。
4) Integrated failure judgment For evaluation of the acquired images, characteristic values from the viewpoints of color characteristics, frequency characteristics, and linearity of the contour line were acquired and the respective results were obtained. In order to judge these in an integrated manner, a metaclass processing system is installed. FIG. 21 shows a conceptual diagram thereof.
As shown in the figure, the feature evaluations seen from each viewpoint exist in parallel (the feature evaluation viewpoints can be expanded). A learned neural network is placed as an integrated judgment of the situation in these upper classes. This learning may be performed by learning a general staircase, corridor, or road, and if the area where the user walks is limited, the learning may be performed based on the actual data. This neural network will give a final decision (out of course, walking warning, safety signal).
As described above, according to the method of the present invention, the image on the street is automatically analyzed online, and the information on the target object and the walking support information are high when the visually handicapped person walks on the street. It can be automatically generated with accuracy and provided to visually impaired persons by voice or the like.

本発明による視覚障害者用画像認識装置の基本的な構成を示すブロック図であある。It is a block diagram which shows the basic composition of the image recognition apparatus for visually impaired persons by this invention. 本発明による視覚障害者用画像認識装置の具体的な装置構成例を示すブロック図である。It is a block diagram which shows the specific apparatus structural example of the image recognition apparatus for visually impaired persons by this invention. 本発明による装置に搭載するセンサ部の構成図である。It is a block diagram of the sensor part mounted in the apparatus by this invention. 入力画像の分割の例を示す図である。It is a figure which shows the example of the division | segmentation of an input image. LED式交通信号機の発光スペクトル強度特性を示す図である。It is a figure which shows the emission spectrum intensity | strength characteristic of an LED type traffic signal apparatus. 本発明による視覚障害者用画像認識装置の実施態様で使用するセンサ部の平面図である。It is a top view of the sensor part used with the embodiment of the image recognition apparatus for visually impaired persons by this invention. 実際に本発明による装置で測定した4chそれぞれの画像(青信号)である。It is an image (blue signal) of each of four channels actually measured by the apparatus according to the present invention. 実際に本発明による装置で測定した4chそれぞれの画像(赤信号)である。It is an image (red signal) for each of four channels actually measured by the apparatus according to the present invention. 廊下を撮影した画像である。It is the image which imaged the corridor. 図9の画像を部分ごとに2次元フーリエ変換し、前述の式で2値化した図である。FIG. 10 is a diagram in which the image of FIG. 9 is subjected to two-dimensional Fourier transform for each part and binarized by the above formula. 図9の画像において局所ごとに輝度値を累計し、それをパワーとし表示した図である。It is the figure which accumulated the luminance value for every local in the image of FIG. 9, and displayed it as power. 廊下の画像の別の例を示す画像である。It is an image which shows another example of the image of a hallway. 上り階段の取得画像例(図の左の画像)及びエッジ抽出画像例(図の右の画像)を示す図である。It is a figure which shows the acquisition image example (left image of a figure) of an upstairs, and the edge extraction image example (right image of a figure). 図13の画像のラドン変換画像の輝度値を示すグラフであるIt is a graph which shows the luminance value of the radon conversion image of the image of FIG. 図13の画像を判別した結果を示す図である。It is a figure which shows the result of having discriminate | determined the image of FIG. 下り階段の取得画像例(図の左の画像)及びエッジ抽出画像例(図の右の画像)を示す図である。It is a figure which shows the acquisition image example (left image of a figure) of a downstairs, and the edge extraction image example (right image of a figure). 図16の画像のラドン変換画像の輝度値を示すグラフである。It is a graph which shows the luminance value of the Radon conversion image of the image of FIG. 図16の画像を判別した結果を示す図である。It is a figure which shows the result of having discriminate | determined the image of FIG. 下り階段進入動画に適用した結果を示す図である。It is a figure which shows the result applied to the descent | stairs approaching animation. 上り階段進入動画に適用した結果を示す図である。It is a figure which shows the result applied to the upstairs approach moving image. 統合的判断のメタクラスの処理系の概念図である。It is a conceptual diagram of the processing system of the metaclass of integrated judgment.

符号の説明Explanation of symbols

10 視覚障害者用画像認識装置
20 マルチスペクトル画像センサ
30 姿勢センサ
40 画像認識処理手段
41 処理モード設定部
42 画像認識部
43 ラドン変換手段
44 階段認識手段
45 ニューラルネットワーク
46 支援情報出力手段
50 処理モード制御(強制切替)手段
60 音響信号生成手段
70 音響信号再生手段
80 マルチスペクトル画像センサ
82 処理モード切替器
84 3次元加速度センサ
86 センサ姿勢算出器
88 強制処理スイッチ
90 画像認識処理部
92 音響信号発生器
94 スピーカ
100 3D加速度センサ
102 CCDカメラ
104 フィルタ・レンズ
106 グリップ部
110 入力画像
112 小領域
DESCRIPTION OF SYMBOLS 10 Image recognition apparatus for visually impaired people 20 Multispectral image sensor 30 Posture sensor 40 Image recognition processing means 41 Processing mode setting part 42 Image recognition part 43 Radon conversion means 44 Staircase recognition means 45 Neural network 46 Support information output means 50 Processing mode control (Forced switching) means 60 Acoustic signal generating means 70 Acoustic signal reproducing means 80 Multispectral image sensor 82 Processing mode switch 84 Three-dimensional acceleration sensor 86 Sensor attitude calculator 88 Forced processing switch 90 Image recognition processing unit 92 Acoustic signal generator 94 Speaker 100 3D acceleration sensor 102 CCD camera 104 Filter lens 106 Grip part 110 Input image 112 Small area

Claims (9)

視覚障害者用画像認識装置であって、
波長帯域が各々異なる複数の画像を同時に取得するマルチスペクトル画像センサと、
前記装置の姿勢情報を取得する姿勢センサと、
前記姿勢センサで取得された前記姿勢情報に基づき、交通信号標識が発する光の波長を含むような波長帯域を持つ画像に対して画像認識処理を行う交通信号標識認識処理モード、通常の画像認識処理を行う障害物認識処理モード、及び、前記複数の画像の各々の中心部に限定して画像認識処理を行う路面認識処理モードを含む複数の処理モードのうちの1つを選択し、この選択された処理モードで前記複数の画像の少なくとも1つの画像の認識処理を行う画像認識処理手段と、
前記画像認識処理手段による画像認識処理の結果に応じて音響信号を生成する音響信号生成手段と、
を具えることを特徴とする視覚障害者用画像認識装置。
An image recognition device for a visually impaired person,
A multispectral image sensor that simultaneously acquires a plurality of images each having a different wavelength band; and
An attitude sensor for acquiring attitude information of the device;
Traffic signal sign recognition processing mode for performing image recognition processing on an image having a wavelength band including the wavelength of light emitted by the traffic signal sign based on the posture information acquired by the posture sensor, normal image recognition processing One of a plurality of processing modes including an obstacle recognition processing mode for performing image recognition and a road surface recognition processing mode for performing image recognition processing limited to the center of each of the plurality of images. Image recognition processing means for performing recognition processing of at least one of the plurality of images in the processing mode,
Acoustic signal generating means for generating an acoustic signal according to the result of the image recognition processing by the image recognition processing means;
An image recognition apparatus for the visually impaired, comprising:
請求項1に記載の視覚障害者用画像認識装置において、
前記複数の処理モードのうちのユーザが所望する処理モードに強制的に設定して動作するよう前記画像認識処理手段を制御する処理モード制御手段、
を具えることを特徴とする視覚障害者用画像認識装置。
The image recognition apparatus for a visually impaired person according to claim 1,
A processing mode control means for controlling the image recognition processing means to forcibly set and operate in a processing mode desired by a user among the plurality of processing modes;
An image recognition apparatus for the visually impaired, comprising:
請求項1または2に記載の視覚障害者用画像認識装置において、
前記画像認識手段は、前記複数の画像の少なくとも1つの画像を複数の領域に分割し、領域ごとにフーリエ変換し領域ごとに輝度値の変化量を示す特徴量であるパワーを求めるパワー算出手段を含む、
ことを特徴とする視覚障害者用画像認識装置。
The image recognition apparatus for visually impaired persons according to claim 1 or 2,
The image recognition means includes power calculation means for dividing at least one image of the plurality of images into a plurality of areas, performing Fourier transform for each area, and obtaining power that is a feature quantity indicating a change amount of a luminance value for each area. Including,
An image recognition apparatus for visually impaired persons.
請求項1〜3のいずれか1項に記載の視覚障害者用画像認識装置において、
前記画像認識手段は、
前記複数の画像の少なくとも1つの画像の全領域をラドン変換するラドン変換手段と、
前記ラドン変換された画像を複数の領域に分割し各領域内の最大輝度値を求め、所定の輝度値を越える領域の配置パターンに基づき階段を識別する階段識別手段と、を含む、
ことを特徴とする視覚障害者用画像認識装置。
The image recognition apparatus for a visually impaired person according to any one of claims 1 to 3,
The image recognition means includes
Radon conversion means for performing Radon conversion on the entire area of at least one of the plurality of images;
A step identification unit that divides the Radon transformed image into a plurality of regions, obtains a maximum luminance value in each region, and identifies a step based on an arrangement pattern of regions exceeding a predetermined luminance value;
An image recognition apparatus for visually impaired persons.
請求項1〜4のいずれか1項に記載の視覚障害者用画像認識装置において、
前記マルチスペクトル画像センサは、
画像を撮影する撮影手段と、
複数の波長帯域の光を通過させる光学バンドパスフィルタと、を含む、
ことを特徴とする視覚障害者用画像認識装置。
In the image recognition apparatus for visually impaired persons according to any one of claims 1 to 4,
The multispectral image sensor is
Photographing means for photographing an image;
An optical bandpass filter that passes light of a plurality of wavelength bands,
An image recognition apparatus for visually impaired persons.
請求項1〜5のいずれか1項に記載の視覚障害者用画像認識装置において、
前記姿勢センサは、3次元加速度センサを含み、
前記装置は、
前記3次元加速度センサが前記装置がほぼ静止状態であると認識したときのみ、前記複数の画像を取得するよう前記マルチスペクトル画像センサを制御する画像センサ制御手段を具える、
ことを特徴とする視覚障害者用画像認識装置。
In the image recognition apparatus for visually impaired persons according to any one of claims 1 to 5,
The posture sensor includes a three-dimensional acceleration sensor,
The device is
Image sensor control means for controlling the multispectral image sensor to acquire the plurality of images only when the three-dimensional acceleration sensor recognizes that the device is substantially stationary.
An image recognition apparatus for visually impaired persons.
請求項1〜6のいずれか1項に記載の視覚障害者用画像認識装置において、
前記画像認識処理手段は、
画像から得られた学習用スペクトル特性、学習用周波数特性、及び学習用エッジの直線性を含む特性データと前記画像における実際の状況を記述した教師データとで予め学習させてあるニューラルネットワークと、
前記ニューラルネットワークを使用して前記複数の画像から取得したスペクトル特性、周波数特性及びエッジの直線性に基づき、歩行支援情報を出力する支援情報出力手段と、を含み、
前記音響信号生成手段は、前記歩行支援情報に基づき前記音響信号を生成する、
ことを特徴とする視覚障害者用画像認識装置。
In the image recognition apparatus for visually impaired persons according to any one of claims 1 to 6,
The image recognition processing means includes
A neural network that has been pre-trained with characteristic data including the spectral characteristics for learning obtained from the image, frequency characteristics for learning, and linearity of the edge for learning, and teacher data describing the actual situation in the image;
Support information output means for outputting walking support information based on spectral characteristics, frequency characteristics and edge linearity acquired from the plurality of images using the neural network,
The acoustic signal generating means generates the acoustic signal based on the walking support information.
An image recognition apparatus for visually impaired persons.
視覚障害者用画像認識方法であって、
波長帯域が各々異なる複数の画像をマルチスペクトル画像センサを使用して同時に取得するマルチスペクトル画像センシングステップと、
前記マルチスペクトル画像センサの姿勢情報を姿勢センサを使用して取得する姿勢センシングステップと、
前記姿勢センシングステップで取得された前記姿勢情報に基づき、交通信号標識が発する光の波長を含むような波長帯域を持つ画像に対して画像認識処理を行う交通信号標識認識処理モード、通常の画像認識処理を行う障害物認識処理モード、及び、前記複数の画像の各々の中心部に限定して画像認識処理を行う路面認識処理モードを含む複数の処理モードのうちの1つを選択し、この選択された処理モードで前記複数の画像の少なくとも1つの画像の認識処理を演算手段を使用して行う画像認識処理ステップと、
前記画像認識処理ステップによる画像認識処理の結果に応じて、演算手段及び信号生成回路を使用して音響信号を生成する音響信号生成ステップと、
を含むことを特徴とする視覚障害者用画像認識方法。
An image recognition method for the visually impaired,
A multispectral image sensing step of simultaneously acquiring a plurality of images having different wavelength bands using a multispectral image sensor;
Attitude sensing step for obtaining attitude information of the multispectral image sensor using an attitude sensor;
Based on the posture information acquired in the posture sensing step, a traffic signal sign recognition processing mode for performing image recognition processing on an image having a wavelength band including a wavelength of light emitted by a traffic signal sign, normal image recognition Select one of a plurality of processing modes including an obstacle recognition processing mode for performing processing and a road surface recognition processing mode for performing image recognition processing limited to the center of each of the plurality of images. An image recognition processing step of performing recognition processing of at least one image of the plurality of images using a calculation means in the processed mode,
According to the result of the image recognition processing by the image recognition processing step, an acoustic signal generation step of generating an acoustic signal using a calculation means and a signal generation circuit;
An image recognition method for the visually impaired, characterized by comprising:
視覚障害者用画像認識方法をコンピュータに実行させるための視覚障害者用画像認識プログラムであって
波長帯域が各々異なる複数の画像をマルチスペクトル画像センサを使用して同時に取得するマルチスペクトル画像センシングステップと、
前記マルチスペクトル画像センサの姿勢情報を姿勢センサを使用して取得する姿勢センシングステップと、
前記姿勢センシングステップで取得された前記姿勢情報に基づき、交通信号標識が発する光の波長を含むような波長帯域を持つ画像に対して画像認識処理を行う交通信号標識認識処理モード、通常の画像認識処理を行う障害物認識処理モード、及び、前記複数の画像の各々の中心部に限定して画像認識処理を行う路面認識処理モードを含む複数の処理モードのうちの1つを選択し、この選択された処理モードで前記複数の画像の少なくとも1つの画像の認識処理を行う画像認識処理ステップと、
前記画像認識処理ステップによる画像認識処理の結果に応じて、信号生成回路を使用して音響信号を生成する音響信号生成ステップと、
を含むことを特徴とする視覚障害者用画像認識プログラム。

A multi-spectral image sensing step for simultaneously obtaining a plurality of images having different wavelength bands using a multi-spectral image sensor for causing a computer to execute an image recognition method for the visually impaired ,
Attitude sensing step for obtaining attitude information of the multispectral image sensor using an attitude sensor;
Based on the posture information acquired in the posture sensing step, a traffic signal sign recognition processing mode for performing image recognition processing on an image having a wavelength band including a wavelength of light emitted by a traffic signal sign, normal image recognition Select one of a plurality of processing modes including an obstacle recognition processing mode for performing processing and a road surface recognition processing mode for performing image recognition processing limited to the center of each of the plurality of images. An image recognition processing step for recognizing at least one of the plurality of images in the processed mode,
An acoustic signal generation step of generating an acoustic signal using a signal generation circuit according to the result of the image recognition processing by the image recognition processing step;
An image recognition program for the visually impaired, characterized by comprising:

JP2004075251A 2004-03-16 2004-03-16 Image recognition apparatus, method and program for visually handicapped person Expired - Lifetime JP3837572B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004075251A JP3837572B2 (en) 2004-03-16 2004-03-16 Image recognition apparatus, method and program for visually handicapped person

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004075251A JP3837572B2 (en) 2004-03-16 2004-03-16 Image recognition apparatus, method and program for visually handicapped person

Publications (2)

Publication Number Publication Date
JP2005266014A true JP2005266014A (en) 2005-09-29
JP3837572B2 JP3837572B2 (en) 2006-10-25

Family

ID=35090669

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004075251A Expired - Lifetime JP3837572B2 (en) 2004-03-16 2004-03-16 Image recognition apparatus, method and program for visually handicapped person

Country Status (1)

Country Link
JP (1) JP3837572B2 (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007077534A1 (en) * 2006-01-06 2007-07-12 Koninklijke Philips Electronics N.V. Sound device with informative sound signal
JP2007264472A (en) * 2006-03-29 2007-10-11 Toshiba Corp Position detection device, autonomous mobile device, position detection method, and position detection program
US10748000B2 (en) 2015-02-06 2020-08-18 Samsung Electronics Co., Ltd. Method, electronic device, and recording medium for notifying of surrounding situation information
WO2020170815A1 (en) * 2019-02-21 2020-08-27 国立研究開発法人宇宙航空研究開発機構 Monitoring device and monitoring method
US10936912B2 (en) 2018-11-01 2021-03-02 International Business Machines Corporation Image classification using a mask image and neural networks
KR102407126B1 (en) * 2021-09-13 2022-06-08 김규석 Smart glasses system for the visually and hearing impaired with shape and color recognition cameras

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1157216A (en) * 1997-08-15 1999-03-02 Sony Corp Game device
JP2001075705A (en) * 1999-08-31 2001-03-23 Toshiba Corp Device and method for indicating direction by utilizing sense of touch
JP2002065721A (en) * 2000-08-29 2002-03-05 Komatsu Ltd Device and method for supporting environmental recognition for visually handicapped
JP2002209206A (en) * 2000-10-23 2002-07-26 Ecchandesu:Kk Information collecting system, artificial eye, visual device, image sensor and interlocking device
JP2003023699A (en) * 2001-07-05 2003-01-24 Saibuaasu:Kk Spatial information auralizing system and spatial information auralizing method
JP2003203294A (en) * 2001-08-04 2003-07-18 Daimlerchrysler Ag Method for improving view in vehicles
JP2005051791A (en) * 2003-07-30 2005-02-24 Daimler Chrysler Ag Sensor array with a number of types of optical sensors
JP2005515930A (en) * 2002-01-28 2005-06-02 ダイムラークライスラー・アクチェンゲゼルシャフト In-vehicle infrared night vision system

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1157216A (en) * 1997-08-15 1999-03-02 Sony Corp Game device
JP2001075705A (en) * 1999-08-31 2001-03-23 Toshiba Corp Device and method for indicating direction by utilizing sense of touch
JP2002065721A (en) * 2000-08-29 2002-03-05 Komatsu Ltd Device and method for supporting environmental recognition for visually handicapped
JP2002209206A (en) * 2000-10-23 2002-07-26 Ecchandesu:Kk Information collecting system, artificial eye, visual device, image sensor and interlocking device
JP2003023699A (en) * 2001-07-05 2003-01-24 Saibuaasu:Kk Spatial information auralizing system and spatial information auralizing method
JP2003203294A (en) * 2001-08-04 2003-07-18 Daimlerchrysler Ag Method for improving view in vehicles
JP2005515930A (en) * 2002-01-28 2005-06-02 ダイムラークライスラー・アクチェンゲゼルシャフト In-vehicle infrared night vision system
JP2005051791A (en) * 2003-07-30 2005-02-24 Daimler Chrysler Ag Sensor array with a number of types of optical sensors

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"色弱者のための信号認識システム−信号機特定判別手法の一考察−", 電子情報通信学会2004年総合大会講演論文集 情報・システム2, CSNJ200510014188, 8 March 2004 (2004-03-08), JP, pages 188, ISSN: 0000735633 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007077534A1 (en) * 2006-01-06 2007-07-12 Koninklijke Philips Electronics N.V. Sound device with informative sound signal
JP2007264472A (en) * 2006-03-29 2007-10-11 Toshiba Corp Position detection device, autonomous mobile device, position detection method, and position detection program
JP4675811B2 (en) * 2006-03-29 2011-04-27 株式会社東芝 Position detection device, autonomous mobile device, position detection method, and position detection program
US8045418B2 (en) 2006-03-29 2011-10-25 Kabushiki Kaisha Toshiba Position detecting device, autonomous mobile device, method, and computer program product
US10748000B2 (en) 2015-02-06 2020-08-18 Samsung Electronics Co., Ltd. Method, electronic device, and recording medium for notifying of surrounding situation information
US10936912B2 (en) 2018-11-01 2021-03-02 International Business Machines Corporation Image classification using a mask image and neural networks
US11586851B2 (en) 2018-11-01 2023-02-21 International Business Machines Corporation Image classification using a mask image and neural networks
WO2020170815A1 (en) * 2019-02-21 2020-08-27 国立研究開発法人宇宙航空研究開発機構 Monitoring device and monitoring method
JP2020134347A (en) * 2019-02-21 2020-08-31 国立研究開発法人宇宙航空研究開発機構 Monitoring device and method for monitoring
JP7320214B2 (en) 2019-02-21 2023-08-03 国立研究開発法人宇宙航空研究開発機構 Monitoring device and monitoring method
KR102407126B1 (en) * 2021-09-13 2022-06-08 김규석 Smart glasses system for the visually and hearing impaired with shape and color recognition cameras

Also Published As

Publication number Publication date
JP3837572B2 (en) 2006-10-25

Similar Documents

Publication Publication Date Title
JP6144656B2 (en) System and method for warning a driver that visual recognition of a pedestrian may be difficult
JP6384182B2 (en) Method and apparatus for detecting linear indicating sign on road
US7230538B2 (en) Apparatus and method for identifying surrounding environment by means of image processing and for outputting the results
JP4623135B2 (en) Image recognition device
Reisman et al. Crowd detection in video sequences
JP4470067B2 (en) Object type determination device, vehicle
KR102099265B1 (en) System and method for pedestrian-vehicle collision warning based on pedestrian state
KR101054025B1 (en) Visually impaired walking guidance method and system
JP2007241740A (en) Vehicle periphery monitoring device
JP2006251596A (en) Support device for visually handicapped person
JP7018607B2 (en) Moving object detection device and moving object detection method
Tian et al. Dynamic crosswalk scene understanding for the visually impaired
JP2007293627A (en) Periphery monitoring device for vehicle, vehicle, periphery monitoring method for vehicle and periphery monitoring program for vehicle
JP2005316607A (en) Image processor and image processing method
JP5530530B2 (en) Vehicle periphery monitoring device
Ghilardi et al. A new approach for automatic detection of tactile paving surfaces in sidewalks
JPH10334207A (en) Human stream measuring instrument
JP2021511556A (en) Use of silhouettes for high-speed object recognition
CN103186905A (en) Color detector for vehicle
JP2005332071A (en) System for tracking visually handicapped person and method for detecting visually handicapped person
JP2010134927A (en) Monitoring method and monitoring device using hierarchical appearance model
JP3837572B2 (en) Image recognition apparatus, method and program for visually handicapped person
CN107045630A (en) A kind of pedestrian detection and personal identification method and system based on RGBD
JP2016192146A (en) Traffic control system, traffic control method, program and recording medium
JP5642785B2 (en) Vehicle periphery monitoring device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040316

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20040521

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20040712

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060516

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150