KR20230082758A - METHOD AND DEVICE FOR Task-oriented Sounding Guide with Object Detection to Guide Visually Impaired People During Smart Device Usage - Google Patents

METHOD AND DEVICE FOR Task-oriented Sounding Guide with Object Detection to Guide Visually Impaired People During Smart Device Usage Download PDF

Info

Publication number
KR20230082758A
KR20230082758A KR1020210170523A KR20210170523A KR20230082758A KR 20230082758 A KR20230082758 A KR 20230082758A KR 1020210170523 A KR1020210170523 A KR 1020210170523A KR 20210170523 A KR20210170523 A KR 20210170523A KR 20230082758 A KR20230082758 A KR 20230082758A
Authority
KR
South Korea
Prior art keywords
target button
fingertip
user
processor
acoustic guide
Prior art date
Application number
KR1020210170523A
Other languages
Korean (ko)
Other versions
KR102593866B1 (en
Inventor
고인영
아카푸싯 피라폰
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to KR1020210170523A priority Critical patent/KR102593866B1/en
Publication of KR20230082758A publication Critical patent/KR20230082758A/en
Application granted granted Critical
Publication of KR102593866B1 publication Critical patent/KR102593866B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/451Execution arrangements for user interfaces
    • G06F9/453Help systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Neurology (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Acoustics & Sound (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

스마트 디바이스 사용 과정에서 시각 장애인의 객체 탐지를 돕기 위한 태스크 기반의 음향 가이드 방법 및 장치가 개시된다. 음향 가이드 방법은, 사용자 음성을 기초로 사용자가 활성화하고자 하는 기능의 인터페이스 객체를 타겟 버튼으로 지정하는 단계; 카메라를 통한 실시간 영상에서 상기 타겟 버튼과 상기 사용자의 손끝을 감지하는 단계; 및 상기 타겟 버튼과 상기 손끝에 대한 감지 결과에 따라 음향 가이드를 제공하는 단계를 포함할 수 있다.A task-based sound guide method and apparatus for assisting a blind person to detect an object while using a smart device are disclosed. The sound guide method includes designating an interface object of a function that a user wants to activate as a target button based on a user's voice; detecting the target button and the user's fingertip in a real-time image through a camera; and providing a sound guide according to a result of sensing the target button and the fingertip.

Figure P1020210170523
Figure P1020210170523

Description

스마트 디바이스 사용 과정에서 시각 장애인의 객체 탐지를 돕기 위한 태스크 기반의 음향 가이드 방법 및 장치{METHOD AND DEVICE FOR Task-oriented Sounding Guide with Object Detection to Guide Visually Impaired People During Smart Device Usage}METHOD AND DEVICE FOR Task-oriented Sounding Guide with Object Detection to Guide Visually Impaired People During Smart Device Usage}

아래의 설명은 스마트 디바이스에 대한 음향 가이드를 제공하는 기술에 관한 것이다.The description below relates to techniques for providing acoustic guides for smart devices.

가전제품 제어, 음식 주문, 온라인 뱅킹과 같은 우리 일상생활에서의 스마트 기기 사용이 최근 증가하고 있다.The use of smart devices in our daily lives, such as controlling home appliances, ordering food, and online banking, has recently increased.

그러나, 시각 장애가 있는 사용자는 스마트 기기와 애플리케이션을 사용하는 동안 몇 가지 어려움을 겪는다. 예를 들어, 스마트폰의 애플리케이션을 사용하거나 집에 있는 스마트 선풍기에서 옵션을 선택하려면 특정 아이콘이나 버튼을 찾아 터치해야 한다.However, visually impaired users face some difficulties while using smart devices and applications. For example, you have to find and touch a specific icon or button to use an application on your smartphone or select an option on a smart fan in your home.

현재 스마트 기기는 보통 시각 장애인의 보조 기능을 거의 고려하지 않고 설계된다. 대부분의 스마트폰에는 사용자들을 위해 화면의 내용을 읽어주는 화면 판독기가 설치되어 있지만 시각 장애인을 효과적으로 돕는데 실패하는 경우가 많다. 예를 들어, 사용자가 웹 브라우저의 URL 필드를 탭하는 경우 화면 판독기는 "링크"라고 말하게 되는데 이것만으로 사용자가 적절한 행동을 하기 애매하다. 스마트 선풍기와 같이 화면 판독기를 장착하기 어려운 기기의 경우 더욱 어려운 문제가 있다. 사용자가 버튼에 표시된 이미지 아이콘을 인식할 수 없기 때문에 시각 장애가 있는 사용자는 터치 버튼을 구별할 수 없다.Currently, smart devices are usually designed with little or no consideration for assistive functions for the visually impaired. Most smartphones come equipped with screen readers that read the contents of the screen for users, but they often fail to effectively help the visually impaired. For example, when a user taps the URL field of a web browser, the screen reader will say "link", which alone is unlikely to prompt the user to take appropriate action. The problem is even more difficult for devices that are difficult to equip with screen readers, such as smart fans. Since the user cannot recognize the image icon displayed on the button, a visually impaired user cannot distinguish the touch button.

점자 시스템과 화면 판독기는 시각 장애인을 돕는 전통적인 방법의 몇 가지 예이다. 그럼에도 불구하고 터치 화면을 주 사용자 인터페이스로 사용하는 스마트 기기의 다양한 특징과 옵션은 여전히 시각 장애인이 작업을 수행하기 위해 정확한 버튼이나 아이콘을 조작하는 데 어려움을 초래한다.Braille systems and screen readers are some examples of traditional methods of helping blind people. Nevertheless, the various features and options of smart devices that use a touch screen as the main user interface still cause difficulties in manipulating the correct buttons or icons to perform tasks for the visually impaired.

최근에는 시각 장애인이 스마트 기기에서 네이티브(native) 애플리케이션을 사용할 수 있도록 유용성 및 접근성 평가가 실시되고 있다. 일부 모바일 애플리케이션과 웹 인터페이스는 애플리케이션과 인터페이스로 일련의 사전 정의된 작업을 수행하도록 요청하여 시각 장애가 있는 피험자를 대상으로 테스트한 결과, 중요한 사용적합성 문제가 발견되었으며 그 중 하나는 사용자가 자신의 과제에 스마트 기기를 정확하게 활용할 수 있는 단계별 지침과 대화형 기능이 부족하다는 것이다. 즉, 시각 장애인이 스마트 기기와 상호작용하는 동안 무엇을 해야 하는지 구체적으로 돕기 위해 대화형 메시지 형태의 지침 제공이 필요하다.Recently, usability and accessibility evaluations are being conducted so that visually impaired people can use native applications on smart devices. When some mobile applications and web interfaces were tested with visually impaired subjects by asking the applications and interfaces to perform a set of predefined tasks, significant usability issues were discovered, one of which was that users were not able to perform a predefined task. It lacks step-by-step instructions and interactive features to properly utilize the smart device. In other words, it is necessary to provide instructions in the form of interactive messages to help visually impaired people specifically what to do while interacting with smart devices.

시각 장애가 있는 사용자를 대상으로 스마트 디바이스의 사용성과 접근성을 개선하기 위해 단계별 및 대화형 방식으로 사용자를 안내하는 태스크 지향적 접근 방식의 음향 가이드를 제공할 수 있다.In order to improve the usability and accessibility of smart devices for visually impaired users, an acoustic guide with a task-oriented approach that guides users in a step-by-step and interactive manner can be provided.

컴퓨터 시스템에서 수행되는 음향 가이드 방법에 있어서, 상기 컴퓨터 시스템이 포함하는 적어도 하나의 프로세서의 의해, 사용자 음성을 기초로 사용자가 활성화하고자 하는 기능의 인터페이스 객체를 타겟 버튼으로 지정하는 단계; 상기 적어도 하나의 프로세서의 의해, 카메라를 통한 실시간 영상에서 상기 타겟 버튼과 상기 사용자의 손끝을 감지하는 단계; 및 상기 적어도 하나의 프로세서의 의해, 상기 타겟 버튼과 상기 손끝에 대한 감지 결과에 따라 음향 가이드를 제공하는 단계를 포함하는 음향 가이드 방법을 제공한다.A sound guide method performed in a computer system, comprising: designating, by at least one processor included in the computer system, an interface object of a function to be activated by a user as a target button based on a user's voice; detecting, by the at least one processor, the target button and the user's fingertip in a real-time image through a camera; and providing, by the at least one processor, a sound guide according to a result of sensing the target button and the fingertip.

일 측면에 따르면, 상기 지정하는 단계는, 상기 사용자 음성을 텍스트로 변환하는 단계; 및 상기 텍스트에 대응되는 키워드의 인터페이스 객체를 상기 타겟 버튼으로 지정하는 단계를 포함할 수 있다.According to one aspect, the designating may include converting the user voice into text; and designating an interface object of a keyword corresponding to the text as the target button.

다른 측면에 따르면, 상기 감지하는 단계는, 손끝 이미지와 인터페이스 객체 이미지로 구성된 데이터셋으로 학습된 CNN(convolution neural network) 기반의 객체 인식 모델을 통해 상기 타겟 버튼과 상기 손끝의 위치를 추적하는 단계를 포함할 수 있다.According to another aspect, the detecting may include tracking the location of the target button and the fingertip through a convolution neural network (CNN)-based object recognition model trained with a dataset consisting of a fingertip image and an interface object image. can include

또 다른 측면에 따르면, 상기 감지하는 단계는, CNN 기반의 SSD(single-shot multibox detector)를 이용하여 상기 타겟 버튼과 상기 손끝의 위치에 따라 상기 사용자가 상기 타겟 버튼을 터치하는데 필요한 시간을 계산하는 단계를 포함할 수 있다.According to another aspect, the detecting may include calculating a time required for the user to touch the target button according to the position of the target button and the fingertip using a CNN-based single-shot multibox detector (SSD). steps may be included.

또 다른 측면에 따르면, 상기 음향 가이드를 제공하는 단계는, 카메라 영상에서 감지된 상기 타겟 버튼과 상기 손끝의 위치를 나타내는 경계 상자(bounding box) 좌표를 서로 비교하여 상기 타겟 버튼에 대한 상기 손끝의 이동 방향을 안내하는 단계를 포함할 수 있다.According to another aspect, the providing of the sound guide may include the movement of the fingertip relative to the target button by comparing coordinates of a bounding box indicating a position of the target button and the fingertip detected from a camera image with each other. It may include guiding directions.

또 다른 측면에 따르면, 상기 음향 가이드를 제공하는 단계는, 카메라 영상에 상기 타겟 버튼이 포착되는지 여부를 확인하는 단계; 상기 카메라 영상에 상기 타겟 버튼이 포착되면 상기 카메라 영상에서 상기 손끝의 위치를 찾는 단계; 상기 카메라 영상에서 상기 타겟 버튼과 상기 손끝의 위치를 비교하여 비교 결과에 따라 상기 손끝의 이동 방향에 대한 가이드 피드백을 제공하는 단계; 및 상기 손끝의 위치가 상기 타겟 버튼의 위치에 도달함에 따른 결과 피드백을 제공하는 단계를 포함할 수 있다.According to another aspect, the providing of the sound guide may include checking whether the target button is captured in a camera image; finding the position of the fingertip in the camera image when the target button is captured in the camera image; comparing positions of the target button and the fingertip in the camera image and providing guide feedback on a moving direction of the fingertip according to a comparison result; and providing feedback as a result of the location of the fingertip reaching the location of the target button.

또 다른 측면에 따르면, 상기 음향 가이드를 제공하는 단계는, 상기 카메라 영상에 상기 타겟 버튼이 포착되지 않으면 해당 감지 결과에 대한 음성 알림을 제공하는 단계를 더 포함할 수 있다.According to another aspect, the providing of the sound guide may further include providing a voice notification for a corresponding detection result when the target button is not captured in the camera image.

음향 가이드 방법을 컴퓨터에 실행시키기 위해 컴퓨터 판독가능한 기록 매체에 저장되는 컴퓨터 프로그램에 있어서, 상기 음향 가이드 방법은, 사용자 음성을 기초로 사용자가 활성화하고자 하는 기능의 인터페이스 객체를 타겟 버튼으로 지정하는 단계; 카메라를 통한 실시간 영상에서 상기 타겟 버튼과 상기 사용자의 손끝을 감지하는 단계; 및 상기 타겟 버튼과 상기 손끝에 대한 감지 결과에 따라 음향 가이드를 제공하는 단계를 포함하는, 컴퓨터 프로그램을 제공한다.A computer program stored in a computer readable recording medium to execute a sound guide method on a computer, the sound guide method comprising: designating an interface object of a function to be activated by a user as a target button based on a user's voice; detecting the target button and the user's fingertip in a real-time image through a camera; and providing a sound guide according to a result of sensing the target button and the fingertip.

컴퓨터로 구현되는 음향 가이드 시스템에 있어서, 메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는, 사용자 음성을 기초로 사용자가 활성화하고자 하는 기능의 인터페이스 객체를 타겟 버튼으로 지정하는 과정; 카메라를 통한 실시간 영상에서 상기 타겟 버튼과 상기 사용자의 손끝을 감지하는 과정; 및 상기 타겟 버튼과 상기 손끝에 대한 감지 결과에 따라 음향 가이드를 제공하는 과정을 처리하는 음향 가이드 시스템을 제공한다.A computer-implemented acoustic guide system comprising at least one processor configured to execute computer readable instructions included in a memory, wherein the at least one processor is configured to interface with a function that a user wants to activate based on a user's voice. The process of designating an object as a target button; detecting the target button and the user's fingertip in a real-time image through a camera; and a sound guide system that processes a process of providing a sound guide according to a result of sensing the target button and the fingertip.

본 발명의 실시예들에 따르면, 스마트 디바이스 사용 중 시각 장애인을 안내하기 위한 객체 감지 기능이 있는 태스크 지향적 접근 방식의 음향 가이드를 제공함으로써 시각 장애인들이 여러 환경에서 접하게 되는 다양한 스마트 디바이스를 쉽게 사용할 수 있다.According to the embodiments of the present invention, by providing a task-oriented sound guide with an object detection function for guiding the visually impaired while using the smart device, the visually impaired can easily use various smart devices encountered in various environments. .

도 1은 본 발명의 일실시예에 있어서 컴퓨터 장치의 내부 구성의 일례를 설명하기 위한 블록도이다.
도 2는 본 발명에 따른 음향 가이드를 사용하는 환경 예시를 도시한 것이다.
도 3은 본 발명의 일실시예에 있어서 음향 가이드 방법의 일례를 도시한 순서도이다.
도 4는 본 발명의 일실시예에 있어서 스마트 디바이스에서 사용되는 아이콘 예시를 도시한 것이다.
도 5는 기계학습을 위한 텐서보드(tensorboard)에 의해 생성된 손실 점수 그래프를 도시한 것이다.
도 6은 본 발명의 일실시예에 있어서 인터페이스 객체 및 손끝을 감지하는 과정의 알고리즘 예시를 도시한 것이다.
도 7은 본 발명의 일실시예에 있어서 알림을 위한 음성 출력을 생성하는 과정의 알고리즘 예시를 도시한 것이다.
1 is a block diagram for explaining an example of an internal configuration of a computer device according to an embodiment of the present invention.
Figure 2 shows an example of an environment using an acoustic guide according to the present invention.
3 is a flowchart illustrating an example of a sound guide method according to an embodiment of the present invention.
4 illustrates an example of an icon used in a smart device according to an embodiment of the present invention.
Figure 5 shows a loss score graph generated by tensorboard for machine learning.
6 illustrates an example algorithm of a process of detecting an interface object and a fingertip according to an embodiment of the present invention.
7 illustrates an example algorithm of a process of generating a voice output for notification in one embodiment of the present invention.

이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.

본 발명의 실시예들은 스마트 디바이스에 대한 음향 가이드를 제공하는 기술에 관한 것이다.Embodiments of the present invention relate to techniques for providing acoustic guides for smart devices.

본 명세서에서 구체적으로 개시되는 것들을 포함하는 실시예들은 스마트 디바이스 사용 중 시각 장애인을 안내하기 위한 객체 감지 기능이 있는 태스크 지향적 접근 방식의 음향 가이드를 제공할 수 있다.Embodiments including those specifically disclosed herein may provide an acoustic guide of a task-oriented approach having an object detection function for guiding a blind person while using a smart device.

도 1은 본 발명의 일실시예에 따른 컴퓨터 장치의 예를 도시한 블록도이다. 예를 들어, 본 발명의 실시예들에 따른 음향 가이드 시스템은 도 1을 통해 도시된 컴퓨터 장치(100)에 의해 구현될 수 있다.1 is a block diagram illustrating an example of a computer device according to one embodiment of the present invention. For example, an acoustic guide system according to embodiments of the present invention may be implemented by the computer device 100 shown in FIG. 1 .

도 1에 도시된 바와 같이 컴퓨터 장치(100)는 본 발명의 실시예들에 따른 음향 가이드 방법을 실행하기 위한 구성요소로서, 메모리(110), 프로세서(120), 통신 인터페이스(130) 그리고 입출력 인터페이스(140)를 포함할 수 있다.As shown in FIG. 1, the computer device 100 is a component for executing the acoustic guide method according to embodiments of the present invention, and includes a memory 110, a processor 120, a communication interface 130, and an input/output interface. (140).

메모리(110)는 컴퓨터에서 판독 가능한 기록매체로서, RAM(random access memory), ROM(read only memory) 및 디스크 드라이브와 같은 비소멸성 대용량 기록장치(permanent mass storage device)를 포함할 수 있다. 여기서 ROM과 디스크 드라이브와 같은 비소멸성 대용량 기록장치는 메모리(110)와는 구분되는 별도의 영구 저장 장치로서 컴퓨터 장치(100)에 포함될 수도 있다. 또한, 메모리(110)에는 운영체제와 적어도 하나의 프로그램 코드가 저장될 수 있다. 이러한 소프트웨어 구성요소들은 메모리(110)와는 별도의 컴퓨터에서 판독 가능한 기록매체로부터 메모리(110)로 로딩될 수 있다. 이러한 별도의 컴퓨터에서 판독 가능한 기록매체는 플로피 드라이브, 디스크, 테이프, DVD/CD-ROM 드라이브, 메모리 카드 등의 컴퓨터에서 판독 가능한 기록매체를 포함할 수 있다. 다른 실시예에서 소프트웨어 구성요소들은 컴퓨터에서 판독 가능한 기록매체가 아닌 통신 인터페이스(130)를 통해 메모리(110)에 로딩될 수도 있다. 예를 들어, 소프트웨어 구성요소들은 네트워크(160)를 통해 수신되는 파일들에 의해 설치되는 컴퓨터 프로그램에 기반하여 컴퓨터 장치(100)의 메모리(110)에 로딩될 수 있다.The memory 110 is a computer-readable recording medium and may include a random access memory (RAM), a read only memory (ROM), and a permanent mass storage device such as a disk drive. Here, a non-perishable mass storage device such as a ROM and a disk drive may be included in the computer device 100 as a separate permanent storage device distinct from the memory 110. Also, an operating system and at least one program code may be stored in the memory 110 . These software components may be loaded into the memory 110 from a recording medium readable by a separate computer from the memory 110 . The separate computer-readable recording medium may include a computer-readable recording medium such as a floppy drive, a disk, a tape, a DVD/CD-ROM drive, and a memory card. In another embodiment, software components may be loaded into the memory 110 through the communication interface 130 rather than a computer-readable recording medium. For example, software components may be loaded into memory 110 of computer device 100 based on a computer program installed by files received over network 160 .

프로세서(120)는 기본적인 산술, 로직 및 입출력 연산을 수행함으로써, 컴퓨터 프로그램의 명령을 처리하도록 구성될 수 있다. 명령은 메모리(110) 또는 통신 인터페이스(130)에 의해 프로세서(120)로 제공될 수 있다. 예를 들어, 프로세서(120)는 메모리(110)와 같은 기록 장치에 저장된 프로그램 코드에 따라 수신되는 명령을 실행하도록 구성될 수 있다.The processor 120 may be configured to process commands of a computer program by performing basic arithmetic, logic, and input/output operations. Instructions may be provided to processor 120 by memory 110 or communication interface 130 . For example, processor 120 may be configured to execute received instructions according to program codes stored in a recording device such as memory 110 .

통신 인터페이스(130)는 네트워크(160)를 통해 컴퓨터 장치(100)가 다른 장치와 서로 통신하기 위한 기능을 제공할 수 있다. 일례로, 컴퓨터 장치(100)의 프로세서(120)가 메모리(110)와 같은 기록 장치에 저장된 프로그램 코드에 따라 생성한 요청이나 명령, 데이터, 파일 등이 통신 인터페이스(130)의 제어에 따라 네트워크(160)를 통해 다른 장치들로 전달될 수 있다. 역으로, 다른 장치로부터의 신호나 명령, 데이터, 파일 등이 네트워크(160)를 거쳐 컴퓨터 장치(100)의 통신 인터페이스(130)를 통해 컴퓨터 장치(100)로 수신될 수 있다. 통신 인터페이스(130)를 통해 수신된 신호나 명령, 데이터 등은 프로세서(120)나 메모리(110)로 전달될 수 있고, 파일 등은 컴퓨터 장치(100)가 더 포함할 수 있는 저장 매체(상술한 영구 저장 장치)로 저장될 수 있다.The communication interface 130 may provide functions for the computer device 100 to communicate with other devices through the network 160 . For example, a request, command, data, file, etc. generated according to a program code stored in a recording device such as the memory 110 by the processor 120 of the computer device 100 is transmitted to the network ( 160) to other devices. Conversely, signals, commands, data, files, etc. from other devices may be received by the computer device 100 via the communication interface 130 of the computer device 100 via the network 160 . Signals, commands, data, etc. received through the communication interface 130 may be transmitted to the processor 120 or the memory 110, and files, etc. may be stored as storage media that the computer device 100 may further include (described above). permanent storage).

통신 방식은 제한되지 않으며, 네트워크(160)가 포함할 수 있는 통신망(일례로, 이동통신망, 유선 인터넷, 무선 인터넷, 방송망)을 활용하는 통신 방식뿐만 아니라 기기들 간의 근거리 유선/무선 통신 역시 포함될 수 있다. 예를 들어, 네트워크(160)는, PAN(personal area network), LAN(local area network), CAN(campus area network), MAN(metropolitan area network), WAN(wide area network), BBN(broadband network), 인터넷 등의 네트워크 중 하나 이상의 임의의 네트워크를 포함할 수 있다. 또한, 네트워크(160)는 버스 네트워크, 스타 네트워크, 링 네트워크, 메쉬 네트워크, 스타-버스 네트워크, 트리 또는 계층적(hierarchical) 네트워크 등을 포함하는 네트워크 토폴로지 중 임의의 하나 이상을 포함할 수 있으나, 이에 제한되지 않는다.The communication method is not limited, and may include not only a communication method utilizing a communication network (eg, a mobile communication network, wired Internet, wireless Internet, and broadcasting network) that the network 160 may include, but also short-distance wired/wireless communication between devices. there is. For example, the network 160 may include a personal area network (PAN), a local area network (LAN), a campus area network (CAN), a metropolitan area network (MAN), a wide area network (WAN), and a broadband network (BBN). , one or more arbitrary networks such as the Internet. In addition, the network 160 may include any one or more of network topologies including a bus network, a star network, a ring network, a mesh network, a star-bus network, a tree or a hierarchical network, and the like. Not limited.

입출력 인터페이스(140)는 입출력 장치(150)와의 인터페이스를 위한 수단일 수 있다. 예를 들어, 입력 장치는 마이크, 키보드, 카메라 또는 마우스 등의 장치를, 그리고 출력 장치는 디스플레이, 스피커와 같은 장치를 포함할 수 있다. 다른 예로 입출력 인터페이스(140)는 터치스크린과 같이 입력과 출력을 위한 기능이 하나로 통합된 장치와의 인터페이스를 위한 수단일 수도 있다. 입출력 장치(150)는 컴퓨터 장치(100)와 하나의 장치로 구성될 수도 있다.The input/output interface 140 may be a means for interface with the input/output device 150 . For example, the input device may include devices such as a microphone, keyboard, camera, or mouse, and the output device may include devices such as a display and a speaker. As another example, the input/output interface 140 may be a means for interface with a device in which functions for input and output are integrated into one, such as a touch screen. The input/output device 150 and the computer device 100 may be configured as one device.

또한, 다른 실시예들에서 컴퓨터 장치(100)는 도 1의 구성요소들보다 더 적은 혹은 더 많은 구성요소들을 포함할 수도 있다. 그러나, 대부분의 종래기술적 구성요소들을 명확하게 도시할 필요성은 없다. 예를 들어, 컴퓨터 장치(100)는 상술한 입출력 장치(150) 중 적어도 일부를 포함하도록 구현되거나 또는 트랜시버(transceiver), 카메라, 각종 센서, 데이터베이스 등과 같은 다른 구성요소들을 더 포함할 수도 있다.Also, in other embodiments, computer device 100 may include fewer or more elements than those of FIG. 1 . However, there is no need to clearly show most of the prior art components. For example, the computer device 100 may be implemented to include at least a portion of the above-described input/output device 150 or may further include other components such as a transceiver, a camera, various sensors, and a database.

본 실시예들은 시각 장애가 있는 사용자를 대상으로 스마트 디바이스의 사용성과 접근성을 개선하기 위해 단계별 및 대화형 방식으로 사용자를 안내하는 태스크 지향적 접근 방식인 음향 가이드 시스템은 제공한다.The present embodiments provide an acoustic guide system, which is a task-oriented approach that guides users in a step-by-step and interactive manner to improve usability and accessibility of smart devices for visually impaired users.

본 실시예에서는 기계학습(machine learning)과 함께 객체 인식 기술을 사용하여 사용자의 손끝과 스마트 기기의 기본 요소인 아이콘 또는 버튼이라는 두 가지 주요 객체를 감지하고 추적한다. 사용자는 시스템의 음향 가이드를 사용하여 스마트폰 애플리케이션과 같이 사용할 장치의 유형을 시스템에 지시할 수 있다. 이어 스마트폰이나 스마트안경 등 사용자 기기에 설치된 카메라를 이용해 사용자가 음향 가이드 시스템에 단말기의 사용자 인터페이스를 보여줄 수 있다. 그런 다음 음향 가이드 시스템은 사용자 인터페이스에 표시된 버튼과 관련된 주요 기능을 인식하여 사용자가 작업을 수행하는 데 도움이 되는 장치 또는 애플리케이션의 작동에 대한 적절한 지침을 제공한다. 음향 가이드 시스템은 사용자가 장치에서 원하는 기능을 활성화하기 위해 특정 아이콘이나 버튼에 손끝을 올바르게 위치시킬 수 있도록 실시간으로 음성 같은 안내 정보의 이산 비트를 제공한다.In this embodiment, object recognition technology together with machine learning is used to detect and track two main objects: a user's fingertip and an icon or button, which is a basic element of a smart device. The user can use the system's acoustic guide to instruct the system which type of device to use, such as a smartphone application. Then, using a camera installed in a user device such as a smartphone or smart glasses, the user can show the user interface of the terminal to the sound guide system. The acoustic guide system then recognizes the key functions associated with the buttons displayed on the user interface and provides appropriate instructions for the operation of the device or application that helps the user perform tasks. Acoustic guidance systems provide discrete bits of guiding information, such as voice, in real time so that users can correctly position their fingertips on specific icons or buttons to activate desired functions on the device.

사용자의 손끝을 감지하기 위해 기계학습과 결합된 객체 감지 기법이 다양한 작업에 사용되고 있다. 그러나, 시각 장애인이 스마트 기기와 상호작용할 수 있도록 실시간으로 상세한 지침을 제공하는 데 초점을 맞추고 있지 않다. 시각 장애가 있는 사용자가 비시각적 인터페이스를 채택한 제안 기반 시스템을 사용하여 웹 사이트를 탐색하고 모바일 애플리케이션을 사용할 수 있도록 하기 위한 몇 가지 작업이 수행되고 있을 뿐이다. 그러나 이러한 접근 방식은 웹 사이트 탐색 또는 미리 정의된 모바일 애플리케이션에서만 작동한다. 또한, TapTapSee, CamFind, Talking Goggles와 같은 기존 객체 감지 기술은 시각 장애인을 위한 단계별 지침을 제공하는 데 직접 사용할 수 없다. 물체를 실시간으로 감지하기 위해 심층 신경망 모델을 갖춘 프로토타입 시스템에 대한 연구도 있으나, 이러한 시스템은 물리적 객체를 감지하는 용도로만 작동하며 스마트 기기의 사용자 인터페이스 요소를 감지하는 데 사용할 수 없다. 손끝 감지를 위한 한 가지 주요 기술은 신체 관절 및 얼굴 표정 로컬리제이션의 사용이다. 시각 장애가 있는 사용자를 위한 실시간 지침을 제공하려면 이러한 손끝 감지 기술의 효율성을 개선하는 것이 중요하다.To detect the user's fingertips, object detection techniques combined with machine learning are being used for various tasks. However, it is not focused on providing detailed instructions in real time to enable blind people to interact with smart devices. Some work is being done to enable visually impaired users to navigate web sites and use mobile applications using suggestion-based systems that employ non-visual interfaces. However, this approach only works for website navigation or predefined mobile applications. In addition, existing object detection technologies such as TapTapSee, CamFind, and Talking Goggles cannot be directly used to provide step-by-step instructions for blind people. There are also studies on prototype systems with deep neural network models to detect objects in real time, but these systems only work for detecting physical objects and cannot be used to detect user interface elements of smart devices. One key technique for fingertip detection is the use of body joints and facial expression localization. Improving the effectiveness of these fingertip sensing technologies is important to provide real-time guidance for visually impaired users.

본 발명에서는 CNN(convolution neural network)을 사용하여 스마트 기기의 사용자 인터페이스 요소와 관련하여 사용자의 손끝 위치를 실시간으로 감지하고 추적한다. CNN은 물체 감지에 효과적인 기계학습 기법이며, 음향 가이드 시스템은 CNN을 사용하여 사용자가 스마트 기기의 제어판을 작동하는 동안 버튼, 아이콘 및 사용자의 손끝을 포함한 여러 물체를 인식하기 위해 처리할 수 있는 일련의 데이터에 이미지 입력을 매핑한다. 또한, 모바일 기기의 객체 감지에 널리 사용되는 SSD(single-shot multibox detector)를 사용한다. SSD는 CNN을 사용하는 심층 신경망 접근 방식을 기반으로 한다. 음향 가이드 시스템은 SSD를 사용하여 감지된 객체를 둘러싸는 경계 상자(bounding box)의 네 가지 위치를 생성할 수 있다. 음향 가이드 시스템은 객체의 경계 상자를 기반으로 버튼이나 아이콘의 정확한 위치와 사용자가 버튼이나 아이콘을 터치하는 데 필요한 정확한 시간을 계산할 수 있다.In the present invention, a convolution neural network (CNN) is used to detect and track the position of a user's fingertip in real time in relation to user interface elements of a smart device. CNN is an effective machine learning technique for object detection, and the acoustic guide system uses CNN to process a series of objects that can be processed to recognize multiple objects, including buttons, icons, and the user's fingertips while the user operates the control panel of the smart device. Map image input to data. In addition, a single-shot multibox detector (SSD) widely used for object detection in mobile devices is used. SSD is based on a deep neural network approach using CNNs. The acoustic guide system can use the SSD to create four positions of a bounding box surrounding the detected object. An acoustic guidance system can calculate the exact location of a button or icon based on the object's bounding box and the exact time required for the user to touch the button or icon.

다시 말해, 본 발명에 따른 음향 가이드 시스템은 CNN 기반의 객체 인식 기술을 사용하여 사용자의 손끝과 스마트 디바이스의 화면 상의 인터페이스 객체(아이콘 또는 버튼)를 감지하고 추적할 수 있고, 실시간으로 오디오와 같은 안내 정보의 이산 비트를 제공하여 사용자가 특정 객체에서 손끝을 적절하게 움직여 장치에서 원하는 기능을 활성화할 수 있도록 도와줄 수 있다.In other words, the acoustic guide system according to the present invention can detect and track interface objects (icons or buttons) on the user's fingertips and the screen of a smart device by using CNN-based object recognition technology, and provide audio-like guidance in real time. Discrete bits of information can be provided to help users activate desired functions on the device by moving their fingertips appropriately on specific objects.

도 2는 음향 가이드가 필요한 스마트 디바이스 사용 환경의 예시를 도시한 것이다. 도 2는 시각 장애를 가진 사용자가 러닝머신을 사용하는 환경을 나타내고 있다.2 illustrates an example of a smart device use environment requiring a sound guide. 2 shows an environment in which a visually impaired user uses a treadmill.

음향 가이드 시스템에 필요한 정보를 입력하는 외부 엔티티(entity)는 다음과 같다.External entities that input information necessary for the acoustic guide system are as follows.

도 2를 참조하면, 사용자(210)는 스마트폰과 같은 모바일 기기(220)에서 실행되는 음향 가이드 시스템과 상호 작용한다.Referring to FIG. 2 , a user 210 interacts with a sound guide system running on a mobile device 220 such as a smart phone.

음향 가이드 시스템은 사용자(210)의 모바일 기기(220)에서 실행된다.The acoustic guide system runs on the mobile device 220 of the user 210 .

타겟 디바이스(230)는 사용자(210)가 조작하고자 하는 디바이스로 사용자 조작을 위한 제어 패널을 포함하고 제어 패널 상의 아이콘이나 버튼으로 작동되는 디바이스를 의미할 수 있다.The target device 230 is a device that the user 210 wants to manipulate, and may mean a device that includes a control panel for user manipulation and is operated with icons or buttons on the control panel.

음향 가이드 시스템은 모바일 기기(220)에서 실행되어 모바일 기기(220)의 카메라 또는 모바일 기기(220)과 연동 가능한 스마트 안경 등을 이용하여 타겟 디바이스(230)에 대한 사용자(210)의 조작 장면을 캡처할 수 있다.The sound guide system is executed in the mobile device 220 and captures a manipulation scene of the user 210 with respect to the target device 230 using a camera of the mobile device 220 or smart glasses that can be interlocked with the mobile device 220. can do.

도 2에 도시한 바와 같이, 사용자(210)는 모바일 기기(220)에서 음향 가이드 시스템을 실행한 후 모바일 기기(220)의 화면 상에 타겟 디바이스(230)의 제어 패널을 포착할 수 있다.As shown in FIG. 2 , the user 210 may capture the control panel of the target device 230 on the screen of the mobile device 220 after executing the sound guide system in the mobile device 220 .

음향 가이드 시스템의 내부 구성요소는 다음과 같다.The internal components of the acoustic guide system are as follows.

프로세서(120)는 가이드 출력을 컴파일하고 추정하는 내부 구성요소로서 TTS(text to speech) 모듈, STT(speech to text) 모듈, 및 객체 감지 모듈을 포함할 수 있다.The processor 120 may include a text to speech (TTS) module, a speech to text (STT) module, and an object detection module as internal components that compile and estimate the guide output.

TTS 모듈은 텍스트를 입력으로 수신하여 음성을 생성하는 역할을 하며, 예를 들어 안드로이드 스튜디오를 사용하여 텍스트-음성 변환 기능을 구현할 수 있다.The TTS module serves to generate voice by receiving text as an input, and for example, a text-to-speech conversion function can be implemented using Android Studio.

STT 모듈은 음성을 입력으로 수신하여 텍스트를 생성하는 역할을 하며, 예를 들어 안드로이드 스튜디오를 사용하여 음성-텍스트 변환 기능을 구현할 수 있다.The STT module serves to generate text by receiving voice as an input, and for example, a voice-to-text conversion function can be implemented using Android Studio.

음향 가이드 시스템은 TTS 모듈과 STT 모듈을 통해 사용자(210)와 대화할 수 있으며, 이때 TTS 모듈에서 생성된 음성을 사용자(210)에서 전달할 수 있고 STT 모듈에서 생성된 텍스트로부터 사용자(210)의 의도를 인식할 수 있다.The sound guide system can communicate with the user 210 through the TTS module and the STT module, and at this time, the user 210 can deliver the voice generated by the TTS module and the user 210's intention from the text generated by the STT module. can recognize

객체 감지 모듈은 타겟 객체에 해당되는 사용자(210)의 손끝과 인터페이스 객체(아이콘 또는 버튼)의 위치를 추정하는 역할을 한다. 객체 감지 모듈은 타겟 객체의 위치 추정을 위해 카메라와 관리 도구(TensorFlow)를 사용할 수 있다.The object detection module serves to estimate the location of the user's 210 fingertip and the interface object (icon or button) corresponding to the target object. The object detection module may use a camera and a management tool (TensorFlow) to estimate the position of the target object.

카메라는 모바일 기기(220)의 카메라 또는 모바일 기기(220)과 연동 가능한 스마트 안경 등을 이용할 수 있다. 음향 가이드 시스템은 타겟 디바이스(230)의 제어 패널과 같은 사용자 인터페이스를 표시하기 위한 카메라와의 연결을 설정할 수 있다.As the camera, a camera of the mobile device 220 or smart glasses that can be linked with the mobile device 220 may be used. The acoustic guide system may establish a connection with a camera for displaying a user interface such as a control panel of the target device 230 .

관리 도구는 가이드 알고리즘을 위한 것으로, 사용자(210)의 손끝과 인터페이스 객체(아이콘 또는 버튼) 감지를 위한 CNN 아키텍처인 SSD MobileNet Version 2와 데이터셋을 이용하여 학습할 수 있다. 이때, 기계학습을 위한 데이터셋으로 사람들의 손끝 이미지, 기기들의 제어 패널 이미지, 기기들의 인터페이스 객체 이미지 등을 포함할 수 있다.The management tool is for a guide algorithm, and can be learned using SSD MobileNet Version 2, a CNN architecture for detecting the user's 210 fingertip and interface objects (icons or buttons), and a dataset. In this case, the data set for machine learning may include images of people's fingertips, images of control panels of devices, images of interface objects of devices, and the like.

도 3은 본 발명의 일실시예에 있어서 음향 가이드 방법의 일례를 도시한 순서도이다.3 is a flowchart illustrating an example of a sound guide method according to an embodiment of the present invention.

프로세서(120)는 사용자 음성을 기초로 사용자가 지정한 인터페이스 객체에 해당되는 타겟 버튼에 대한 정보를 인식한 후 카메라를 통해 실시간 이미지가 포착되는 동안 실시간 이미지에서 타겟 버튼을 찾아낸다. 이후, 프로세서(120)는 모바일 커넥터를 사용하여 타겟 버튼의 위치를 모바일 기기로 출력한다. 마지막으로, 프로세서(120)는 사용자에게 타겟 버튼의 위치에 대한 방향을 음성으로 안내한다.The processor 120 recognizes information on a target button corresponding to an interface object designated by the user based on the user's voice, and then finds the target button in the real-time image while the real-time image is captured through the camera. Then, the processor 120 outputs the location of the target button to the mobile device using the mobile connector. Finally, the processor 120 guides the user to the location of the target button by voice.

도 3을 참조하면, 단계(S1)에서 프로세서(120)는 사용자 음성 입력을 수신하여 수신된 음성 입력으로부터 타겟 버튼(즉, 인터페이스 객체)을 지정할 수 있다. 사용자는 활성화하고자 하는 기능에 대해 음성 발화를 할 수 있고, 프로세서(120)는 사용자의 음성 발화로부터 사용자가 활성화하고자 하는 기능에 해당되는 인터페이스 객체를 타겟 버튼으로 지정할 수 있다.Referring to FIG. 3 , in step S1 , the processor 120 may receive a user voice input and designate a target button (ie, an interface object) from the received voice input. The user may make a voice speech for a function to be activated, and the processor 120 may designate an interface object corresponding to a function to be activated as a target button from the user's voice speech.

단계(S2)에서 프로세서(120)는 카메라를 통해 실시간 이미지를 수신하여 기계학습 모델을 통해 이미지 상에 포착된 타겟 디바이스의 제어 패널과 사용자의 손끝을 추적하여 제어 패널 상에 사용자의 손끝이 위치하는 인터페이스 객체를 감지할 수 있다. 프로세서(120)는 모바일 기기의 화면 상에 타겟 버튼으로 지정된 인터페이스 객체와 사용자가 현재 손끝으로 가리키는 인터페이스 객체를 표시할 수 있다.In step S2, the processor 120 receives the real-time image through the camera and tracks the user's fingertip and the control panel of the target device captured on the image through a machine learning model to locate the user's fingertip on the control panel. Interface objects can be detected. The processor 120 may display an interface object designated as a target button and an interface object currently pointed by the user's fingertip on the screen of the mobile device.

단계(S3)에서 프로세서(120)는 사용자가 타겟 버튼으로 지정된 인터페이스 객체를 터치하기 위한 가이드 피드백으로서 사용자가 손끝을 움직여야 하는 방향을 음성으로 알려줄 수 있다.In step S3, the processor 120 may inform the user of a direction in which the user's fingertip should move as guide feedback for the user to touch the interface object designated as the target button through voice.

단계(S4)에서 프로세서(120)는 사용자가 손끝을 이동하면 실시간으로 손끝 위치를 추적하면서 현재 손끝 위치가 타겟 버튼으로 지정된 인터페이스 객체에 도달하면 결과 피드백을 제공할 수 있다.In step S4, the processor 120 may track the position of the fingertip in real time when the user moves the fingertip, and provide feedback as a result when the current position of the fingertip reaches an interface object designated as a target button.

프로세서(120)는 사용자 음성을 입력으로 수신하게 되는데, 이때 사용자가 선택하고자 하는 인터페이스 객체의 이름을 짧고 구체적인 키워드로 발화하면 인식 오류를 줄일 수 있다. 이때, 프로세서(120)는 기계학습 기반 CNN 모델을 활용하여 타겟 버튼으로 지정하기 위한 인터페이스 객체와 관련된 키워드를 STT 기능을 기반으로 인식할 수 있다. 이후, 사용자는 손끝을 사용하여 타겟 디바이스의 지정된 버튼을 터치할 수 있다. 프로세서(120)는 사용자에게 음성 출력으로 피드백을 제공할 수 있다. 사용자 손끝이 타겟 버튼으로 지정된 인터페이스 객체에 위치하면 음성 피드백을 제공할 수 있다.The processor 120 receives the user's voice as an input. At this time, if the user utters the name of the interface object to be selected as a short and specific keyword, recognition errors can be reduced. In this case, the processor 120 may recognize a keyword related to an interface object to be designated as a target button based on the STT function by utilizing a machine learning-based CNN model. Then, the user may touch a designated button of the target device using a fingertip. The processor 120 may provide feedback to the user through audio output. Voice feedback may be provided when the user's fingertip is positioned on an interface object designated as a target button.

상기 음향 가이드 방법의 각 단계에 대한 기술적 세부 사항은 다음과 같다.Technical details of each step of the acoustic guide method are as follows.

타겟 버튼 지정 단계(S1)Target button designation step (S1)

프로세서(120)는 사용자 음성 입력에 따라 음향 가이드 기능을 트리거할 수 있다. 일례로, 프로세서(120)는 안드로이드 운영체제의 공식 통합 환경인 안드로이드 프레임워크가 제공하는 음성 인식기를 통해 사용자 음성으로부터 타겟 버튼과 관련된 키워드를 인식할 수 있다. 타겟 디바이스의 기능 유형에 액세스 하려면 사용자가 지정한 키워드가 필요하다. 예를 들어, 도 4에 도시한 바와 같이 기능이나 아이콘을 14가지 유형으로 분류할 수 있다. 스마트 기기의 인터페이스 객체로 구성된 각 버튼은 해당 기능의 아이콘이 있다. 프로세서(120)는 STT 기능을 통해 사용자 음성을 텍스트로 변환하여 해당 텍스트에 대응되는 키워드의 버튼을 타겟 버튼으로 지정할 수 있다. 프로세서(120)는 사용자 음성에서 인식된 키워드의 버튼을 타겟 버튼으로 지정한 후 카메라 영상으로부터 제어 패널 상의 인터페이스 객체, 사용자의 손끝, 타겟 버튼을 감지할 수 있다.The processor 120 may trigger a sound guide function according to a user's voice input. For example, the processor 120 may recognize a keyword related to a target button from a user's voice through a voice recognizer provided by the Android framework, which is an official integrated environment of the Android operating system. A user-specified keyword is required to access the function type of the target device. For example, as shown in FIG. 4, functions or icons may be classified into 14 types. Each button composed of an interface object of a smart device has an icon for a corresponding function. The processor 120 can convert a user's voice into text through the STT function and designate a button of a keyword corresponding to the text as a target button. The processor 120 may designate a button of a keyword recognized from a user's voice as a target button, and then detect an interface object on a control panel, a user's fingertip, and a target button from a camera image.

타겟 버튼 및 손끝 위치찾기(Locating)(S2)Target button and fingertip location (Locating) (S2)

제어 패널 상의 인터페이스 객체, 사용자의 손끝, 타겟 버튼을 찾기 위해 SSD MobileNet Version 2를 음향 가이드 시스템의 기계학습 모델로 사용할 수 있다. 제한된 메모리를 사용하는 경우 필요한 학습 파라미터가 지나치게 커지는 것을 방지하기 위해 ReLU(Rectified Linear Unit) 함수를 기계학습 모델의 활성화 함수로 사용할 수 있다. 또한, 표준 점수 변환기(standard score converter)를 사용하고 시그모이드 함수와 L2 정규화기를 사용할 수 있다. 손끝 감지와 손 제스처 인식을 위한 학습 데이터셋으로 EgoGesture 데이터셋을 사용할 수 있다. 학습 데이터셋에는 손끝과 관절에 대한 정보로 수동 레이블이 지정된 경계 상자와 함께 서로 다른 손 제스처에 대한 이미지들이 포함될 수 있다. 예를 들어, 검지를 사용하는 제스처를 가리키는 레이블 'SingleOne'이 지정된 한 손 제스처 이미지들을 사용하여 모델을 학습할 수 있다.SSD MobileNet Version 2 can be used as a machine learning model for the acoustic guide system to find interface objects on the control panel, user's fingertips, and target buttons. To prevent the required learning parameters from becoming too large when using limited memory, the Rectified Linear Unit (ReLU) function can be used as the activation function of the machine learning model. You can also use standard score converters and use sigmoid functions and L2 regularizers. EgoGesture dataset can be used as a training dataset for fingertip detection and hand gesture recognition. The training dataset may contain images for different hand gestures, along with manually labeled bounding boxes with information about fingertips and joints. For example, a model can be trained using one-hand gesture images with a label 'SingleOne' indicating a gesture using the index finger.

또한, 다양한 아이콘이 포함된 모바일 기기의 화면 이미지, '시작', '정지', '추가', '마이너스' 등의 버튼이 포함된 러닝머신이나 리모컨의 패널 이미지 등으로 구성된 버튼 데이터셋을 수동으로 생성하여 레이블을 지정할 수 있다. 도 4의 테이블에 도시된 버튼을 14개의 클래스로 분류하고 '손끝'과 'SingleOne' 제스처를 위한 2개의 클래스가 추가될 수 있다.In addition, a button data set consisting of a screen image of a mobile device containing various icons, a panel image of a treadmill or remote control including buttons such as 'Start', 'Stop', 'Add', and 'Minus' is manually created. You can create and label them. The buttons shown in the table of FIG. 4 are classified into 14 classes, and two classes for 'fingertip' and 'SingleOne' gestures can be added.

도 5는 기계학습 실험을 위한 시각화 툴키트인 텐서보드(tensorboard)에 의해 생성된 손실 점수 그래프를 나타내고 있다. 도 5는 잘못된 예측에 대한 페널티 값을 나타내는 총 손실과 더 나은 예측을 일반화하기 위해 총 손실에 추가 손실을 더한 정규화 손실을 보여준다. 모델을 최적화하면서 시간이 지남에 따라 총 손실은 감소하고 정규화 손실은 비교적 낮아 원활한 성능을 보인다.5 shows a loss score graph generated by tensorboard, a visualization toolkit for machine learning experiments. Figure 5 shows the total loss, which represents the penalty value for incorrect predictions, and the normalized loss, which is the total loss plus an additional loss to generalize better predictions. While optimizing the model, the total loss decreases over time, and the regularization loss is relatively low, resulting in smooth performance.

가이드 피드백(S3)Guide Feedback (S3)

가이드 피드백을 생성하기 위해 학습된 기계학습 모델을 TFLite(TensorFlow Lite)로 변환할 수 있다. TFLite 짧은 지연시간과 작은 이진 파일이 필요한 모바일 기기를 위한 경량 텐서플로우 솔루션이다.The trained machine learning model can be converted to TensorFlow Lite (TFLite) to generate guided feedback. TFLite is a lightweight TensorFlow solution for mobile devices that requires low latency and small binaries.

일례로, 음향 가이드 시스템에서 음성 피드백을 생성하는데 필요한 TTS 모듈을 안드로이드 라이브러리의 TTS 인스턴스를 사용하여 구현할 수 있다. TTS 모듈은 입력을 기반으로 즉시 재생을 위해 음성을 합성할 수 있다. 예를 들어, 사용자를 가이드하기 위해 합성하는 피드백 키워드는 왼쪽 상단, 오른쪽 상단, 왼쪽 하단, 오른쪽 하단으로 이루어질 수 있다. 이러한 피드백 키워드는 사용자가 손가락을 움직여야 하는 방향을 나타낸다.For example, a TTS module required to generate voice feedback in a sound guide system can be implemented using a TTS instance of an Android library. The TTS module can synthesize speech for immediate playback based on input. For example, the feedback keyword synthesized to guide the user may be composed of upper left corner, upper right corner, lower left corner, and lower right corner. These feedback keywords indicate the direction the user should move their finger.

사용자의 손끝과 타겟 버튼의 위치 좌표가 감지된 후 사용자에게 제공될 가이드는 도 6의 알고리즘 1과 같이 처리된다. 알고리즘 1은 음향 가이드 시스템의 런타임 동안 지속적으로 실행된다. 알고리즘 1은 1행에서 카메라가 포착한 영상에서 타겟 버튼을 찾을 수 있는지 확인하는 것으로 시작된다.After the location coordinates of the user's fingertip and the target button are detected, a guide to be provided to the user is processed as in Algorithm 1 of FIG. 6 . Algorithm 1 runs continuously during the runtime of the acoustic guide system. Algorithm 1 starts by checking if the target button can be found in the video captured by the camera on line 1.

타겟 버튼을 찾을 수 없는 경우 2행에서 음성 알림을 생성하여 도 7의 알고리즘 2에 정의된 convert_to_speech() 함수를 사용한 TTS 변환을 통해 사용자에게 알린다. 알고리즘 2는 전역 변수(global variable)를 사용하여 각 함수 호출 간의 시차를 처리할 수 있다. 알고리즘 2의 1행에서는 먼저 new_now 변수에서 함수가 호출되는 시간을 검색한다. 다음으로, convert_to_speec() 함수가 호출된 시간을 알고리즘 2의 6행에서 전역 변수와 비교한다. 만약 이 함수가 이전 호출로부터의 응답 지연(α 또는 β초) 후에 호출된다면 텍스트를 음성으로 변환한다. 사용자가 화면에서 타겟 버튼을 찾기 위해 탐색할 때 1.5초(α)를 응답 지연으로 사용한다. 화면에 타겟 버튼이 없을 경우 3초(β)를 응답 지연으로 사용하여 불편함을 피할 수 있다. 사용자를 안내하는 것이 최종 목표이기 때문에 알고리즘 2의 10행에 있는 키워드 "okay"만 음성으로 즉시 변환될 수 있다. Text To Speech 함수가 호출될 때마다 전역 변수가 업데이트될 수 있다.If the target button is not found, a voice notification is generated in line 2 and notified to the user through TTS conversion using the convert_to_speech() function defined in Algorithm 2 of FIG. 7 . Algorithm 2 can handle the time difference between each function call by using a global variable. Line 1 of Algorithm 2 first retrieves the time the function is called from the new_now variable. Next, compare the time when the convert_to_speec() function was called with the global variable in Algorithm 2, line 6. If this function is called after a response delay (α or β seconds) from the previous call, it converts text to speech. When the user searches to find the target button on the screen, we use 1.5 seconds (α) as the response delay. Inconvenience can be avoided by using 3 seconds (β) as a response delay when there is no target button on the screen. Since guiding the user is the final goal, only the keyword “okay” in line 10 of Algorithm 2 can be converted into speech immediately. A global variable can be updated whenever the Text To Speech function is called.

알고리즘 1에서 타겟 버튼을 감지한 후 4행에서 사용자의 손끝을 찾아 사용자에게 알린다. 타겟 버튼과 손끝이 모두 감지되면 타겟 버튼과 손끝의 경계 상자 좌표를 서로 비교하여 9, 11, 14, 16행의 결과에 따라 사용자에게 방향을 안내한다. 이때 사용자는 가이드 방향으로 "SingleOne" 제스처로 손가락을 계속 이동한다.After detecting the target button in Algorithm 1, find the user's fingertip in line 4 and notify the user. When both the target button and the fingertip are detected, the bounding box coordinates of the target button and the fingertip are compared with each other, and directions are provided to the user according to the results of lines 9, 11, 14, and 16. At this time, the user continues to move the finger in the “SingleOne” gesture in the guide direction.

결과 피드백(S4)Result feedback (S4)

사용자 손끝이 타겟 버튼의 경계 상자 안에 있으면 텍스트 음성 변환 인스턴스에서 출력 "okay"가 생성될 수 있다(알고리즘 1의 17 및 18행). 사용자는 "okay" 음성이 출력되면 해당 손끝 위치에서 타겟 버튼을 누를 수 있다. 상기한 과정이 끝나면 프로세서(120)는 다음 음성 입력을 수신할 준비가 된다. 사용자는 다음 타겟 버튼을 입력하고 타겟 디바이스를 다음 동작 조작을 위한 안내를 받을 수 있다.If the user's fingertip is within the target button's bounding box, the text-to-speech instance can generate the output "okay" (lines 17 and 18 of Algorithm 1). When the voice “okay” is output, the user can press the target button at the corresponding fingertip position. After the above process is completed, the processor 120 is ready to receive the next voice input. The user may input the next target button and receive guidance for manipulating the next operation of the target device.

본 발명은 시각 장애인들이 디바이스를 이용하는 과정에서 원하는 기능의 버튼을 누를 수 있도록 도와주는 음향 가이드를 제공할 수 있다. 사용자가 어떤 버튼을 누를지 발화하게 되면 음향 가이드 시스템은 해당 발화 내용을 분석하여 사용자가 누르고 싶은 버튼을 타겟으로 지정하고 카메라를 통해 포착된 영상에서 타겟 버튼의 위치를 계산할 수 있다. 음향 가이드 시스템은 카메라 영상 내에서 감지된 사용자 손끝 위치와 타겟 버튼 위치에 따라서 단계적으로 방향을 지시함으로써 사용자가 원하는 버튼을 누를 수 있도록 지원할 수 있다.The present invention can provide a sound guide that helps visually impaired people to press a button of a desired function while using a device. When a user utters a button to press, the acoustic guide system analyzes the utterance, designates a button the user wants to press as a target, and calculates the location of the target button from an image captured by a camera. The sound guide system may support the user to press a desired button by instructing the direction step by step according to the position of the user's fingertip and the position of the target button detected in the camera image.

이처럼 본 발명의 실시예들에 따르면, 다양한 환경에서의 다양한 디바이스를 대상으로 해당 디바이스 조작을 위한 음향 가이드를 제공함으로써 시각 장애를 가진 사용자에게 디바이스 조작의 어려움을 해소하기 위한 보다 확실한 도움을 제공할 수 있다.As described above, according to the embodiments of the present invention, by providing sound guides for manipulating the device targeting various devices in various environments, it is possible to provide more reliable help to solve the difficulty of manipulating the device to a user with a visual impairment. there is.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 어플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.The devices described above may be implemented as hardware components, software components, and/or a combination of hardware components and software components. For example, devices and components described in the embodiments include a processor, a controller, an arithmetic logic unit (ALU), a digital signal processor, a microcomputer, a field programmable gate array (FPGA), and a programmable PLU (programmable logic unit). logic unit), microprocessor, or any other device capable of executing and responding to instructions. The processing device may run an operating system (OS) and one or more software applications running on the operating system. A processing device may also access, store, manipulate, process, and generate data in response to execution of software. For convenience of understanding, there are cases in which one processing device is used, but those skilled in the art will understand that the processing device includes a plurality of processing elements and/or a plurality of types of processing elements. It can be seen that it can include. For example, a processing device may include a plurality of processors or a processor and a controller. Other processing configurations are also possible, such as parallel processors.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.Software may include a computer program, code, instructions, or a combination of one or more of the foregoing, which configures a processing device to operate as desired or processes independently or collectively. You can command the device. The software and/or data may be embodied in any tangible machine, component, physical device, computer storage medium or device to be interpreted by or to provide instructions or data to a processing device. there is. Software may be distributed on networked computer systems and stored or executed in a distributed manner. Software and data may be stored on one or more computer readable media.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 이때, 매체는 컴퓨터로 실행 가능한 프로그램을 계속 저장하거나, 실행 또는 다운로드를 위해 임시 저장하는 것일 수도 있다. 또한, 매체는 단일 또는 수 개의 하드웨어가 결합된 형태의 다양한 기록수단 또는 저장수단일 수 있는데, 어떤 컴퓨터 시스템에 직접 접속되는 매체에 한정되지 않고, 네트워크 상에 분산 존재하는 것일 수도 있다. 매체의 예시로는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등을 포함하여 프로그램 명령어가 저장되도록 구성된 것이 있을 수 있다. 또한, 다른 매체의 예시로, 어플리케이션을 유통하는 앱 스토어나 기타 다양한 소프트웨어를 공급 내지 유통하는 사이트, 서버 등에서 관리하는 기록매체 내지 저장매체도 들 수 있다.The method according to the embodiment may be implemented in the form of program instructions that can be executed through various computer means and recorded on a computer readable medium. In this case, the medium may continuously store a program executable by a computer or temporarily store the program for execution or download. In addition, the medium may be various recording means or storage means in the form of a single or combined hardware, but is not limited to a medium directly connected to a certain computer system, and may be distributed on a network. Examples of the medium include magnetic media such as hard disks, floppy disks and magnetic tapes, optical recording media such as CD-ROM and DVD, magneto-optical media such as floptical disks, and ROM, RAM, flash memory, etc. configured to store program instructions. In addition, examples of other media include recording media or storage media managed by an app store that distributes applications, a site that supplies or distributes various other software, and a server.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.As described above, although the embodiments have been described with limited examples and drawings, those skilled in the art can make various modifications and variations from the above description. For example, the described techniques may be performed in an order different from the method described, and/or components of the described system, structure, device, circuit, etc. may be combined or combined in a different form than the method described, or other components may be used. Or even if it is replaced or substituted by equivalents, appropriate results can be achieved.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.Therefore, other implementations, other embodiments, and equivalents of the claims are within the scope of the following claims.

Claims (14)

컴퓨터 시스템에서 수행되는 음향 가이드 방법에 있어서,
상기 컴퓨터 시스템이 포함하는 적어도 하나의 프로세서의 의해, 사용자 음성을 기초로 사용자가 활성화하고자 하는 기능의 인터페이스 객체를 타겟 버튼으로 지정하는 단계;
상기 적어도 하나의 프로세서의 의해, 카메라를 통한 실시간 영상에서 상기 타겟 버튼과 상기 사용자의 손끝을 감지하는 단계; 및
상기 적어도 하나의 프로세서의 의해, 상기 타겟 버튼과 상기 손끝에 대한 감지 결과에 따라 음향 가이드를 제공하는 단계
를 포함하는 음향 가이드 방법.
In the acoustic guide method performed in a computer system,
designating, by at least one processor included in the computer system, an interface object of a function that the user wants to activate based on the user's voice as a target button;
detecting, by the at least one processor, the target button and the user's fingertip in a real-time image through a camera; and
Providing, by the at least one processor, a sound guide according to a result of sensing the target button and the fingertip
Acoustic guide method comprising a.
제1항에 있어서,
상기 지정하는 단계는,
상기 사용자 음성을 텍스트로 변환하는 단계; 및
상기 텍스트에 대응되는 키워드의 인터페이스 객체를 상기 타겟 버튼으로 지정하는 단계
를 포함하는 음향 가이드 방법.
According to claim 1,
The step of specifying
converting the user's voice into text; and
Designating an interface object of a keyword corresponding to the text as the target button
Acoustic guide method comprising a.
제1항에 있어서,
상기 감지하는 단계는,
손끝 이미지와 인터페이스 객체 이미지로 구성된 데이터셋으로 학습된 CNN(convolution neural network) 기반의 객체 인식 모델을 통해 상기 타겟 버튼과 상기 손끝의 위치를 추적하는 단계
를 포함하는 음향 가이드 방법.
According to claim 1,
The detecting step is
Tracking the location of the target button and the fingertip through a convolution neural network (CNN)-based object recognition model trained with a dataset consisting of a fingertip image and an interface object image.
Acoustic guide method comprising a.
제1항에 있어서,
상기 감지하는 단계는,
CNN 기반의 SSD(single-shot multibox detector)를 이용하여 상기 타겟 버튼과 상기 손끝의 위치에 따라 상기 사용자가 상기 타겟 버튼을 터치하는데 필요한 시간을 계산하는 단계
를 포함하는 음향 가이드 방법.
According to claim 1,
The detecting step is
Calculating a time required for the user to touch the target button according to the position of the target button and the fingertip using a CNN-based single-shot multibox detector (SSD)
Acoustic guide method comprising a.
제1항에 있어서,
상기 음향 가이드를 제공하는 단계는,
카메라 영상에서 감지된 상기 타겟 버튼과 상기 손끝의 위치를 나타내는 경계 상자(bounding box) 좌표를 서로 비교하여 상기 타겟 버튼에 대한 상기 손끝의 이동 방향을 안내하는 단계
를 포함하는 음향 가이드 방법.
According to claim 1,
Providing the acoustic guide,
guiding a movement direction of the fingertip with respect to the target button by comparing coordinates of the target button detected from the camera image and a bounding box representing the position of the fingertip with each other;
Acoustic guide method comprising a.
제1항에 있어서,
상기 음향 가이드를 제공하는 단계는,
카메라 영상에 상기 타겟 버튼이 포착되는지 여부를 확인하는 단계;
상기 카메라 영상에 상기 타겟 버튼이 포착되면 상기 카메라 영상에서 상기 손끝의 위치를 찾는 단계;
상기 카메라 영상에서 상기 타겟 버튼과 상기 손끝의 위치를 비교하여 비교 결과에 따라 상기 손끝의 이동 방향에 대한 가이드 피드백을 제공하는 단계; 및
상기 손끝의 위치가 상기 타겟 버튼의 위치에 도달함에 따른 결과 피드백을 제공하는 단계
를 포함하는 음향 가이드 방법.
According to claim 1,
Providing the acoustic guide,
Checking whether the target button is captured in the camera image;
finding the position of the fingertip in the camera image when the target button is captured in the camera image;
comparing positions of the target button and the fingertip in the camera image and providing guide feedback on a moving direction of the fingertip according to a comparison result; and
Providing feedback as a result of the location of the fingertip reaching the location of the target button
Acoustic guide method comprising a.
제6항에 있어서,
상기 음향 가이드를 제공하는 단계는,
상기 카메라 영상에 상기 타겟 버튼이 포착되지 않으면 해당 감지 결과에 대한 음성 알림을 제공하는 단계
를 더 포함하는 음향 가이드 방법.
According to claim 6,
Providing the acoustic guide,
Providing a voice notification for a corresponding detection result when the target button is not captured in the camera image
Acoustic guide method further comprising a.
음향 가이드 방법을 컴퓨터에 실행시키기 위해 컴퓨터 판독가능한 기록 매체에 저장되는 컴퓨터 프로그램에 있어서,
상기 음향 가이드 방법은,
사용자 음성을 기초로 사용자가 활성화하고자 하는 기능의 인터페이스 객체를 타겟 버튼으로 지정하는 단계;
카메라를 통한 실시간 영상에서 상기 타겟 버튼과 상기 사용자의 손끝을 감지하는 단계; 및
상기 타겟 버튼과 상기 손끝에 대한 감지 결과에 따라 음향 가이드를 제공하는 단계
를 포함하는, 컴퓨터 프로그램.
A computer program stored in a computer readable recording medium for executing a sound guide method on a computer,
The acoustic guide method,
designating an interface object of a function to be activated by a user as a target button based on a user's voice;
detecting the target button and the user's fingertip in a real-time image through a camera; and
Providing a sound guide according to the detection result of the target button and the fingertip
Including, a computer program.
컴퓨터로 구현되는 음향 가이드 시스템에 있어서,
메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서
를 포함하고,
상기 적어도 하나의 프로세서는,
사용자 음성을 기초로 사용자가 활성화하고자 하는 기능의 인터페이스 객체를 타겟 버튼으로 지정하는 과정;
카메라를 통한 실시간 영상에서 상기 타겟 버튼과 상기 사용자의 손끝을 감지하는 과정; 및
상기 타겟 버튼과 상기 손끝에 대한 감지 결과에 따라 음향 가이드를 제공하는 과정
을 처리하는 음향 가이드 시스템.
In the acoustic guide system implemented by a computer,
at least one processor configured to execute computer readable instructions contained in memory;
including,
The at least one processor,
designating an interface object of a function that the user wants to activate as a target button based on the user's voice;
detecting the target button and the user's fingertip in a real-time image through a camera; and
A process of providing a sound guide according to the detection result of the target button and the fingertip
Acoustic guide system that handles
제9항에 있어서,
상기 적어도 하나의 프로세서는,
상기 사용자 음성을 텍스트로 변환하고,
상기 텍스트에 대응되는 키워드의 인터페이스 객체를 상기 타겟 버튼으로 지정하는 것
을 특징으로 하는 음향 가이드 시스템.
According to claim 9,
The at least one processor,
converting the user's voice into text;
Designating an interface object of a keyword corresponding to the text as the target button
Acoustic guide system characterized in that.
제9항에 있어서,
상기 적어도 하나의 프로세서는,
손끝 이미지와 인터페이스 객체 이미지로 구성된 데이터셋으로 학습된 CNN(convolution neural network) 기반의 객체 인식 모델을 통해 상기 타겟 버튼과 상기 손끝의 위치를 추적하는 것
을 특징으로 하는 음향 가이드 시스템.
According to claim 9,
The at least one processor,
Tracking the location of the target button and the fingertip through a convolution neural network (CNN)-based object recognition model trained with a dataset consisting of a fingertip image and an interface object image
Acoustic guide system characterized in that.
제9항에 있어서,
상기 적어도 하나의 프로세서는,
CNN 기반의 SSD(single-shot multibox detector)를 이용하여 상기 타겟 버튼과 상기 손끝의 위치에 따라 상기 사용자가 상기 타겟 버튼을 터치하는데 필요한 시간을 계산하는 것
을 특징으로 하는 음향 가이드 시스템.
According to claim 9,
The at least one processor,
Calculating a time required for the user to touch the target button according to the location of the target button and the fingertip using a CNN-based single-shot multibox detector (SSD)
Acoustic guide system characterized in that.
제9항에 있어서,
상기 적어도 하나의 프로세서는,
카메라 영상에서 감지된 상기 타겟 버튼과 상기 손끝의 위치를 나타내는 경계 상자(bounding box) 좌표를 서로 비교하여 상기 타겟 버튼에 대한 상기 손끝의 이동 방향을 안내하는 것
을 특징으로 하는 음향 가이드 시스템.
According to claim 9,
The at least one processor,
Guiding the movement direction of the fingertip with respect to the target button by comparing coordinates of the target button detected from the camera image and a bounding box representing the location of the fingertip with each other
Acoustic guide system characterized in that.
제9항에 있어서,
상기 적어도 하나의 프로세서는,
카메라 영상에 상기 타겟 버튼이 포착되는지 여부를 확인하고,
상기 카메라 영상에 상기 타겟 버튼이 포착되지 않으면 해당 감지 결과에 대한 음성 알림을 제공하고,
상기 카메라 영상에 상기 타겟 버튼이 포착되면 상기 카메라 영상에서 상기 손끝의 위치를 찾고,
상기 카메라 영상에서 상기 타겟 버튼과 상기 손끝의 위치를 비교하여 비교 결과에 따라 상기 손끝의 이동 방향에 대한 가이드 피드백을 제공하고,
상기 손끝의 위치가 상기 타겟 버튼의 위치에 도달함에 따른 결과 피드백을 제공하는 것
을 특징으로 하는 음향 가이드 시스템.
According to claim 9,
The at least one processor,
Check whether the target button is captured in the camera image,
If the target button is not captured in the camera image, an audio notification is provided for a corresponding detection result;
When the target button is captured in the camera image, the location of the fingertip is found in the camera image;
comparing the position of the target button and the fingertip in the camera image and providing guide feedback on the moving direction of the fingertip according to the comparison result;
Providing feedback as a result of the location of the fingertip reaching the location of the target button
Acoustic guide system characterized in that.
KR1020210170523A 2021-12-02 2021-12-02 METHOD AND DEVICE FOR Task-oriented Sounding Guide with Object Detection to Guide Visually Impaired People During Smart Device Usage KR102593866B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210170523A KR102593866B1 (en) 2021-12-02 2021-12-02 METHOD AND DEVICE FOR Task-oriented Sounding Guide with Object Detection to Guide Visually Impaired People During Smart Device Usage

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210170523A KR102593866B1 (en) 2021-12-02 2021-12-02 METHOD AND DEVICE FOR Task-oriented Sounding Guide with Object Detection to Guide Visually Impaired People During Smart Device Usage

Publications (2)

Publication Number Publication Date
KR20230082758A true KR20230082758A (en) 2023-06-09
KR102593866B1 KR102593866B1 (en) 2023-10-26

Family

ID=86765011

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210170523A KR102593866B1 (en) 2021-12-02 2021-12-02 METHOD AND DEVICE FOR Task-oriented Sounding Guide with Object Detection to Guide Visually Impaired People During Smart Device Usage

Country Status (1)

Country Link
KR (1) KR102593866B1 (en)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001134890A (en) * 1999-11-08 2001-05-18 Sony Corp Voice guiding device
JP2002288071A (en) * 2001-03-23 2002-10-04 Wacom-It Co Ltd Browser system for visually handicapped person
KR20100047719A (en) * 2008-10-29 2010-05-10 엘지전자 주식회사 Terminal and method for controlling the same
JP2012085134A (en) * 2010-10-13 2012-04-26 Mitsubishi Electric Corp Voice guide device and voice guide method
JP2014227297A (en) * 2013-05-27 2014-12-08 三菱電機ビルテクノサービス株式会社 Voice guidance device for elevator
JP2017090613A (en) * 2015-11-09 2017-05-25 三菱自動車工業株式会社 Voice recognition control system
KR20210012198A (en) * 2019-07-24 2021-02-03 이상현 Apparatus and method of speaking object location information for blind person
KR20210029388A (en) * 2019-09-06 2021-03-16 인하대학교 산학협력단 Object detection and guidance system for people with visual impairment

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001134890A (en) * 1999-11-08 2001-05-18 Sony Corp Voice guiding device
JP2002288071A (en) * 2001-03-23 2002-10-04 Wacom-It Co Ltd Browser system for visually handicapped person
KR20100047719A (en) * 2008-10-29 2010-05-10 엘지전자 주식회사 Terminal and method for controlling the same
JP2012085134A (en) * 2010-10-13 2012-04-26 Mitsubishi Electric Corp Voice guide device and voice guide method
JP2014227297A (en) * 2013-05-27 2014-12-08 三菱電機ビルテクノサービス株式会社 Voice guidance device for elevator
JP2017090613A (en) * 2015-11-09 2017-05-25 三菱自動車工業株式会社 Voice recognition control system
KR20210012198A (en) * 2019-07-24 2021-02-03 이상현 Apparatus and method of speaking object location information for blind person
KR20210029388A (en) * 2019-09-06 2021-03-16 인하대학교 산학협력단 Object detection and guidance system for people with visual impairment

Also Published As

Publication number Publication date
KR102593866B1 (en) 2023-10-26

Similar Documents

Publication Publication Date Title
US11409497B2 (en) Hands-free navigation of touch-based operating systems
US8606735B2 (en) Apparatus and method for predicting user's intention based on multimodal information
US11947752B2 (en) Customizing user interfaces of binary applications
US20130211843A1 (en) Engagement-dependent gesture recognition
KR102595790B1 (en) Electronic apparatus and controlling method thereof
US20070274591A1 (en) Input apparatus and input method thereof
US20130167025A1 (en) System and method for online user assistance
US10656806B2 (en) Display interface systems and methods
KR101474856B1 (en) Apparatus and method for generateg an event by voice recognition
KR20190105403A (en) An external device capable of being combined with an electronic device, and a display method thereof.
US20210081029A1 (en) Gesture control systems
EP3714355B1 (en) Expanding physical motion gesture lexicon for an automated assistant
JP5776544B2 (en) Robot control method, robot control device, and robot
EP1705554A2 (en) System and method for dynamically adapting performance of interactive dialog system basd on multi-modal confirmation
CN113497912A (en) Automatic framing through voice and video positioning
KR102593866B1 (en) METHOD AND DEVICE FOR Task-oriented Sounding Guide with Object Detection to Guide Visually Impaired People During Smart Device Usage
WO2016197430A1 (en) Information output method, terminal, and computer storage medium
CN109690446A (en) A kind of exchange method and electronic equipment
Akkapusit et al. Task-oriented approach to guide visually impaired people during smart device usage
Le et al. Multimodal smart interactive presentation system
JP7395513B2 (en) Customizing the user interface of binary applications
Safitli et al. Controlling Computer Device Cursors Using Hand Gestures by Utilizing OpenCV, MediaPipe, and PyAutoGui
Guan et al. FetchAid: Making Parcel Lockers More Accessible to Blind and Low Vision People With Deep-learning Enhanced Touchscreen Guidance, Error-Recovery Mechanism, and AR-based Search Support
Recalde et al. Creating an Accessible Future: Developing a Sign Language to Speech Translation Mobile Application with MediaPipe Hands Technology
Schwarz Monte Carlo Methods for Managing Uncertain User Interfaces

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right