KR102191083B1 - Method for controlling bus information terminal(BIT) and bus information terminal for performing the method - Google Patents

Method for controlling bus information terminal(BIT) and bus information terminal for performing the method Download PDF

Info

Publication number
KR102191083B1
KR102191083B1 KR1020200103292A KR20200103292A KR102191083B1 KR 102191083 B1 KR102191083 B1 KR 102191083B1 KR 1020200103292 A KR1020200103292 A KR 1020200103292A KR 20200103292 A KR20200103292 A KR 20200103292A KR 102191083 B1 KR102191083 B1 KR 102191083B1
Authority
KR
South Korea
Prior art keywords
text
bus
information
analysis
bus information
Prior art date
Application number
KR1020200103292A
Other languages
Korean (ko)
Inventor
양영모
Original Assignee
이쎌 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 이쎌 주식회사 filed Critical 이쎌 주식회사
Priority to KR1020200103292A priority Critical patent/KR102191083B1/en
Application granted granted Critical
Publication of KR102191083B1 publication Critical patent/KR102191083B1/en

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/123Traffic control systems for road vehicles indicating the position of vehicles, e.g. scheduled vehicles; Managing passenger vehicles circulating according to a fixed timetable, e.g. buses, trains, trams
    • G08G1/133Traffic control systems for road vehicles indicating the position of vehicles, e.g. scheduled vehicles; Managing passenger vehicles circulating according to a fixed timetable, e.g. buses, trains, trams within the vehicle ; Indicators inside the vehicles or at stops
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Abstract

The present invention relates to a control method of a bus information providing terminal and a bus information providing terminal performing the method thereof. The control method of the bus information providing terminal may include: a step of receiving, by a bus information providing terminal, a sound signal; a step of determining, by the bus information providing terminal, text information to be analyzed based on the sound signal; and a step of providing, by the bus information providing terminal, information on a target bus corresponding to the text information to be analyzed.

Description

버스 정보 제공 터미널의 제어 방법 및 이러한 방법을 수행하는 버스 정보 제공 터미널{Method for controlling bus information terminal(BIT) and bus information terminal for performing the method}A method for controlling a bus information providing terminal and a bus information providing terminal for performing such a method {Method for controlling bus information terminal (BIT) and bus information terminal for performing the method}

본 발명은 버스 정보 제공 터미널의 제어 방법 및 이러한 방법을 수행하는 버스 정보 제공 터미널에 관한 것이다. 보다 상세하게는 시각 장애인과 같은 장애인을 위해 버스 관련 정보를 제공하는 BIT(bus information terminal)를 제어하는 방법 및 이러한 방법을 수행하는 장치에 관한 것이다.The present invention relates to a control method of a bus information providing terminal and a bus information providing terminal performing the method. More specifically, it relates to a method for controlling a bus information terminal (BIT) that provides bus-related information for a disabled person such as a visually impaired person, and an apparatus for performing the method.

현재 운행되고 있는 시내 버스 정류장은 서울시의 일부 지역에서 운행되고 있는 버스 중앙 차로제로 인해 대기 공간이 다소 좁은 경우도 있기 때문에 이와 같은 불편 사항을 포함하여 어떤 불편이 있는지에 대한 답변을 살펴보면, 가장 많은 답변이'정류장 구역 내에 정차하지 않는 버스 때문으로 27.4%를 차지하고 있다. 장애 유형별로 답변한 내용 중에서 지체장애인 및 뇌병변장애인 그룹은 모두 정류장 구역 내에 정차하지 않는 버스 때문에 불편하다는 답변이 가장 높은 26% 및 25.5%로 가장 높게 나타났으나 시각장애인과 청각장애인 그룹은 BIT(bus information terminal) 기반 안내를 하지 않고 있는 정류장이 많기 때문이라는 이유가 각각 31.1%와 30.5%를 차지하고 있어서 오히려 안내 정보가 더 필요한 것으로 볼 수 있다.Currently operating city bus stops may have a rather narrow waiting space due to the central lane system for buses operating in some areas of Seoul, so if you look at the answers to the inconveniences, including these inconveniences, the most answers. It accounts for 27.4% of the buses that do not stop within the Lee' stop area. Among the responses by type of disability, both the physically impaired and the brain lesion disabled group had the highest answer of being uncomfortable due to the bus that does not stop within the bus stop area, with the highest 26% and 25.5%. Bus information terminal) is the reason that there are many stops that do not provide guidance, accounting for 31.1% and 30.5%, respectively, so it can be seen that more information is needed.

시각 장애인 그룹의 경우에는 정류장 구역 내에 정차하지 않는 버스 때문이라는 답변도 29.5%로 매우 높게 답변함으로써 정보 안내에 대한 중요성뿐만 아니라 시내 버스 정차 지역이 부정확하기 때문에 겪고 있는 곤란이 매우 큰 것으로 볼 수 있다. 또한 시각 장애인 그룹은 도착 시내 버스에 대한 음성 안내가 없는 것도 매우 불편한 것으로 답변하고 있다. In the case of the visually impaired group, 29.5% of the respondents answered that it was due to the bus that does not stop within the bus stop area, indicating the importance of information guidance as well as the inaccuracy of the city bus stop area. Also, the visually impaired group responded that it was very inconvenient that there was no voice guidance for the arriving city bus.

즉, 현재 시각 장애인들은 버스 정류장에서 버스 정보가 정확하게 전달되지 않기 때문에 버스 탑승에 불편함을 겪고 있고, 이러한 버스 정보를 정확하게 전달하기 위한 버스 정보 제공 터미널(BIT)의 개발이 필요하다.That is, at present, visually impaired people are inconvenient to board a bus because bus information is not accurately transmitted at a bus stop, and development of a bus information providing terminal (BIT) for accurately transmitting such bus information is required.

본 발명은 상술한 문제점을 모두 해결하는 것을 그 목적으로 한다.An object of the present invention is to solve all of the above-described problems.

또한, 본 발명은, 시각 장애인을 위한 음성 기반의 버스 정보 안내 시스템을 구현하는 것을 목적으로 한다.In addition, an object of the present invention is to implement a voice-based bus information guidance system for the visually impaired.

또한, 본 발명은, 시각 장애인의 동작을 인식하고, 입력되는 소리에서 노이즈를 제거하는 방식으로 시각 장애인의 음성을 정확하게 인식하여 정확한 버스 정보를 안내하는 것을 목적으로 한다.In addition, an object of the present invention is to provide accurate bus information by recognizing the motion of the visually impaired and by removing noise from the input sound.

상기 목적을 달성하기 위한 본 발명의 대표적인 구성은 다음과 같다.A typical configuration of the present invention for achieving the above object is as follows.

본 발명의 일 실시예에 따르면, 버스 정보 제공 터미널의 제어 방법은 상기 버스 정보 제공 터미널이 소리 신호를 수신하는 단계, 상기 버스 정보 제공 터미널이 상기 소리 신호를 기반으로 분석 대상 텍스트 정보를 결정하는 단계와 상기 버스 정보 제공 터미널이 상기 분석 대상 텍스트 정보에 대응되는 타겟 버스의 정보를 제공하는 단계를 포함할 수 있다. According to an embodiment of the present invention, a method of controlling a bus information providing terminal includes the steps of receiving, by the bus information providing terminal, a sound signal, and determining, by the bus information providing terminal, text information to be analyzed based on the sound signal. And providing, by the bus information providing terminal, information on a target bus corresponding to the text information to be analyzed.

한편, 상기 분석 대상 텍스트 정보는 상기 버스 정보 터미널을 기반으로 추출된 후보 텍스트 정보 상에서 트리거 단어를 기반으로 결정될 수 있다.Meanwhile, the analysis target text information may be determined based on a trigger word on candidate text information extracted based on the bus information terminal.

또한, 상기 분석 대상 텍스트 정보는 상기 트리거 단어를 기반으로 메인 분석 텍스트와 서브 분석 텍스트로 구분되고, 상기 버스 정보 제공 터미널은 상기 메인 분석 텍스트에 대한 분석을 우선적으로 수행하여 상기 타겟 버스 정보를 결정할 수 있다.In addition, the analysis target text information is divided into a main analysis text and a sub analysis text based on the trigger word, and the bus information providing terminal may determine the target bus information by prioritizing analysis on the main analysis text. have.

본 발명의 다른 실시예에 따르면, 버스 정보 제공 터미널은 소리 신호를 수신하도록 구현되는 음성 입력부와 상기 음성 입력부와 동작 가능하게(operatively) 연결된 프로세서를 포함하되, 상기 프로세서는 상기 소리 신호를 기반으로 분석 대상 텍스트 정보를 결정하고, 상기 분석 대상 텍스트 정보에 대응되는 타겟 버스의 정보를 제공하도록 구현될 수 있다. According to another embodiment of the present invention, the bus information providing terminal includes a voice input unit implemented to receive a sound signal and a processor operatively connected to the voice input unit, wherein the processor analyzes the sound signal based on the sound signal. It may be implemented to determine target text information and provide information on a target bus corresponding to the analysis target text information.

한편, 상기 분석 대상 텍스트 정보는 상기 버스 정보 터미널을 기반으로 추출된 후보 텍스트 정보 상에서 트리거 단어를 기반으로 결정될 수 있다.Meanwhile, the analysis target text information may be determined based on a trigger word on candidate text information extracted based on the bus information terminal.

또한, 상기 분석 대상 텍스트 정보는 상기 트리거 단어를 기반으로 메인 분석 텍스트와 서브 분석 텍스트로 구분되고, 상기 프로세서는 상기 메인 분석 텍스트에 대한 분석을 우선적으로 수행하여 상기 타겟 버스 정보를 결정할 수 있다. Also, the analysis target text information is divided into a main analysis text and a sub analysis text based on the trigger word, and the processor may determine the target bus information by prioritizing analysis on the main analysis text.

본 발명에 의하면, 시각 장애인을 위한 음성 기반의 버스 정보 안내 시스템이 구현될 수 있다.According to the present invention, a voice-based bus information guidance system for the visually impaired can be implemented.

또한, 본 발명에 의하면, 시각 장애인의 동작을 인식하고, 입력되는 소리에서 노이즈를 제거하는 방식으로 시각 장애인의 음성을 정확하게 인식하여 정확한 버스 정보가 제공될 수 있다.In addition, according to the present invention, accurate bus information can be provided by accurately recognizing the voice of the visually impaired by recognizing the motion of the visually impaired and removing noise from the input sound.

도 1은 본 발명의 실시예에 따른 버스 정보 제공 터미널을 나타낸 개념도이다.
도 2는 본 발명의 실시예에 따른 음성 분석부의 음성 분석 동작을 나타낸 개념도이다.
도 3은 본 발명의 실시예에 따른 음성 분석부의 동작을 나타낸 개념도이다.
도 4는 본 발명의 실시예에 따른 영상 분석부의 동작을 나타낸 개념도이다.
도 5는 본 발명의 실시예에 따른 객체 동작 분석 알고리즘을 나타낸 개념도이다.
도 6은 본 발명의 실시예에 따른 노이즈 제거 방법을 나타낸 개념도이다.
1 is a conceptual diagram showing a bus information providing terminal according to an embodiment of the present invention.
2 is a conceptual diagram showing a speech analysis operation of a speech analysis unit according to an embodiment of the present invention.
3 is a conceptual diagram showing the operation of a speech analysis unit according to an embodiment of the present invention.
4 is a conceptual diagram showing an operation of an image analysis unit according to an embodiment of the present invention.
5 is a conceptual diagram showing an object motion analysis algorithm according to an embodiment of the present invention.
6 is a conceptual diagram showing a noise removal method according to an embodiment of the present invention.

후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이러한 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 본 명세서에 기재되어 있는 특정 형상, 구조 및 특성은 본 발명의 정신과 범위를 벗어나지 않으면서 일 실시예로부터 다른 실시예로 변경되어 구현될 수 있다. 또한, 각각의 실시예 내의 개별 구성요소의 위치 또는 배치도 본 발명의 정신과 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 행하여 지는 것이 아니며, 본 발명의 범위는 특허청구범위의 청구항들이 청구하는 범위 및 그와 균등한 모든 범위를 포괄하는 것으로 받아들여져야 한다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 구성요소를 나타낸다.DETAILED DESCRIPTION OF THE INVENTION The detailed description of the present invention to be described later refers to the accompanying drawings, which illustrate specific embodiments in which the present invention may be practiced. These embodiments are described in detail sufficient to enable those skilled in the art to practice the present invention. It is to be understood that the various embodiments of the present invention are different from each other, but need not be mutually exclusive. For example, specific shapes, structures, and characteristics described herein may be changed from one embodiment to another and implemented without departing from the spirit and scope of the present invention. In addition, it should be understood that the positions or arrangements of individual elements in each embodiment may be changed without departing from the spirit and scope of the present invention. Therefore, the detailed description to be described later is not intended to be limited, and the scope of the present invention should be taken as encompassing the scope claimed by the claims of the claims and all scopes equivalent thereto. Like reference numerals in the drawings indicate the same or similar elements over several aspects.

이하에서는, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 여러 바람직한 실시예에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.Hereinafter, various preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings in order to enable those skilled in the art to easily implement the present invention.

도 1은 본 발명의 실시예에 따른 버스 정보 제공 터미널을 나타낸 개념도이다.1 is a conceptual diagram showing a bus information providing terminal according to an embodiment of the present invention.

도 1에서는 버스 정보 제공 터미널에서 시각 장애인의 움직임을 분석하고, 입력되는 소리에서 노이즈를 제거하여 필요 음성 정보를 추출하기 위한 버스 정보 제공 터미널이 개시된다.In FIG. 1, a bus information providing terminal is disclosed for analyzing movement of a visually impaired person in a bus information providing terminal, removing noise from an input sound, and extracting necessary voice information.

도 1을 참조하면, 버스 정보 제공 터미널은 영상 촬상부(100), 영상 분석부(110), 음성 입력부(120), 음성 분석부(130), 버스 정보 제공부(140) 및 프로세서(150)를 포함할 수 있다.Referring to FIG. 1, the bus information providing terminal includes an image capture unit 100, an image analysis unit 110, an audio input unit 120, an audio analysis unit 130, a bus information providing unit 140, and a processor 150. It may include.

영상 촬상부(100)는 버스 정류장에 위치한 탑승 대기자에 대한 영상을 촬상하기 위해 구현될 수 있다. 구체적으로 영상 촬상부(100)는 탑승 대기자 중에 시각 장애인이 버스 정보 제공 터미널에 대해 발화하는지 여부를 탐지하기 위한 영상 정보(발화), 탑승 대기자(시각 장애인)이 타고자 하는 타겟 버스가 도착시 탑승 대기자(시각 장애인)에게 탑승을 알리기 위한 영상 정보(탑승)를 촬상하기 위해 구현될 수 있다.The image capture unit 100 may be implemented to capture an image of a person waiting for boarding located at a bus stop. Specifically, the image capture unit 100 includes image information (ignition) for detecting whether a blind person ignites at the bus information providing terminal among the waiting for boarding, and a target bus to which the boarding waiter (visually impaired) wants to ride is boarded upon arrival. It may be implemented to capture image information (boarding) for notifying boarding to a waiting person (visually impaired).

영상 분석부(110)는 영상 촬상부에 의해 촬상된 영상을 분석하기 위해 구현될 수 있다. 영상 분석부(110)는 전술한 바와 같이 촬상되는 영상 정보 중 영상 정보(발화), 영상 정보(탑승)을 분석할 수 있다. 영상 분석부(110)는 촬상된 영상 중 탑승 대기자(시각 장애인)가 버스 정보 제공 터미널로 다가와서 발화를 하는 영상을 추출하여 영상 정보(발화)로 결정하고, 탑승자(시각 장애인)이 탑승하고자 하는 타겟 버스의 도착 및 도착 이후, 탑승자(시각 장애인)가 타겟 버스에 탑승 여부를 확인하기 위한 영상인 영상 정보(탑승)을 생성할 수 있다.The image analysis unit 110 may be implemented to analyze an image captured by the image pickup unit. The image analysis unit 110 may analyze image information (speech) and image information (boarding) among image information captured as described above. The image analysis unit 110 extracts an image in which a person waiting for boarding (visually impaired) approaches the bus information providing terminal from the imaged images and makes an utterance, and determines the image information (speech), and determines the target that the occupant (visually impaired) wishes to board. After the arrival and arrival of the bus, image information (boarding), which is an image for confirming whether the occupant (visually impaired) boards the target bus, may be generated.

영상 분석부(110)는 영상 정보(발화)에서 발화 시점을 추출하여 입력된 음성에서 노이즈를 제거하기 위한 영상 분석을 수행할 수 있고, 영상 정보(탑승)을 분석하여 탑승자(시각 장애인)의 동작을 트래킹하여 탑승자(시각 장애인)의 타겟 버스가 도착시 시각 장애인의 탑승 위한 정보를 제공할 수 있다.The image analysis unit 110 may perform image analysis to remove noise from the input voice by extracting the utterance time from the image information (speech), and analyze the image information (boarding) to analyze the motion of the occupant (visually impaired). When the target bus of the occupant (visually impaired) arrives by tracking, information for boarding the visually impaired may be provided.

음성 입력부(120)는 버스 정보 제공 터미널로 입력되는 소리 신호를 수신하기 위해 구현될 수 있다.The voice input unit 120 may be implemented to receive a sound signal input to a bus information providing terminal.

음성 분석부(130)는 음성 입력부로 전송되는 소리 신호 중 노이즈 신호를 제거하고 분석 대상 음성 신호만을 추출하여 분석하기 위해 구현될 수 있다. 음성 분석부(130)는 버스에 대한 정보를 문의하는 분석 대상 음성 신호를 추출하기 위해 별도의 노이즈 판단 절차를 거질 수 있다. 또한, 음성 분석부(130)는 영상 분석부(110)와 연동하여 영상 분석부(110)를 통해 탑승자(시각 장애인)의 발화 시점을 분석하여 노이즈를 제거하여 분석 대상 음성 신호를 추출하기 위해서도 구현될 수 있다.The voice analysis unit 130 may be implemented to remove a noise signal from among sound signals transmitted to the voice input unit, and extract and analyze only a voice signal to be analyzed. The voice analysis unit 130 may perform a separate noise determination procedure in order to extract an analysis target voice signal for inquiring about bus information. In addition, the voice analysis unit 130 is implemented to extract the voice signal to be analyzed by removing noise by analyzing the utterance time of the occupant (visually impaired) through the image analysis unit 110 in conjunction with the image analysis unit 110 Can be.

버스 정보 제공부(140)는 음성 분석부(130)에 의해 분석된 분석 대상 음성 신호를 기반으로 타겟 버스 정보를 제공하기 위해 구현될 수 있다. 예를 들어, 분석 대상 음성 신호가 'XXX 번 버스'인 경우, 타겟 버스인 XXX 번 버스에 대한 정보(대기 시간, 도착 여부)가 버스 정보 제공부에 의해 전달될 수 있다. The bus information providing unit 140 may be implemented to provide target bus information based on an analysis target voice signal analyzed by the voice analysis unit 130. For example, when the voice signal to be analyzed is'Bus XXX', information (waiting time, arrival or not) on bus XXX, which is a target bus, may be transmitted by the bus information provider.

프로세서(150)는 영상 촬상부(100), 영상 분석부(110), 음성 입력부(120), 음성 분석부(130), 버스 정보 제공부(140)의 동작을 제어하기 위해 구현될 수 있다.The processor 150 may be implemented to control the operation of the image capture unit 100, the image analysis unit 110, the audio input unit 120, the audio analysis unit 130, and the bus information providing unit 140.

도 1에서는 설명의 편의상 영상 분석부(110), 음성 분석부(130) 등과 같은 각 구성부가 버스 정보 제공 터미널에 모두 포함되는 것으로 가정하였으나, 별도의 위치에 구현되어 유무선 통신망을 통해 버스 정보 제공 터미널과 통신 가능한 구조로 구현될 수도 있다.In FIG. 1, for convenience of explanation, it is assumed that each component such as the image analysis unit 110 and the audio analysis unit 130 is included in the bus information providing terminal. However, the terminal is implemented in a separate location to provide bus information through a wired or wireless communication network. It may be implemented in a structure that can communicate with.

도 2는 본 발명의 실시예에 따른 음성 분석부의 음성 분석 동작을 나타낸 개념도이다.2 is a conceptual diagram showing a speech analysis operation of a speech analysis unit according to an embodiment of the present invention.

도 2에서는 음성 분석부로 입력되는 음성을 분석하여 분석 대상 음성 신호를 추출하기 위한 방법이 개시된다.In FIG. 2, a method for extracting a voice signal to be analyzed by analyzing a voice input to a voice analysis unit is disclosed.

도 2를 참조하면, 음성 분석부는 입력되는 소리 신호에서 후보 텍스트 정보(200)를 결정하고, 후보 텍스트 정보(200)에서 노이즈 텍스트 정보(220)를 제거하여 분석 대상 텍스트(240)를 결정할 수 있다.Referring to FIG. 2, the speech analysis unit may determine candidate text information 200 from an input sound signal, and may determine an analysis target text 240 by removing noise text information 220 from the candidate text information 200. .

후보 텍스트 정보(200)는 음성 입력부로 전달되는 소리 신호를 텍스트화한 정보일 수 있다. 음성 분석부는 소리 신호를 텍스트로 변환하는 텍스트 변환 모듈를 포함할 수 있다.The candidate text information 200 may be information obtained by converting a sound signal transmitted to the voice input unit into text. The speech analysis unit may include a text conversion module that converts the sound signal into text.

후보 텍스트 정보(200)는 버스 번호를 물어보는 소리 신호뿐만 아니라 다른 다양한 소리 신호를 텍스트화한 정보를 포함할 수 있다. 버스 번호를 물어보는 소리 신호를 텍스트화한 정보는 분석 대상 텍스트 정보이고 그 외의 텍스트는 노이즈 텍스트 정보(220)일 수 있다.The candidate text information 200 may include not only a sound signal asking for a bus number, but also textual information of various other sound signals. Information obtained by textualizing a sound signal asking for a bus number may be text information to be analyzed, and other text may be noise text information 220.

음성 분석부는 후보 텍스트 정보(200)에서 노이즈 텍스트 정보(220)와 분석 대상 텍스트 정보(240)를 분리할 수 있다. 후보 텍스트 정보(200)에서 노이즈 텍스트 정보와 분석 대상 텍스트 정보(240)를 분리하는 절차는 노이즈 제거 절차라는 용어로 표현될 수 있다. 노이즈 제거 절차는 트리거 단어를 기반으로 수행되거나 영상 정보를 추가로 고려하여 수행될 수 있다. 노이즈 제거 절차는 후술된다.The speech analysis unit may separate the noise text information 220 and the analysis target text information 240 from the candidate text information 200. A procedure of separating the noise text information from the text information to be analyzed 240 from the candidate text information 200 may be expressed in terms of a noise removal procedure. The noise removal procedure may be performed based on a trigger word or may be performed by additionally considering image information. The noise removal procedure will be described later.

분석 대상 텍스트 정보(240)가 추출된 경우, 분석 대상 텍스트 정보(240)와 버스 데이터베이스(250)에 저장된 버스 정보가 비교하여 타겟 버스(260)가 결정하고, 타겟 버스(260)에 대한 정보는 버스 정보 제공부를 통해 전달할 수 있다.When the text information to be analyzed 240 is extracted, the target bus 260 is determined by comparing the text information to be analyzed 240 and the bus information stored in the bus database 250, and the information on the target bus 260 is It can be delivered through the bus information provider.

만약, 분석 대상 텍스트 정보(240)와 버스 데이터베이스(250)에 저장된 버스 정보의 매칭도가 임계값 이상인 경우, 매칭되는 버스에 대한 정보가 타겟 버스(260)에 대한 정보로서 제공될 수 있다. 분석 대상 텍스트 정보(240)와 버스 데이터베이스(250)에 저장된 버스 정보의 매칭도가 임계값 미만인 경우, 타겟 버스(260)에 대한 추가적인 문의가 수행될 수 있다.If the matching degree between the analysis target text information 240 and the bus information stored in the bus database 250 is equal to or greater than a threshold value, information on the matched bus may be provided as information on the target bus 260. When the matching degree between the analysis target text information 240 and the bus information stored in the bus database 250 is less than the threshold value, an additional inquiry for the target bus 260 may be performed.

도 3은 본 발명의 실시예에 따른 음성 분석부의 동작을 나타낸 개념도이다.3 is a conceptual diagram showing the operation of a speech analysis unit according to an embodiment of the present invention.

도 3에서는 트리거 단어를 기반으로 한 노이즈 제거 절차가 개시된다.In FIG. 3, a noise removal procedure based on a trigger word is disclosed.

도 3을 참조하면, 트리거 단어(300)는 버스 번호에 대한 문의시 사용되는 단어일 수 있다.Referring to FIG. 3, the trigger word 300 may be a word used when inquiring about a bus number.

버스 번호를 문의시에 '번', '버스', '숫자 단어(천, 백이십사)'를 포함하는 소리 신호가 입력될 수 있다. 이러한 '번', '버스', '숫자 단어(천, 백이십사)'와 같은 단어가 트리거 단어일 수 있고, 이러한 단어를 포함하는 후보 텍스트 정보가 분석 대상 텍스트(310)로서 추출될 수 있다. 분석 대상 텍스트(310)에서는 복수의 트리거 단어(300)가 포함될 수도 있다. 예를 들어, 백사십이번 버스인 경우, 트리거 단어는 '백사십이번', '버스' 각각이 제1 트리거 단어, 제2 트리거 단어로 설정되어 분석 대상 텍스트(310)가 결정될 수 있다.When inquiring about the bus number, a sound signal including'number','bus', and'number word (thousand, hundred twenty four)' may be input. Words such as'burn','bus', and'number words (thousand, hundred twenty four)' may be trigger words, and candidate text information including these words may be extracted as the text to be analyzed 310. A plurality of trigger words 300 may be included in the analysis target text 310. For example, in the case of a bus number one hundred forty-two, a trigger word may be set as a first trigger word and a second trigger word as'one hundred forty-two' and'bus', and the analysis target text 310 may be determined.

분석 대상 텍스트(310)는 트리거 단어를 기준으로 메인 분석 텍스트(330)와 서브 분석 텍스트(320, 340)로 분류될 수 있다. 메인 분석 텍스트(330)는 트리거 단어(300)를 기준으로 1차적으로 분석해야 할 텍스트이고, 서브 분석 텍스트(320, 340)는 메인 분석 텍스트(330)의 분석 이후 2차적으로 분석해야 할 텍스트일 수 있다.The analysis target text 310 may be classified into a main analysis text 330 and a sub analysis text 320 and 340 based on a trigger word. The main analysis text 330 is a text to be primarily analyzed based on the trigger word 300, and the sub-analysis texts 320 and 340 are texts to be analyzed secondary after the analysis of the main analysis text 330 I can.

메인 분석 텍스트(330)는 트리거 단어(300)에 따라 다르게 설정될 수 있다. 예를 들어, 트리거 단어(300)가 '번'인 경우, '번'을 기준으로 앞에 숫자에 해당하는 부분이 메인 분석 텍스트(330)일 수 있고, 메인 분석 텍스트(330)의 범위는 '번'과 인접한 n 개의 텍스트일 수 있다. 이때, n은 트리거 단어(300)에 따라 적응적으로 변화되는 값으로 기존의 트리거 단어 기반으로 유효한 정보를 포함할 수 있는 확률이 제1 임계값 이상인 값으로 결정될 수 있다. 이러한 확률값은 기존의 트리거 단어(300)를 포함하는 분석 대상 텍스트(310)에 대한 학습을 기반으로 결정될 수 있다.The main analysis text 330 may be set differently according to the trigger word 300. For example, when the trigger word 300 is'time', the part corresponding to the number in front of the'time' may be the main analysis text 330, and the range of the main analysis text 330 is'time' It may be n texts adjacent to'. In this case, n is a value that is adaptively changed according to the trigger word 300, and may be determined to be a value equal to or greater than the first threshold value in which a probability of including valid information based on the existing trigger word. This probability value may be determined based on learning of the text to be analyzed 310 including the existing trigger word 300.

트리거 단어(300)가 복수개 연속하여 존재하는 경우, 트리거 단어(300) 중 우선적으로 위치한 트리거 단어(300)를 기준으로 메인 분석 텍스트(330)가 설정될 수 있다. When a plurality of trigger words 300 are present in succession, the main analysis text 330 may be set based on the trigger word 300 located preferentially among the trigger words 300.

메인 분석 텍스트(330) 이외의 텍스트로서 메인 분석 텍스트(330)를 기준으로 시간적으로 앞에 존재하는 x개의 텍스트, 시간적으로 뒤에 존재하는 y 개의 텍스트는 서브 분석 텍스트(320, 340)일 수 있다.As texts other than the main analysis text 330, x texts that are temporally in front of the main analysis text 330 and y texts that are temporally behind the main analysis text 330 may be sub-analysis texts 320 and 340.

메인 분석 텍스트(330)를 기준으로 시간적으로 앞에 존재하는 x개의 텍스트는 제1 서브 분석 텍스트(320)이고, 메인 분석 텍스트(300)를 기준으로 시간적으로 뒤에 존재하는 y개의 텍스트는 제2 서브 분석 텍스트(340)일 수 있다.The x texts present temporally in front of the main analysis text 330 are the first sub-analysis texts 320, and y texts that are temporally behind the main analysis text 330 are the second sub-analysis. It may be text 340.

x와 y의 크기는 트리거 단어(300)에 따라 적응적으로 변화되는 값으로 기존의 트리거 단어(300) 기반으로 유효한 정보를 포함할 수 있는 확률이 제2 임계값 이상인 값으로 결정될 수 있다. 이러한 확률값은 기존의 트리거 단어(300)를 포함하는 분석 대상 텍스트(310)에 대한 학습을 기반으로 결정될 수 있다.The sizes of x and y are values that are adaptively changed according to the trigger word 300, and may be determined as a value that is equal to or greater than the second threshold value of a probability of including valid information based on the existing trigger word 300. This probability value may be determined based on learning of the text to be analyzed 310 including the existing trigger word 300.

제1 서브 분석 텍스트(320)와 제2 서브 분석 텍스트(340)는 트리거 단어(300) 별로 우선 순위가 설정될 수 있다. 예를 들어, 트리거 단어 A의 경우 제1 서브 분석 텍스트(320)가 상대적으로 높은 우선 순위를 가지고 제1 서브 분석 텍스트(제1 우선 순위)로 설정되고, 제2 서브 분석 텍스트(340)가 상대적으로 낮은 우선 순위를 가지고 제2 서브 분석 텍스트(제2 우선 순위)로 설정될 수 있다. 반대로 트리거 단어 B의 경우 제1 서브 분석 텍스트(320)가 상대적으로 낮은 우선 순위를 가지고 제1 서브 분석 텍스트(제2 우선 순위)로 설정되고, 제2 서브 분석 텍스트(340)가 상대적으로 높은 우선 순위를 가지고 제2 서브 분석 텍스트(제1 우선 순위)로 설정될 수 있다.Priority of the first sub-analysis text 320 and the second sub-analysis text 340 may be set for each trigger word 300. For example, in the case of the trigger word A, the first sub-analysis text 320 has a relatively high priority and is set as the first sub-analysis text (first priority), and the second sub-analysis text 340 is relatively It may be set as the second sub-analysis text (second priority) with a low priority. Conversely, in the case of the trigger word B, the first sub-analysis text 320 has a relatively low priority and is set as the first sub-analysis text (second priority), and the second sub-analysis text 340 has a relatively high priority. It may be set as a second sub-analysis text (first priority) with a priority.

우선적으로 메인 분석 텍스트(330)를 기준으로 결정된 제1 버스 정보의 신뢰도가 임계값 이상인 경우, 서브 분석 텍스트(320, 340)에 대한 분석이 없이 버스 정보 제공부에서 타겟 버스에 대한 정보가 제공될 수 있다. First, when the reliability of the first bus information determined based on the main analysis text 330 is greater than or equal to the threshold, the bus information providing unit may provide information on the target bus without analyzing the sub-analysis texts 320 and 340. I can.

신뢰도는 메인 분석 텍스트(330)와 매칭되는 버스 정보의 존재여부와 타겟 버스와 유사 버스 번호가 존재 여부를 고려하여 결정될 수 있다. 유사 버스 번호는 포함되는 숫자와 타겟 버스 번호에 포함되는 숫자가 임계 개수(에를 들어, 2개) 이상 동일할 경우이다.The reliability may be determined in consideration of whether bus information matching the main analysis text 330 exists and whether a target bus and a similar bus number exist. The similar bus number is a case where the number included in the target bus number and the number included in the target bus number are equal to or greater than a threshold number (eg, two).

우선적으로 메인 분석 텍스트(330)를 기준으로 결정된 제1 버스 정보의 신뢰도가 임계값 미만일 경우, 서브 분석 텍스트 중 제1 우선 순위를 더 포함하는 텍스트를 기준으로 제2 버스 정보를 추출할 수 있다. First, when the reliability of the first bus information determined based on the main analysis text 330 is less than the threshold value, the second bus information may be extracted based on the text further including the first priority among the sub-analysis texts.

만약, 제1 버스 정보와 제2 버스 정보가 동일할 경우, 동일한 제1 버스 정보와 제2 버스 정보에 대응되는 버스를 타겟 버스로 설정하여 버스 정보 제공부에서 타겟 버스에 대한 정보를 제공할 수 있다.If the first bus information and the second bus information are the same, a bus corresponding to the same first bus information and the second bus information is set as a target bus, and the bus information providing unit can provide information on the target bus. have.

반대로, 제1 버스 정보와 제2 버스 정보가 동일하지 않을 경우, 차순위의 서브 분석 텍스트를 추가로 포함하여 제3 버스 정보를 추출할 수 있다. Conversely, when the first bus information and the second bus information are not the same, the third bus information may be extracted by additionally including a sub-analysis text of the next order.

제1 버스 정보, 제2 버스 정보, 제3 버스 정보 중 과반수에 해당하는 버스 정보가 존재하는 경우, 해당 버스 정보에 대응되는 버스가 타겟 버스로 설정되어 타겟 버스에 대한 정보가 전달될 수 있다. When bus information corresponding to a majority of the first bus information, the second bus information, and the third bus information exists, a bus corresponding to the corresponding bus information may be set as a target bus and information on the target bus may be transmitted.

제1 버스 정보, 제2 버스 정보, 제3 버스 정보가 모두 다른 경우, 다시 버스 정보를 문의하는 절차를 통해 메인 분석 텍스트(330)에 대한 재추출이 진행될 수 있다.When the first bus information, the second bus information, and the third bus information are all different, the main analysis text 330 may be re-extracted through a procedure of inquiring for bus information again.

도 4는 본 발명의 실시예에 따른 영상 분석부의 동작을 나타낸 개념도이다.4 is a conceptual diagram showing an operation of an image analysis unit according to an embodiment of the present invention.

도 4에서는 영상을 기반으로 노이즈를 제거하여 메인 분석 텍스트를 추출하기 위한 방법이 개시된다. In FIG. 4, a method for extracting a main analysis text by removing noise based on an image is disclosed.

도 4를 참조하면, 버스 정보 제공 터미널(460)에 위치한 영상 촬상부(470)를 기반으로 탑승자(특히, 탑승자(시각 장애인))의 접근을 분석하여 텍스트 분석 시점을 설정하여 메인 분석 텍스트를 추출하기 위한 방법이 개시된다.Referring to FIG. 4, based on the image capture unit 470 located in the bus information providing terminal 460, the access of the occupant (especially, the occupant (visually impaired)) is analyzed and the text analysis time is set to extract the main analysis text. A method for doing is disclosed.

영상 분석부는 영상 촬상부(470)로 다가오는 객체(사람)에 대한 분석을 통해 영상 정보(발화)(400)를 추출하여 발화 시작 시점(410)을 결정하고, 발화 시작 시점(410)을 기준으로 메인 분석 텍스트(450)를 결정하도록 할 수 있다.The image analysis unit determines the utterance start point 410 by extracting image information (speech) 400 through analysis of the object (person) approaching the image pickup unit 470, and determines the utterance start point 410 based on the utterance start point 410 The main analysis text 450 may be determined.

발화 시작 시점(410)의 기준은 다양한 방법으로 설정될 수 있다. 발화 시작 시점(410)은 객체가 버스 정보 제공 터미널(460)을 기준으로 임계 거리 이내로 전입한 이후, 입력되는 소리 중 임계 크기 이상의 소리 신호의 발생 시점으로 결정될 수 있다.The criterion of the utterance start time point 410 may be set in various ways. The utterance start time point 410 may be determined as a time point when a sound signal having a threshold level or higher among input sounds is generated after the object moves within a threshold distance based on the bus information providing terminal 460.

또는 영상 분석부는 버스 정보 제공 터미널(460)을 기준으로 임계 거리 이내로 다가온 객체의 입이 움직이는 시점을 기준으로 입력되는 소리 중 임계 크기 이상의 소리 신호의 발생 시점을 발화 시작 시점(410)으로 결정할 수 있다.Alternatively, the image analysis unit may determine the generation time of a sound signal having a threshold level or more among input sounds as the utterance start time 410 based on a time point when a mouth of an object approaching within a threshold distance from the bus information providing terminal 460 moves. .

이러한 발화 시작 시점(410) 이후에 발생되는 텍스트는 메인 분석 텍스트(450)로 결정될 수 있다. 발화 시작 시점(410)이 추가적으로 고려되는 경우, 메인 분석 텍스트(450) 이전에 위치한 제1 서브 분석 텍스트는 별도로 추출되지 않을 수 있다.The text generated after the utterance start time 410 may be determined as the main analysis text 450. When the speech start time point 410 is additionally considered, the first sub-analysis text positioned before the main analysis text 450 may not be separately extracted.

또한, 본 발명의 실시예에 따르면, 발화 시작 시점(410)만으로 메인 분석 텍스트(450)가 결정될 수도 있으나, 영상 분석을 통해 발화 종료 시점(420)이 결정될 수 있다면, 별도의 제1 서브 분석 텍스트도 추출되지 않을 수 있다.In addition, according to an embodiment of the present invention, the main analysis text 450 may be determined only with the utterance start time point 410, but if the utterance end time point 420 can be determined through image analysis, a separate first sub-analysis text Also may not be extracted.

즉, 영상 분석을 통해 발화 시작 시점(410)과 발화 종료 시점(420)이 명확하게 결정되는 경우, 전술한 서브 분석 텍스트없이 발화 시작 시점(410)과 발화 종료 시점(420)에 입력된 소리 신호를 메인 분석 텍스트로 설정하여 타겟 버스를 결정할 수 있다. That is, when the utterance start point 410 and the utterance end point 420 are clearly determined through image analysis, the sound signals input to the utterance start point 410 and the utterance end point 420 without the above-described sub-analysis text The target bus can be determined by setting the as the main analysis text.

영상 분석 결과 발화 시작 시점(410)과 발화 종료 시점(420)의 신뢰도가 떨어지는 경우, 전술한 메인 분석 텍스트(450)를 기준으로 제1 서브 분석 텍스트, 제2 서브 분석 텍스트를 추가적으로 포함한 타겟 버스의 결정이 수행될 수 있다.When the reliability of the utterance start time point 410 and the utterance end time point 420 is low as a result of the image analysis, the target bus additionally including the first sub-analysis text and the second sub-analysis text based on the above-described main analysis text 450 Decisions can be made.

영상 분석 결과, 발화 시작 시점(410)과 발화 종료 시점(420)의 신뢰도는 객체의 입의 움직임과 버스 정보 제공 터미널(460)로 입력되는 소리의 시작 시점 및 소리의 종료 시점을 고려하여 결정될 수 있다. 입의 움직임의 시작 지점과 버스 정보 제공 터미널(460)로 입력되는 소리의 시작 시점, 입의 움직임의 종료 지점과 버스 정보 제공 터미널(460)로 입력되는 소리의 종료 시점 간의 동기화 정도를 기반으로 발화 시작 시점(410)과 발화 종료 시점(420)의 신뢰도가 결정될 수 있다.As a result of image analysis, the reliability of the utterance start point 410 and the utterance end point 420 can be determined in consideration of the movement of the mouth of the object and the start point of the sound input to the bus information providing terminal 460 and the end point of the sound. have. Speech based on the degree of synchronization between the start point of the mouth movement and the start point of the sound input to the bus information providing terminal 460, the end point of the mouth movement, and the end point of the sound input to the bus information providing terminal 460 Reliability of the start point 410 and the end point of speech 420 may be determined.

또는 본 발명의 실시예에 따르면, 발화 시작 시점(410)을 기준으로 트리거 단어에 대한 서치를 수행하는 방식으로 후보 텍스트 정보를 추출할 수도 있다. 도 2 및 도 3에서 전술한 방식에서 영상 정보(발화)를 기반으로 트리거 단어를 서치하는 트리거 단어 서치 구간이 설정될 수 있고, 트리거 단어 서치 구간 상에서 트리거 단어를 서치하여 분석 대상 텍스트가 결정될 수도 있다.Alternatively, according to an embodiment of the present invention, candidate text information may be extracted by performing a search for a trigger word based on the utterance start time point 410. In the method described above in FIGS. 2 and 3, a trigger word search section for searching for a trigger word based on image information (speech) may be set, and an analysis target text may be determined by searching for a trigger word on the trigger word search section. .

또한 본 발명의 실시예에 따르면, 영상 발화 이후, 발화에 매칭되는 탑승 대기자(시각 장애인)를 트래킹하여 탑승 대기자(시각 장애인)가 타고자 하는 타겟 버스가 도착시 탑승 대기자(시각 장애인)에게 탑승을 알릴 수 있다. 발화 이후 탑승 대기자(시각 장애인)는 트래킹 대상 객체로 설정되고, 탑승 대기자(시각 장애인)의 타겟 버스가 도착시 탑승 대기자(시각 장애인)에게 알리고, 촬상된 영상을 기반으로 탑승 대기자(시각 장애인)의 탑승 여부를 분석할 수 있다. 촬상된 영상을 통해 타겟 버스의 도착 이후, 탑승 대기자(시각 장애인)가 타겟 버스에 탑승을 하지 않는 것으로 분석되는 경우, 탑승 대기자(시각 장애인)에게 타겟 버스에 탑승할 것을 알리는 신호가 전달될 수 있다.In addition, according to an embodiment of the present invention, after the video is uttered, the boarding waiter (visually impaired) matching the utterance is tracked, and the target bus to which the boarding waiter (visually impaired) wants to ride is allowed to board the boarding standby (visually impaired) upon arrival. I can tell. After the ignition, the waiting for boarding (visually impaired) is set as a tracking object, and the target bus of the waiting for boarding (visually impaired) notifies the waiting for boarding (visually impaired) upon arrival, and based on the captured image, the waiting for boarding (visually impaired) You can analyze whether you are on board. After the arrival of the target bus through the captured image, when it is analyzed that the boarding waiter (visually impaired) does not board the target bus, a signal notifying the boarding waiter (visually impaired) to board the target bus may be transmitted. .

도 5는 본 발명의 실시예에 따른 객체 동작 분석 알고리즘을 나타낸 개념도이다.5 is a conceptual diagram showing an object motion analysis algorithm according to an embodiment of the present invention.

도 5에서는 객체의 발화 관련된 영상 분석을 위한 영상을 생성하기 위한 영상 촬상부의 동작이 개시된다. In FIG. 5, an operation of an image capture unit for generating an image for analyzing an image related to an utterance of an object is started.

도 5를 참조하면, 영상 촬상부는 보다 정확한 영상 분석을 위해 영상 촬상 초점을 변화시킬 수 있다.Referring to FIG. 5, the image pickup unit may change an image pickup focus for more accurate image analysis.

영상 촬상부는 3개의 초점을 전환하여 영상 촬상을 수행할 수 있다. 구체적으로 제1 초점(510)은 정류장 전체 영역에 대한 초점으로서 디폴트 초점일 수 있다. 제2 초점(520)은 설정된 버스 정보 제공 터미널로 이동하는 타겟 객체가 존재할 경우, 전환되는 초점으로서 버스 정보 제공 터미널로 이동하는 타겟 객체의 트래킹을 위한 초점일 수 있다. The image pickup unit may perform image capturing by switching three focal points. Specifically, the first focus 510 may be a default focus as a focus on the entire area of the stop. The second focus 520 may be a focus for tracking a target object moving to the bus information providing terminal as a converted focus when there is a target object moving to the set bus information providing terminal.

제3 초점(530)은 버스 정보 제공 터미널로 이동하는 타겟 객체가 버스 정보 제공 터미널을 기준으로 임계 거리 이내로 접근한 경우, 전환되는 초점으로서 타겟 객체의 입과 같은 발화를 하는 특정 부위에 대한 영상을 촬상하기 위한 초점일 수 있다. The third focal point 530 is a converted focal point when the target object moving to the bus information providing terminal approaches within a critical distance from the bus information providing terminal, and displays an image of a specific part of the target object, such as a mouth, that makes an utterance. It may be a focal point for imaging.

제3 초점(530)을 기반으로 발화 시작 시점과 발화 종료 시점이 결정될 수 있다.An utterance start time point and an utterance end time point may be determined based on the third focus 530.

추가적으로 이러한 초점의 변화 없이 영상을 분석하는 영역을 서로 다르게 설정하여 영상 분석을 수행할 수도 있다.Additionally, image analysis may be performed by setting different regions for analyzing images without such a change in focus.

1차 영상 분석 영역(515)은 전체 촬상된 영상 영역에서 객체(사람)에 대한 탐지를 수행하기 위해 전체 촬상 영역일 수 있다.The primary image analysis area 515 may be an entire imaging area in order to detect an object (person) in the entire captured image area.

2차 영상 분석 영역(525)은 버스 정보 제공 터미널로 이동하는 객체를 타겟 객체로 설정하고 타겟 객체에 대응되는 영역일 수 있다.The secondary image analysis area 525 may set an object moving to the bus information providing terminal as a target object and may be an area corresponding to the target object.

3차 영상 분석 영역(535)은 타?? 객체가 버스 정보 제공 터미널을 기준으로 임계 거리 이내로 이동한 경우, 타겟 객체의 입에 대응되는 영역일 수 있다.What is the third image analysis area 535? When the object moves within a threshold distance from the bus information providing terminal, it may be an area corresponding to the mouth of the target object.

도 6은 본 발명의 실시예에 따른 노이즈 제거 방법을 나타낸 개념도이다.6 is a conceptual diagram showing a noise removal method according to an embodiment of the present invention.

도 6에서는 후보 텍스트 정보에서 노이즈 텍스트와 분석 대상 텍스트를 분리하기 위해 노이즈 텍스트를 결정하기 위한 방법이 개시된다. In FIG. 6, a method for determining a noise text to separate a noise text and an analysis target text from candidate text information is disclosed.

도 6을 참조하면, 복수의 마이크를 통해 입력되는 소리 신호를 기준으로 노이즈 텍스트를 결정할 수 있다. Referring to FIG. 6, noise text may be determined based on sound signals input through a plurality of microphones.

버스 정류장 내부에는 복수의 마이크가 설치될 수 있고, 버스 정보 제공 터미널은 복수의 마이크에 의해 수신된 소리 신호를 분석하여 노이즈 제거 절차를 수행할 수 있다.A plurality of microphones may be installed inside the bus stop, and the bus information providing terminal may perform a noise removal procedure by analyzing sound signals received by the plurality of microphones.

예를 들어, 마이크1, 마이크2, 마이크3 및 마이크4가 존재할 수 있고 복수의 마이크 중 하나의 마이크는 발화 기준 마이크(600)로 설정되고 나머지 마이크는 노이즈 기준 마이크(650)로 설정될 수 있다.For example, microphone 1, microphone 2, microphone 3, and microphone 4 may be present, and one microphone among a plurality of microphones may be set as a speech reference microphone 600, and the other microphones may be set as a noise reference microphone 650. .

발화 기준 마이크(600)는 버스 정보 제공 터미널의 가장 가까이에 설정되어 타겟 객체에 의해 발화된 소리 신호를 가장 크게 수신하는 마이크일 수 있다. 노이즈 기준 마이크(650)는 발화 기준 마이크(600)보다 버스 정보 제공 터미널 기준으로 상대적으로 멀리 위치한 마이크일 수 있다.The speech reference microphone 600 may be a microphone that is set closest to the bus information providing terminal and receives the loudest sound signal uttered by the target object. The noise reference microphone 650 may be a microphone located relatively farther from the utterance reference microphone 600 with respect to a bus information providing terminal.

분석 대상 텍스트에 대응되는 소리 신호는 발화 기준 마이크(600)에 상대적으로 더 크게 입력될 수 있고, 노이즈 텍스트에 대응되는 소리 신호는 노이즈 기준 마이크(650)에 상대적으로 더 크게 입력될 수 있다.A sound signal corresponding to the text to be analyzed may be input relatively louder to the speech reference microphone 600, and a sound signal corresponding to the noise text may be input relatively louder to the noise reference microphone 650.

구체적으로 발화 기준 마이크(600)에 입력되는 소리 중 노이즈 기준 마이크(650)에 입력되는 소리보다 상대적으로 큰 소리가 분석 대상 텍스트일 수 있고, 노이즈 기준 마이크(650)에 입력되는 소리 중 발화 기준 마이크(600)에 입력되는 소리보다 상대적으로 큰 소리는 노이즈 텍스트일 수 있다.Specifically, among the sounds input to the speech reference microphone 600, a sound that is relatively louder than the sound input to the noise reference microphone 650 may be the text to be analyzed, and the speech reference microphone among sounds input to the noise reference microphone 650 A sound that is relatively louder than the sound input to 600 may be a noise text.

이러한 방식으로 발화 기준 마이크(600)와 노이즈 기준 마이크(650)에 입력되는 소리 신호의 크기를 기반으로 분석 대상 텍스트와 노이즈 텍스트가 구분될 수 있다.In this way, the text to be analyzed and the noise text may be classified based on the size of the sound signal input to the speech reference microphone 600 and the noise reference microphone 650.

마이크 기준으로 추출된 분석 대상 텍스트는 분석 대상 텍스트(마이크)라는 용어로 표현되고, 마이크 기준으로 추출된 노이즈 텍스트는 노이즈 텍스트(마이크)라는 용어로 표현될 수 있다.The analysis target text extracted based on the microphone may be expressed in terms of the analysis target text (microphone), and the noise text extracted based on the microphone may be expressed as the noise text (microphone).

분석 대상 텍스트(마이크)와 노이즈 텍스트(마이크)는 전술한 트리거 기반으로 추출된 분석 대상 텍스트(트리거)와 노이즈 텍스트(트리거)와 함께 타겟 버스를 결정하기 위해 사용되거나, 독립적으로 타겟 버스를 결정하기 위해 사용될 수 있다.The analysis target text (microphone) and noise text (microphone) are used to determine the target bus together with the analysis target text (trigger) and noise text (trigger) extracted based on the above-described trigger, or independently determine the target bus. Can be used for

예를 들어, 분석 대상 텍스트(마이크)와 분석 대상 텍스트(트리거)를 종합하여 타겟 버스가 결정되거나, 분석 대상 텍스트(마이크)만을 기반으로 결정된 타겟 버스와 분석 대상 텍스트(트리거)만을 기반으로 결정된 타겟 버스가 개별적으로 결정될 수도 있다. For example, the target bus is determined by combining the text to be analyzed (microphone) and the text to be analyzed (trigger), or the target bus determined based only on the text to be analyzed (microphone) and the target determined based only on the text to be analyzed (trigger). The bus can also be determined individually.

또한 본 발명의 실시예에 따르면, 노이즈 텍스트(마이크)는 노이즈 신호에 대한 학습을 위해 활용될 수 있다.In addition, according to an embodiment of the present invention, the noisy text (microphone) can be used for learning about the noise signal.

노이즈 텍스트(마이크)는 수집되어 추후에 노이즈 텍스트를 걸러내기 위한 학습을 위해 활용될 수 있다. 노이즈 텍스트(마이크)에 대한 학습을 기반으로 노이즈 텍스트(마이크)가 학습되고, 추후에 후보 텍스트 정보에서 노이즈 텍스트와 분석 대상 텍스트를 분리하기 위해 활용될 수 있다. The noisy text (microphone) can be collected and used later for learning to filter out the noisy text. The noise text (microphone) is learned based on the learning of the noisy text (microphone), and may be used later to separate the noise text and the analysis target text from the candidate text information.

이상 설명된 본 발명에 따른 실시예는 다양한 컴퓨터 구성요소를 통하여 실행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수 있다. 컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등과 같은, 프로그램 명령어를 저장하고 실행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의하여 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용하여 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위하여 하나 이상의 소프트웨어 모듈로 변경될 수 있으며, 그 역도 마찬가지이다.The embodiments according to the present invention described above may be implemented in the form of program instructions that can be executed through various computer components and recorded in a computer-readable recording medium. The computer-readable recording medium may include program instructions, data files, data structures, etc. alone or in combination. The program instructions recorded in the computer-readable recording medium may be specially designed and configured for the present invention or may be known and usable to those skilled in the computer software field. Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks, and magnetic tapes, optical recording media such as CD-ROMs and DVDs, and magnetic-optical media such as floptical disks. medium), and a hardware device specially configured to store and execute program instructions, such as ROM, RAM, flash memory, and the like. Examples of the program instructions include not only machine language codes such as those produced by a compiler but also high-level language codes that can be executed by a computer using an interpreter or the like. The hardware device can be changed to one or more software modules to perform the processing according to the present invention, and vice versa.

이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항과 한정된 실시예 및 도면에 의하여 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위하여 제공된 것일 뿐, 본 발명이 상기 실시예에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정과 변경을 꾀할 수 있다.In the above, the present invention has been described by specific matters such as specific elements and limited embodiments and drawings, but this is provided only to help a more general understanding of the present invention, and the present invention is not limited to the above embodiments. Anyone with ordinary knowledge in the technical field to which the invention belongs can make various modifications and changes from these descriptions.

따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 또는 이로부터 등가적으로 변경된 모든 범위는 본 발명의 사상의 범주에 속한다고 할 것이다.Accordingly, the spirit of the present invention is limited to the above-described embodiments and should not be defined, and all ranges equivalent to or equivalently changed from the claims to be described later as well as the claims to be described later are the scope of the spirit of the present invention. It will be said to belong to.

Claims (6)

버스 정보 제공 터미널의 제어 방법은,
상기 버스 정보 제공 터미널이 소리 신호를 수신하는 단계;
상기 버스 정보 제공 터미널이 상기 소리 신호를 기반으로 분석 대상 텍스트 정보를 결정하는 단계; 및
상기 버스 정보 제공 터미널이 상기 분석 대상 텍스트 정보에 대응되는 타겟 버스의 정보를 제공하는 단계를 포함하되,
상기 분석 대상 텍스트 정보는 상기 버스 정보 터미널을 기반으로 추출된 후보 텍스트 정보 상에서 트리거 단어를 기반으로 결정되고,
상기 분석 대상 텍스트 정보는 상기 트리거 단어를 기반으로 메인 분석 텍스트와 서브 분석 텍스트로 구분되고,
상기 버스 정보 제공 터미널은 상기 메인 분석 텍스트에 대한 분석을 우선적으로 수행하여 상기 타겟 버스 정보를 결정하고,
상기 메인 분석 텍스트는 상기 트리거 단어에 따라 다르게 설정되고,
상기 메인 분석 텍스트는 상기 트리거 단어를 기반으로 유효한 정보를 포함할 수 있는 확률이 제1 임계값 이상인 n개의 텍스트이고,
상기 메인 분석 텍스트를 기준으로 결정된 제1 버스 정보의 신뢰도가 임계값 미만일 경우, 제1 서브 분석 텍스트, 제2 서브 분석 텍스트 중 상대적으로 높은 우선 순위의 서브 분석 텍스트를 더 포함한 텍스트를 기반으로 제2 버스 정보를 결정하고,
상기 제1 버스 정보와 상기 제2 버스 정보가 동일한지 여부를 기반으로 상기 타겟 버스를 결정하는 것을 특징을 하는 방법.
The control method of the bus information providing terminal is:
Receiving, by the bus information providing terminal, a sound signal;
Determining, by the bus information providing terminal, text information to be analyzed based on the sound signal; And
Including the step of providing, by the bus information providing terminal, information on a target bus corresponding to the text information to be analyzed,
The analysis target text information is determined based on a trigger word on candidate text information extracted based on the bus information terminal,
The analysis target text information is divided into a main analysis text and a sub analysis text based on the trigger word,
The bus information providing terminal determines the target bus information by preferentially analyzing the main analysis text,
The main analysis text is set differently according to the trigger word,
The main analysis text is n texts whose probability of including valid information based on the trigger word is greater than or equal to a first threshold value,
When the reliability of the first bus information determined based on the main analysis text is less than a threshold, the second text further includes a sub-analysis text having a relatively high priority among the first and second sub-analysis texts. Determine the bus information,
And determining the target bus based on whether the first bus information and the second bus information are the same.
제1항에 있어서,
상기 제1 서브 분석 텍스트는 상기 메인 분석 텍스트를 기준으로 시간적으로 앞에 존재하는 x개의 텍스트이고,
상기 제2 서브 분석 텍스트는 상기 메인 분석 텍스트를 기준으로 시간적으로 뒤에 존재하는 y개의 텍스트이고,
상기 x와 상기 y의 크기는 상기 트리거 단어에 따라 적응적으로 변화되는 값으로 기존의 트리거 단어 기반으로 유효한 정보를 포함할 수 있는 확률이 제2 임계값 이상인 값으로 결정되는 것을 특징으로 하는 방법.
The method of claim 1,
The first sub-analysis text is x texts that exist in front of the main analysis text in time,
The second sub-analysis text is y texts that exist temporally behind the main analysis text,
The size of the x and y is a value that is adaptively changed according to the trigger word, and the probability of including valid information based on the existing trigger word is determined to be a value equal to or greater than a second threshold.
제2항에 있어서,
상기 제1 버스 정보와 상기 제2 버스 정보가 동일하지 않을 경우, 상기 제1 서브 분석 텍스트, 상기 제2 서브 분석 텍스트 중 상대적으로 낮은 우선 순위의 서브 분석 텍스트를 추가로 포함하여 제3 버스 정보가 추출되고,
상기 제1 버스 정보, 상기 제2 버스 정보, 상기 제3 버스 정보 중 과반수에 해당하는 버스 정보가 존재하는 경우, 상기 과반수에 해당하는 버스 정보에 대응되는 버스가 상기 타겟 버스로 설정되고,
상기 제1 서브 분석 텍스트, 상기 제2 서브 분석 텍스트의 추출 여부는 영상 분석을 기반으로 한 발화 시작 시점과 발화 종료 시점의 신뢰도에 따라 결정되는 것을 특징으로 하는 방법.
The method of claim 2,
When the first bus information and the second bus information are not the same, the third bus information is additionally included in the first sub-analysis text and the second sub-analysis text, which has a lower priority. Extracted,
When bus information corresponding to a majority of the first bus information, the second bus information, and the third bus information exists, a bus corresponding to the bus information corresponding to the majority is set as the target bus,
Whether to extract the first sub-analysis text or the second sub-analysis text is determined according to a reliability level of a starting point and a ending point of a speech based on image analysis.
버스 정보 제공 터미널에 있어서,
소리 신호를 수신하도록 구현되는 음성 입력부; 및
상기 음성 입력부와 동작 가능하게(operatively) 연결된 프로세서를 포함하되,
상기 프로세서는 상기 소리 신호를 기반으로 분석 대상 텍스트 정보를 결정하고,
상기 분석 대상 텍스트 정보에 대응되는 타겟 버스의 정보를 제공하도록 구현되고,
상기 분석 대상 텍스트 정보는 상기 버스 정보 터미널을 기반으로 추출된 후보 텍스트 정보 상에서 트리거 단어를 기반으로 결정되고,
상기 분석 대상 텍스트 정보는 상기 트리거 단어를 기반으로 메인 분석 텍스트와 서브 분석 텍스트로 구분되고,
상기 버스 정보 제공 터미널은 상기 메인 분석 텍스트에 대한 분석을 우선적으로 수행하여 상기 타겟 버스 정보를 결정하고,
상기 메인 분석 텍스트는 상기 트리거 단어에 따라 다르게 설정되고,
상기 메인 분석 텍스트는 상기 트리거 단어를 기반으로 유효한 정보를 포함할 수 있는 확률이 제1 임계값 이상인 n개의 텍스트이고,
상기 메인 분석 텍스트를 기준으로 결정된 제1 버스 정보의 신뢰도가 임계값 미만일 경우, 제1 서브 분석 텍스트, 제2 서브 분석 텍스트 중 상대적으로 높은 우선 순위의 서브 분석 텍스트를 더 포함한 텍스트를 기반으로 제2 버스 정보를 결정하고,
상기 제1 버스 정보와 상기 제2 버스 정보가 동일한지 여부를 기반으로 상기 타겟 버스를 결정하는 것을 특징을 하는 버스 정보 제공 터미널.
In the bus information providing terminal,
A voice input unit implemented to receive a sound signal; And
A processor operatively connected to the voice input unit,
The processor determines text information to be analyzed based on the sound signal,
It is implemented to provide information on a target bus corresponding to the text information to be analyzed,
The analysis target text information is determined based on a trigger word on candidate text information extracted based on the bus information terminal,
The analysis target text information is divided into a main analysis text and a sub analysis text based on the trigger word,
The bus information providing terminal determines the target bus information by preferentially analyzing the main analysis text,
The main analysis text is set differently according to the trigger word,
The main analysis text is n texts whose probability of including valid information based on the trigger word is greater than or equal to a first threshold value,
When the reliability of the first bus information determined based on the main analysis text is less than a threshold, the second text further includes a sub-analysis text having a relatively high priority among the first and second sub-analysis texts. Determine the bus information,
And determining the target bus based on whether the first bus information and the second bus information are the same.
제4항에 있어서,
상기 제1 서브 분석 텍스트는 상기 메인 분석 텍스트를 기준으로 시간적으로 앞에 존재하는 x개의 텍스트이고,
상기 제2 서브 분석 텍스트는 상기 메인 분석 텍스트를 기준으로 시간적으로 뒤에 존재하는 y개의 텍스트이고,
상기 x와 상기 y의 크기는 상기 트리거 단어에 따라 적응적으로 변화되는 값으로 기존의 트리거 단어 기반으로 유효한 정보를 포함할 수 있는 확률이 제2 임계값 이상인 값으로 결정되는 것을 특징으로 하는 버스 정보 제공 터미널.
The method of claim 4,
The first sub-analysis text is x texts that exist in front of the main analysis text in time,
The second sub-analysis text is y texts that exist temporally behind the main analysis text,
The magnitudes of x and y are values that are adaptively changed according to the trigger word, and the probability of including valid information based on an existing trigger word is determined to be a value equal to or greater than a second threshold. Provided terminal.
제5항에 있어서,
상기 제1 버스 정보와 상기 제2 버스 정보가 동일하지 않을 경우, 상기 제1 서브 분석 텍스트, 상기 제2 서브 분석 텍스트 중 상대적으로 낮은 우선 순위의 서브 분석 텍스트를 추가로 포함하여 제3 버스 정보가 추출되고,
상기 제1 버스 정보, 상기 제2 버스 정보, 상기 제3 버스 정보 중 과반수에 해당하는 버스 정보가 존재하는 경우, 상기 과반수에 해당하는 버스 정보에 대응되는 버스가 상기 타겟 버스로 설정되고,
상기 제1 서브 분석 텍스트, 상기 제2 서브 분석 텍스트의 추출 여부는 영상 분석을 기반으로 한 발화 시작 시점과 발화 종료 시점의 신뢰도에 따라 결정되는 것을 특징으로 하는 버스 정보 제공 터미널.
The method of claim 5,
When the first bus information and the second bus information are not the same, the third bus information is additionally included in the first sub-analysis text and the second sub-analysis text, which has a lower priority. Extracted,
When bus information corresponding to a majority of the first bus information, the second bus information, and the third bus information exists, a bus corresponding to the bus information corresponding to the majority is set as the target bus,
The bus information providing terminal, wherein whether or not the first sub-analysis text and the second sub-analysis text are to be extracted is determined according to a reliability level of an utterance start time and an utterance end time based on image analysis.
KR1020200103292A 2020-08-18 2020-08-18 Method for controlling bus information terminal(BIT) and bus information terminal for performing the method KR102191083B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200103292A KR102191083B1 (en) 2020-08-18 2020-08-18 Method for controlling bus information terminal(BIT) and bus information terminal for performing the method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200103292A KR102191083B1 (en) 2020-08-18 2020-08-18 Method for controlling bus information terminal(BIT) and bus information terminal for performing the method

Publications (1)

Publication Number Publication Date
KR102191083B1 true KR102191083B1 (en) 2020-12-15

Family

ID=73780488

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200103292A KR102191083B1 (en) 2020-08-18 2020-08-18 Method for controlling bus information terminal(BIT) and bus information terminal for performing the method

Country Status (1)

Country Link
KR (1) KR102191083B1 (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100134396A (en) * 2009-06-15 2010-12-23 (주)양진텔레콤 Voice bus inquiry guide system for blind people and controlling method for the same
KR20190133100A (en) * 2018-05-22 2019-12-02 삼성전자주식회사 Electronic device and operating method for outputting a response for a voice input, by using application

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100134396A (en) * 2009-06-15 2010-12-23 (주)양진텔레콤 Voice bus inquiry guide system for blind people and controlling method for the same
KR20190133100A (en) * 2018-05-22 2019-12-02 삼성전자주식회사 Electronic device and operating method for outputting a response for a voice input, by using application

Similar Documents

Publication Publication Date Title
EP3791390B1 (en) Voice identification enrollment
JP6938784B2 (en) Object identification method and its computer equipment and computer equipment readable storage medium
CN103957359B (en) Camera head and focusing method thereof
US9330673B2 (en) Method and apparatus for performing microphone beamforming
US10818284B2 (en) Methods of and electronic devices for determining an intent associated with a spoken user utterance
WO2020211354A1 (en) Speaker identity recognition method and device based on speech content, and storage medium
CN114097027A (en) Speaker attribution record generation
JP6999734B2 (en) Speaker dialization method and equipment based on audiovisual data
US9251808B2 (en) Apparatus and method for clustering speakers, and a non-transitory computer readable medium thereof
US11790900B2 (en) System and method for audio-visual multi-speaker speech separation with location-based selection
CN109410956A (en) A kind of object identifying method of audio data, device, equipment and storage medium
JP2007322523A (en) Voice translation apparatus and its method
JP5549506B2 (en) Speech recognition apparatus and speech recognition method
KR102191083B1 (en) Method for controlling bus information terminal(BIT) and bus information terminal for performing the method
JP3838159B2 (en) Speech recognition dialogue apparatus and program
JP2013257418A (en) Information processing device, information processing method, and program
CN110875053A (en) Method, apparatus, system, device and medium for speech processing
KR101933822B1 (en) Intelligent speaker based on face reconition, method for providing active communication using the speaker, and computer readable medium for performing the method
JP2001067098A (en) Person detecting method and device equipped with person detecting function
CN113744742A (en) Role identification method, device and system in conversation scene
JP6755843B2 (en) Sound processing device, voice recognition device, sound processing method, voice recognition method, sound processing program and voice recognition program
Nakamura et al. Robot audition based acoustic event identification using a bayesian model considering spectral and temporal uncertainties
JP2015177490A (en) Image/sound processing system, information processing apparatus, image/sound processing method, and image/sound processing program
CN112992174A (en) Voice analysis method and voice recording device thereof
CN114762039A (en) Conference data processing method and related equipment

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant