KR101889809B1 - Automatic direction selection speech recognition system using important topic selection and Method - Google Patents

Automatic direction selection speech recognition system using important topic selection and Method Download PDF

Info

Publication number
KR101889809B1
KR101889809B1 KR1020180028521A KR20180028521A KR101889809B1 KR 101889809 B1 KR101889809 B1 KR 101889809B1 KR 1020180028521 A KR1020180028521 A KR 1020180028521A KR 20180028521 A KR20180028521 A KR 20180028521A KR 101889809 B1 KR101889809 B1 KR 101889809B1
Authority
KR
South Korea
Prior art keywords
channel
topic
information
speech recognition
unit
Prior art date
Application number
KR1020180028521A
Other languages
Korean (ko)
Inventor
송민규
Original Assignee
미디어젠(주)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 미디어젠(주) filed Critical 미디어젠(주)
Priority to KR1020180028521A priority Critical patent/KR101889809B1/en
Application granted granted Critical
Publication of KR101889809B1 publication Critical patent/KR101889809B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

The present invention relates to an automatic direction selection sound recognition system and a sound recognition method using important topic selection. More specifically, the present invention relates to an automatic direction selection sound recognition system and a sound recognition method using important topic selection, which separate sound input by multi-channel into a sound source, perform sound recognition for each separated sound, analyze recognition result content for each channel, automatically select a channel microphone to which the sound fit to a topic desired by a user is input, increase sensitivity of the corresponding channel microphone and ensure high recognition performance, thereby reproducing a cocktail party effect. According to the present invention, the present invention selects a place for conversation on a topic related to a predetermined topic, separate the sound source and recognize the corresponding direction, thereby reproducing the cocktail party effect. The automatic direction selection sound recognition system comprises: at least one channel microphone (100); a multi-channel sound source input part (210); a multi-channel sound source separating part (220); a multi-channel sound recognizing part (230); a multi-channel content analyzing part (240); a topic model part (250); a topic conformity degree determining part (260); an important topic selection automatic direction selection sound recognizing device (200); and a content server (300).

Description

중요 화제 선별을 이용한 자동 방향 선택 음성인식시스템 및 음성인식방법{Automatic direction selection speech recognition system using important topic selection and Method} Technical Field [0001] The present invention relates to an automatic direction selection speech recognition system and an automatic direction selection speech recognition system,

본 발명은 중요 화제 선별을 이용한 자동 방향 선택 음성인식시스템 및 음성인식방법에 관한 것으로서, 더욱 상세하게는 다채널로 입력된 음성을 음원 분리하고, 분리된 음성마다 음성 인식을 수행하여 각 채널별 인식 결과 내용을 분석하여 사용자가 원하는 토픽에 맞는 음성이 입력되는 채널마이크를 자동으로 선별하여 해당 채널마이크의 감도를 증가시켜 높은 인식 성능을 확보함으로써, 칵테일 파티 효과를 재현할 수 있는 중요 화제 선별을 이용한 자동 방향 선택 음성인식시스템 및 음성인식방법에 관한 것이다.The present invention relates to an automatic directional speech recognition system and a speech recognition method using important agent selection, and more particularly, to an automatic directional speech recognition system and a speech recognition method, By analyzing the result contents, the channel microphone to which the voice corresponding to the topic desired by the user is automatically selected, thereby increasing the sensitivity of the corresponding channel microphone, thereby securing high recognition performance. Thus, it is possible to reproduce the cocktail party effect An automatic direction selection speech recognition system, and a speech recognition method.

음성인식 기술은 컴퓨터가 마이크와 같은 소리 센서를 통해 얻은 음향학적 신호(Acoustic speech signal)를 단어나 문장으로 변환시키는 기술을 말하며, 일반적으로, 음향 신호를 추출한 후 잡음을 제거하는 작업을 하게 되며, 이후 음성 신호의 특징을 추출하여 음성모델 데이터베이스(DB)와 비교하는 방식으로 구현되게 된다.Speech recognition technology is a technology that converts the acoustic speech signal obtained by a computer through a sound sensor such as a microphone into a word or a sentence. Generally, the acoustic signal is extracted and then the noise is removed. And then the feature of the voice signal is extracted and compared with the voice model database (DB).

즉, 입력받은 음성을 분석, 특징을 추출한 다음 미리 수집된 음성모델 데이터베이스(DB)와의 유사도를 측정해 가장 유사한 것을 텍스트로 혹은 명령어로 변환하는 방식으로 작동하게 된다.That is, the input voice is analyzed and the features are extracted, and the similarity with the pre-collected voice model database (DB) is measured and the most similar thing is converted into text or command.

상기한 음성 인식 기술은 그동안 특수한 용도에만 제한적으로 사용되었으나 최근 스마트폰으로 대표되는 휴대용 컴퓨팅 단말의 확산과 이를 지원해줄 클라우드 인프라가 갖추어지면서 음성 인식 기술을 활용한 기술과 서비스가 급속히 발전하고 있지만, 아직 음성 인식 기술은 정확하게 사용자의 의도와 핵심어가 무엇인지를 분석하는데는 한계가 있었다.Although the above speech recognition technology has been used only for a special purpose in the past, the technology and the service utilizing the voice recognition technology have been rapidly developed due to the spread of the portable computing terminal represented by the smart phone and the cloud infrastructure to support it Speech recognition technology has limitations in accurately analyzing the user's intention and keyword.

이에 따라, 딥 네트워크 러닝(Deep Network Learning) 기술이 급속하게 발전하고 있는데, 상기 딥 네트워크 러닝 기술(이하, 딥 러닝으로 정의함)은 여러 비선형 변화기법의 조합을 통해 다량의 데이터나 복잡한 자료들 속에서 핵심적인 내용 또는 기능을 요약하는 작업 즉, 추상화를 시도하는 기계학습 알고리즘으로 정의되며 넓은 범위에서는 인간의 두뇌를 구성하는 신경세포의 메커니즘을 모방하여 인지, 학습 및 추론 등과 같이 인간의 두뇌활동과 비슷한 기능을 수행할 수 있도록 컴퓨터 프로그램으로 구현한 인공지능 시스템을 말한다.Accordingly, deep network learning technology is rapidly developing. Deep network learning technology (hereinafter, referred to as deep learning) is a technique of combining a large amount of data or complex data Is defined as a machine learning algorithm that attempts to abstract the core contents or functions, that is, a machine learning algorithm that attempts to abstraction. In a wide range, it mimics the mechanism of neurons constituting the human brain, An artificial intelligence system implemented as a computer program to perform similar functions.

이러한 딥 러닝 기술은 컴퓨터비전, 음성인식, 자연어처리 또는 신호처리 등의 다양한 분야에서 적용되어 활용되고 있다.Such deep-learning techniques are applied to various fields such as computer vision, speech recognition, natural language processing, or signal processing.

그러나, 현재 딥 네트워크 러닝 기술 등을 활용한 음성 인식 기술은 특정 화제에 집중하여 인식하는 기술은 존재하지 않고 있다.However, there is no technology that focuses on specific topics and recognizes speech recognition technology utilizing deep network learning technology.

예를 들어, 수많은 사람들의 목소리가 동시에 발생하는 환경에서 특정 사람의 목소리만 더 잘 인식할 수 있는 기술은 존재하지 않아 칵테일 파티 효과를 구현할 수가 없었다.For example, in an environment where a large number of people are simultaneously voiced, there is no skill to better recognize the voice of a particular person, and thus the cocktail party effect can not be realized.

상기한 칵테일 파티 효과는 인간의 청각 능력이 특정 소리에 집중할 수 있는 능력이 있음을 보여주는 효과이며, 아직까지 이 방식을 구현한 기술은 존재하지 않는다.The cocktail party effect described above is an effect that shows that the human auditory ability has the ability to concentrate on a specific sound, and there is no technology yet to implement this method.

따라서, 동시에 여러 채널의 음성을 인식하면서 내용을 분석하여 미리 정해진 토픽 모델에 더 가까운 음성 인식을 더욱 잘 되도록 조정함으로써, 칵테일 파티 효과를 재현할 수 있는 중요 화제 선별을 이용한 자동 방향 선택 음성인식시스템 및 음성인식방법을 제안하게 된 것이다.Accordingly, an automatic directional speech recognition system using an important topic selection that can reproduce a cocktail party effect by analyzing contents while simultaneously recognizing speech of a plurality of channels and adjusting the speech recognition more closely to a predetermined topic model And a speech recognition method.

(선행문헌1) 대한민국등록특허번호 제10-0655489호(Prior Art 1) Korean Patent Registration No. 10-0655489

따라서 본 발명은 상기와 같은 종래 기술의 문제점을 감안하여 제안된 것으로서, 본 발명의 제1 목적은 다채널로 입력된 음성을 음원 분리하고, 분리된 음성마다 음성 인식을 수행하여 각 채널별 인식 결과 내용을 분석하여 사용자가 원하는 토픽에 맞는 음성이 입력되는 채널마이크를 자동으로 선별하여 해당 채널마이크의 감도를 증가시켜 높은 인식 성능을 확보하는데 있다.SUMMARY OF THE INVENTION Accordingly, the present invention has been made keeping in mind the above problems occurring in the prior art, and it is a primary object of the present invention to provide a speech recognition apparatus, a speech recognition method, Analyzing the contents, and automatically selecting a channel microphone to which a voice corresponding to a topic desired by the user is input, thereby increasing the sensitivity of the corresponding channel microphone, thereby ensuring high recognition performance.

본 발명의 제2 목적은 토픽모델부(250)를 제공함으로써, 컨텐츠서버(300)로부터 외부 컨텐츠를 크롤링하며, 딥 러닝 모델을 이용하여 외부 컨텐츠의 분석과 학습을 주기적으로 수행하여 지속적인 토픽 모델링 및 업데이트를 수행함으로써, 토픽 모델링의 정확도를 향상시키도록 하는데 있다.The second object of the present invention is to provide a topic modeling unit 250 for crawling external contents from the contents server 300 and periodically performing analysis and learning of external contents using a deep learning model, By performing the update, it is intended to improve the accuracy of topic modeling.

본 발명이 해결하고자 하는 과제를 달성하기 위하여, 중요 화제 선별을 이용한 자동 방향 선택 음성인식시스템은,In order to achieve the object of the present invention, there is provided an automatic directional speech recognition system using important agent selection,

마이크 방향 조정 제어, 마이크 거리 이동 제어, 마이크 감도 조정 제어 중 어느 하나 이상의 제어를 수행하기 위한 채널마이크제어부(110)를 포함하여 구성되며, 주변 음원을 획득하도록 구성되는 적어도 한 개 이상의 채널 마이크(100)와,And a channel microphone control unit 110 for performing at least one of a microphone direction control, a microphone distance movement control, and a microphone sensitivity adjustment control. The at least one channel microphone 100 )Wow,

상기 복수 개의 채널 마이크로부터 다수의 음원을 입력받아 다채널음원분리부로 제공하기 위한 다채널음원입력부(210);A multi-channel sound source input unit 210 for receiving a plurality of sound sources from the plurality of channel microphones and providing the multi-channel sound source separation unit to the multi-channel sound source separation unit;

상기 다채널음원입력부에서 제공된 다수의 음원을 각 채널별로 분리하며, 분리된 다수의 음원을 다채널음성인식부로 제공하기 위한 다채널음원분리부(220);A multi-channel sound source separation unit 220 for separating a plurality of sound sources provided from the multi-channel sound source input unit for each channel and providing a plurality of separated sound sources to the multi-channel sound recognition unit;

상기 다채널음원분리부로부터 제공된 다수의 음원을 각 채널별로 음성을 인식하는 다채널음성인식부(230);A multi-channel speech recognition unit (230) for recognizing a plurality of sound sources provided from the multi-channel sound source separation unit for each channel;

상기 다채널음성인식부로부터 각 채널별 음성 인식 정보를 획득하여 각 채널별로 자연어 처리를 수행하여 각 채널별 내용 분석을 수행하며, 수행된 내용 분석을 참조하여 각 채널별로 음성 인식 요약 정보를 생성하여 토픽일치도판단부로 제공하기 위한 다채널내용분석부(240);Acquires speech recognition information for each channel from the multi-channel speech recognition unit, performs natural language processing for each channel, performs content analysis for each channel, generates speech recognition summary information for each channel by referring to the performed content analysis, A multi-channel content analyzing unit 240 for providing the topic matching degree to the judging unit;

컨텐츠서버(300)로부터 외부 컨텐츠를 크롤링하여 주의깊게 인식하고자 하는 토픽 정보를 모델링하며, 모델링된 토픽 모델 정보를 토픽일치도판단부로 제공하기 위한 토픽모델부(250);A topic modeling unit 250 for modeling topic information to be carefully recognized by crawling external contents from the content server 300 and providing the modeled topic model information to the topic matching degree determining unit;

상기 다채널내용분석부에서 제공된 각 채널별 음성 인식 요약 정보와 모델링된 토픽 모델 정보 간의 확률적 거리값을 각각 계산하여 확률적 거리값이 기준치 이상의 토픽 일치도를 제공하는 채널을 판단하여 해당 채널 마이크 정보를 음성입력감도강화조정부로 제공하기 위한 토픽일치도판단부(260);The method comprising: calculating a probabilistic distance value between the speech recognition summary information for each channel and the modeled topic model information provided by the multi-channel content analyzing unit, determining a channel providing a topic match degree with a probabilistic distance value equal to or greater than a reference value, To the speech input sensitivity enhancement adjusting unit (260);

상기 토픽일치도판단부로부터 채널 마이크 정보를 획득할 경우에 해당 채널 마이크의 음성 입력 감도를 높이기 위한 음성입력감도강화조정부(270);를 포함하여 구성되는 중요화제선별자동방향선택음성인식장치(200)와,And an audio input sensitivity enhancement adjusting unit (270) for increasing the audio input sensitivity of the channel microphone when the channel microphone information is obtained from the topic match degree determining unit (200). Wow,

주기적으로 상기 중요화제선별자동방향선택음성인식장치에 토픽 모델 정보를 생성할 수 있도록 외부 컨텐츠를 제공하기 위한 컨텐츠서버(300)를 포함한다.And a contents server 300 for periodically providing external contents so as to generate topic model information in the automatic direction selection speech recognition apparatus for sorting important information.

한편, 본 발명인 중요 화제 선별을 이용한 자동 방향 선택 음성인식 방법은,Meanwhile, in the automatic direction selection speech recognition method using the important agent selection method according to the present invention,

중요화제선별자동방향선택음성인식장치(200)의 다채널음원입력부(210)가 마이크 방향 조정 제어, 마이크 거리 이동 제어, 마이크 감도 조정 제어 중 어느 하나 이상의 제어를 수행하기 위한 채널마이크제어부(110)를 포함하여 구성되며, 주변 음원을 획득하도록 구성되는 적어도 한 개 이상의 채널 마이크(100)로부터 다수의 음원을 입력받아 다채널음원분리부로 제공하기 위한 다채널음원입력단계(S100)와,The multi-channel sound source input unit 210 of the speech recognition apparatus 200 includes a channel microphone control unit 110 for performing at least one of a microphone direction adjustment control, a microphone distance movement control, and a microphone sensitivity adjustment control, A multi-channel sound source input step (S100) for receiving a plurality of sound sources from at least one channel microphone (100) configured to acquire an ambient sound source and providing the sound sources to the multi-channel sound source separation unit,

중요화제선별자동방향선택음성인식장치(200)의 다채널음원분리부(220)가 상기 다채널음원입력부(210)에서 제공된 다수의 음원을 각 채널별로 분리하며, 분리된 다수의 음원을 다채널음성인식부로 제공하기 위한 다채널음원분리단계(S200)와,The multi-channel sound source separation unit 220 of the speech recognition apparatus 200 separates a plurality of sound sources provided from the multi-channel sound source input unit 210 for each channel, and separates a plurality of separated sound sources into multi- A multi-channel sound source separation step S200 for providing a sound recognition unit,

중요화제선별자동방향선택음성인식장치(200)의 다채널음성인식부(230)가 상기 다채널음원분리부(220)로부터 제공된 다수의 음원을 각 채널별로 음성을 인식하는 다채널음성인식단계(S300)와,The multi-channel speech recognition unit 230 of the speech recognition apparatus 200 recognizes a plurality of sound sources provided from the multi-channel sound source separation unit 220 by a multi-channel speech recognition step S300)

중요화제선별자동방향선택음성인식장치(200)의 다채널내용분석부(240)가 상기 다채널음성인식부(230)로부터 각 채널별 음성 인식 정보를 획득하여 각 채널별로 자연어 처리를 수행하여 각 채널별 내용 분석을 수행하며, 수행된 내용 분석을 참조하여 각 채널별로 음성 인식 요약 정보를 생성하여 토픽일치도판단부로 제공하기 위한 다채널내용분석단계(S400)와,The multichannel content analyzer 240 of the speech recognition apparatus 200 acquires speech recognition information for each channel from the multichannel speech recognition unit 230 and performs natural language processing for each channel, A multi-channel content analyzing step (S400) for analyzing the content of each channel, generating speech recognition summary information for each channel by referring to the analyzed content analysis,

중요화제선별자동방향선택음성인식장치(200)의 토픽모델부(250)가 컨텐츠서버(300)로부터 외부 컨텐츠를 크롤링하여 주의깊게 인식하고자 하는 토픽 정보를 모델링하며, 모델링된 토픽 모델 정보를 토픽일치도판단부로 제공하기 위한 토픽모델링단계(S500)와,The topic model unit 250 of the important topic selection automatic direction selection unit 210 crawls the external content from the content server 300 to model the topic information to be carefully recognized and transmits the modeled topic model information to the topic matching information A topic modeling step (S500) for providing to the judgment unit,

중요화제선별자동방향선택음성인식장치(200)의 토픽일치도판단부(260)가 상기 다채널내용분석부(240)에서 제공된 각 채널별 음성 인식 요약 정보와 모델링된 토픽 모델 정보 간의 확률적 거리값을 각각 계산하여 확률적 거리값이 기준치 이상의 토픽 일치도를 제공하는 채널을 판단하여 해당 채널 마이크 정보를 음성입력감도강화조정부로 제공하기 위한 토픽일치도판단단계(S600)와,The topic matching degree determination unit 260 of the speech recognition apparatus 200 selects a probabilistic distance value between the speech recognition summary information for each channel and the modeled topic model information provided by the multi-channel content analysis unit 240 (S600) for determining a channel providing a topic match degree of which the probabilistic distance value is equal to or greater than a reference value and providing the corresponding channel microphone information to the speech input sensitivity enhancement adjusting unit,

중요화제선별자동방향선택음성인식장치(200)의 음성입력감도강화조정부(270)가 상기 토픽일치도판단부(260)로부터 채널 마이크 정보를 획득할 경우에 해당 채널 마이크의 음성 입력 감도를 높이기 위한 음성입력감도강화조정단계(S700)를 포함한다.When the speech input sensitivity enhancement adjusting unit 270 of the speech recognition apparatus 200 acquires the channel microphone information from the topic match degree determining unit 260, the voice input sensitivity enhancement unit 270 selects a voice for increasing the voice input sensitivity of the corresponding channel microphone And an input sensitivity enhancement adjustment step S700.

이상의 구성 및 작용을 지니는 본 발명에 따른 중요 화제 선별을 이용한 자동 방향 선택 음성인식시스템 및 음성인식방법을 통해, 다채널로 입력된 음성을 음원 분리하고, 분리된 음성마다 음성 인식을 수행하여 각 채널별 인식 결과 내용을 분석하여 사용자가 원하는 토픽에 맞는 음성이 입력되는 채널마이크를 자동으로 선별하여 해당 채널마이크의 감도를 증가시켜 높은 인식 성능을 확보함으로써, 칵테일 파티 효과를 재현할 수 있는 효과를 발휘한다.The automatic directional speech recognition system and the speech recognition method according to the present invention having the above-described constitution and action according to the present invention are capable of separating a sound input through a multi-channel into sound sources, performing speech recognition for each separated sound, By analyzing the contents of the recognition result, the channel microphone to which the voice corresponding to the topic desired by the user is automatically selected, thereby increasing the sensitivity of the corresponding channel microphone, thereby securing a high recognition performance, thereby exhibiting the effect of reproducing the cocktail party effect do.

또한, 토픽모델부를 제공함으로써, 외부의 컨텐츠서버로부터 외부 컨텐츠를 크롤링하며, 딥 러닝 모델을 이용하여 외부 컨텐츠의 분석과 학습을 주기적으로 수행하여 지속적인 토픽 모델링 및 업데이트를 수행함으로써, 토픽 모델링의 정확도를 향상시키도록 함으로써, 토픽 유사도가 높은 채널에 대한 집중적인 감도 강화의 정확성을 제공하게 된다.In addition, by providing a topic model unit, external content is crawled from an external content server, and analysis and learning of external contents are periodically performed by using a deep learning model to continuously perform topic modeling and updating, thereby improving the accuracy of topic modeling So as to provide intensive sensitivity enhancement accuracy for channels with high topic similarity.

즉, 본 발명을 통해, 다채널 음원 분리 및 방향 탐지 효과, 다채널 실시간 음성 입력 및 음성 인식 효과, 자연어 처리와 머신 러닝 모델을 이용한 음성인식 결과를 실시간 분석하는 효과, 외부 컨텐츠 분석에 따른 토픽 모델 생성 효과, 정해진 토픽과의 유사도 매칭 및 비교에 따른 토픽 유사도 높은 채널에 대한 음성 입력 보상 조치 수행 효과 등을 제공함으로써, 인간만이 가지고 있는 칵테일 파티 효과를 재현하게 되어 많은 사람들이 말하는 과정에서 반드시 인식해야 하는 중요한 방향의 음성만을 집중적으로 인식할 수 있는 효과를 발휘한다.That is, through the present invention, it is possible to provide a real-time analyzing result of speech recognition using multi-channel sound source separation and direction detection, multi-channel real-time speech input and speech recognition, natural language processing and machine learning model, Generation effect, similarity matching with a predetermined topic, and effect of performing a speech input compensation action on a channel having a high topic similarity according to comparison, thereby reproducing a cocktail party effect that only humans have. Thus, It is possible to intensively perceive only the voice of the important direction to be performed.

요약하자면, 본 발명을 통해 정해진 토픽과의 관련된 주제의 대화를 나누는 곳을 선별하고, 음원을 분리하여 해당 방향을 인식함으로써, 칵테일 파티 효과를 재현할 수 있는 효과를 발휘한다.In summary, it is possible to reproduce a cocktail party effect by selecting a place where a conversation on a topic related to the topic determined by the present invention is performed, separating a sound source, and recognizing the corresponding direction.

도 1은 본 발명의 제1 실시예에 따른 중요 화제 선별을 이용한 자동 방향 선택 음성인식시스템을 개략적으로 나타낸 전체 구성도.
도 2는 본 발명의 제1 실시예에 따른 중요 화제 선별을 이용한 자동 방향 선택 음성인식시스템의 개념도.
도 3은 본 발명의 제1 실시예에 따른 중요 화제 선별을 이용한 자동 방향 선택 음성인식시스템의 중요화제선별자동방향선택음성인식장치 블록도.
도 4는 본 발명의 제1 실시예에 따른 중요 화제 선별을 이용한 자동 방향 선택 음성인식시스템의 중요화제선별자동방향선택음성인식장치에 포함된 다채널내용분석부 블록도.
도 5는 본 발명의 제1 실시예에 따른 중요 화제 선별을 이용한 자동 방향 선택 음성인식시스템의 중요화제선별자동방향선택음성인식장치에 포함된 토픽모델부 블록도.
도 6은 본 발명의 제1 실시예에 따른 중요 화제 선별을 이용한 자동 방향 선택 음성인식시스템의 중요화제선별자동방향선택음성인식장치에 포함된 토픽일치도판단부 블록도.
도 7은 본 발명의 제1 실시예에 따른 중요 화제 선별을 이용한 자동 방향 선택 음성인식시스템의 중요화제선별자동방향선택음성인식장치에 포함된 음성입력감도강화조정부 블록도.
도 8은 본 발명의 제1 실시예에 따른 중요 화제 선별을 이용한 자동 방향 선택 음성인식 방법의 전체 흐름도.
도 9는 본 발명의 제1 실시예에 따른 중요 화제 선별을 이용한 자동 방향 선택 음성인식 방법의 다채널내용분석단계의 흐름도.
도 10은 본 발명의 제1 실시예에 따른 중요 화제 선별을 이용한 자동 방향 선택 음성인식 방법의 토픽모델단계의 흐름도.
도 11은 본 발명의 제1 실시예에 따른 중요 화제 선별을 이용한 자동 방향 선택 음성인식 방법의 토픽일치도판단단계의 흐름도.
BRIEF DESCRIPTION OF THE DRAWINGS FIG. 1 is a general schematic diagram of an automatic directional speech recognition system using an important agent selection according to a first embodiment of the present invention; FIG.
FIG. 2 is a conceptual diagram of an automatic directional speech recognition system using important agent selection according to the first embodiment of the present invention. FIG.
FIG. 3 is a block diagram of an automatic direction selection speech recognition apparatus for sorting an important agent in an automatic direction selection speech recognition system using important agent selection according to the first embodiment of the present invention. FIG.
FIG. 4 is a block diagram of a multi-channel content analysis unit included in an automatic direction selection speech recognition apparatus for selecting an important agent in an automatic direction selection speech recognition system according to the first embodiment of the present invention.
FIG. 5 is a block diagram of a topic model block included in an automatic direction selection speech recognition apparatus for selecting an important agent in an automatic direction selection speech recognition system using important agent selection according to the first embodiment of the present invention.
FIG. 6 is a block diagram of a topic matching degree determination unit included in the automatic direction selection speech recognition apparatus for selecting the important agent in the automatic direction selection speech recognition system using the important agent selection according to the first embodiment of the present invention.
FIG. 7 is a block diagram of a speech input sensitivity enhancement adjusting unit included in an automatic directional speech recognition apparatus for selecting an important speech signal in an automatic directional speech recognition system using important agent selection according to a first embodiment of the present invention; FIG.
FIG. 8 is an overall flowchart of an automatic direction selection speech recognition method using an important agent selection according to the first embodiment of the present invention. FIG.
FIG. 9 is a flowchart of a multi-channel content analysis step of an automatic direction selection speech recognition method using an important agent selection method according to the first embodiment of the present invention. FIG.
10 is a flowchart of a topic model step of an automatic directional speech recognition method using an important agent selection according to the first embodiment of the present invention.
11 is a flowchart of a topic matching degree determination step of an automatic directional selection speech recognition method using important agent selection according to the first embodiment of the present invention.

이하의 내용은 단지 본 발명의 원리를 예시한다. 그러므로 당업자는 비록 본 명세서에 명확히 설명되거나 도시되지 않았지만, 본 발명의 원리를 구현하고 본 발명의 개념과 범위에 포함된 다양한 장치를 발명할 수 있는 것이다. The following merely illustrates the principles of the invention. Therefore, those skilled in the art will be able to devise various apparatuses which, although not explicitly described or illustrated herein, embody the principles of the invention and are included in the concept and scope of the invention.

또한, 본 명세서에 열거된 모든 조건부 용어 및 실시 예들은 원칙적으로, 본 발명의 개념이 이해되도록 하기 위한 목적으로만 명백히 의도되고, 이와 같이 특별히 열거된 실시 예들 및 상태들에 제한적이지 않는 것으로 이해되어야 한다.Furthermore, all of the conditional terms and embodiments listed herein are, in principle, only intended for the purpose of enabling understanding of the concepts of the present invention, and are not to be construed as limited to such specifically recited embodiments and conditions do.

본 발명을 설명함에 있어서 제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 구성요소들은 용어들에 의해 한정되지 않을 수 있다.In describing the present invention, the terms first, second, etc. may be used to describe various elements, but the elements may not be limited by terms.

예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.For example, without departing from the scope of the present invention, the first component may be referred to as a second component, and similarly, the second component may also be referred to as a first component.

어떤 구성요소가 다른 구성요소에 연결되어 있다거나 접속되어 있다고 언급되는 경우는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해될 수 있다.It is to be understood that when an element is referred to as being connected or connected to another element, it may be directly connected or connected to the other element, but it may be understood that other elements may be present in between .

본 명세서에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니며, 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다.It is to be understood that the terminology used herein is for the purpose of describing particular embodiments only and is not intended to limit the invention, the singular forms of which may include a plurality of representations, unless the context clearly indicates otherwise.

본 명세서에서, 포함하다 또는 구비하다 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것으로서, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해될 수 있다.It is to be understood that the term " comprising, " or " comprising " as used herein is intended to specify the presence of stated features, integers, But do not preclude the presence or addition of steps, operations, elements, components, or combinations thereof.

<제1 실시예>&Lt; Embodiment 1 >

본 발명의 제1 실시예에 따른 중요 화제 선별을 이용한 자동 방향 선택 음성인식시스템은,The automatic direction selection speech recognition system using the important agent selection according to the first embodiment of the present invention,

마이크 방향 조정 제어, 마이크 거리 이동 제어, 마이크 감도 조정 제어 중 어느 하나 이상의 제어를 수행하기 위한 채널마이크제어부(110)를 포함하여 구성되며, 주변 음원을 획득하도록 구성되는 적어도 한 개 이상의 채널 마이크(100)와,And a channel microphone control unit 110 for performing at least one of a microphone direction control, a microphone distance movement control, and a microphone sensitivity adjustment control. The at least one channel microphone 100 )Wow,

상기 복수 개의 채널 마이크로부터 다수의 음원을 입력받아 다채널음원분리부로 제공하기 위한 다채널음원입력부(210);A multi-channel sound source input unit 210 for receiving a plurality of sound sources from the plurality of channel microphones and providing the multi-channel sound source separation unit to the multi-channel sound source separation unit;

상기 다채널음원입력부에서 제공된 다수의 음원을 각 채널별로 분리하며, 분리된 다수의 음원을 다채널음성인식부로 제공하기 위한 다채널음원분리부(220);A multi-channel sound source separation unit 220 for separating a plurality of sound sources provided from the multi-channel sound source input unit for each channel and providing a plurality of separated sound sources to the multi-channel sound recognition unit;

상기 다채널음원분리부로부터 제공된 다수의 음원을 각 채널별로 음성을 인식하는 다채널음성인식부(230);A multi-channel speech recognition unit (230) for recognizing a plurality of sound sources provided from the multi-channel sound source separation unit for each channel;

상기 다채널음성인식부로부터 각 채널별 음성 인식 정보를 획득하여 각 채널별로 자연어 처리를 수행하여 각 채널별 내용 분석을 수행하며, 수행된 내용 분석을 참조하여 각 채널별로 음성 인식 요약 정보를 생성하여 토픽일치도판단부로 제공하기 위한 다채널내용분석부(240);Acquires speech recognition information for each channel from the multi-channel speech recognition unit, performs natural language processing for each channel, performs content analysis for each channel, generates speech recognition summary information for each channel by referring to the performed content analysis, A multi-channel content analyzing unit 240 for providing the topic matching degree to the judging unit;

컨텐츠서버(300)로부터 외부 컨텐츠를 크롤링하여 주의깊게 인식하고자 하는 토픽 정보를 모델링하며, 모델링된 토픽 모델 정보를 토픽일치도판단부로 제공하기 위한 토픽모델부(250);A topic modeling unit 250 for modeling topic information to be carefully recognized by crawling external contents from the content server 300 and providing the modeled topic model information to the topic matching degree determining unit;

상기 다채널내용분석부에서 제공된 각 채널별 음성 인식 요약 정보와 모델링된 토픽 모델 정보 간의 확률적 거리값을 각각 계산하여 확률적 거리값이 기준치 이상의 토픽 일치도를 제공하는 채널을 판단하여 해당 채널 마이크 정보를 음성입력감도강화조정부로 제공하기 위한 토픽일치도판단부(260);The method comprising: calculating a probabilistic distance value between the speech recognition summary information for each channel and the modeled topic model information provided by the multi-channel content analyzing unit, determining a channel providing a topic match degree with a probabilistic distance value equal to or greater than a reference value, To the speech input sensitivity enhancement adjusting unit (260);

상기 토픽일치도판단부로부터 채널 마이크 정보를 획득할 경우에 해당 채널 마이크의 음성 입력 감도를 높이기 위한 음성입력감도강화조정부(270);를 포함하여 구성되는 중요화제선별자동방향선택음성인식장치(200)와,And an audio input sensitivity enhancement adjusting unit (270) for increasing the audio input sensitivity of the channel microphone when the channel microphone information is obtained from the topic match degree determining unit (200). Wow,

주기적으로 상기 중요화제선별자동방향선택음성인식장치에 토픽 모델 정보를 생성할 수 있도록 외부 컨텐츠를 제공하기 위한 컨텐츠서버(300)를 포함하여 구성되는 것을 특징으로 한다.And a content server (300) for periodically providing external content to generate topic model information in the automatic direction selection speech recognition apparatus for sorting important information.

이때, 상기 다채널내용분석부(240)는,At this time, the multi-channel content analyzer 240 analyzes the multi-

다채널음성인식부로부터 각 채널별 음성 인식 정보를 획득하여 각 채널별로 자연어 처리(Natural Language Processing)를 수행하기 위한 채널별자연어처리모듈(241);A channel-specific natural language processing module 241 for acquiring speech recognition information for each channel from the multi-channel speech recognition unit and performing natural language processing for each channel;

상기 채널별자연어처리모듈에 의해 각 채널별로 처리된 자연어 처리 결과를 참조하여 각 채널별로 발화의 의도 정보와 핵심어를 추출하여 음성인식요약정보생성모듈로 제공하기 위한 채널별의도정보및핵심어추출모듈(242);Extracting intention information and key words of the utterance for each channel with reference to the natural language processing result processed for each channel by the natural language processing module for each channel and providing the speech recognition summary information to the speech recognition summary information generation module, (242);

상기 채널별의도정보및핵심어추출모듈에 의해 제공된 각 채널별 발화의 의도 정보와 핵심어를 참조하여 각 채널별로 음성 인식 요약 정보를 생성하여 토픽일치도판단부(260)으로 제공하기 위한 음성인식요약정보생성모듈(243);을 포함하여 구성되는 것을 특징으로 한다.The speech recognition summary information for each channel is generated by referring to the per-channel intention information and the keyword intention information and key words provided for each channel provided by the key word extraction module, and provides the speech recognition summary information to the topic consistency determination unit 260 And a generation module (243).

이때, 상기 토픽모델부(250)는,At this time, the topic modeling unit 250,

컨텐츠서버(300)로부터 외부 컨텐츠를 크롤링하여 데이터를 수집하기 위한 컨텐츠수집모듈(251);A content collection module 251 for crawling external content from the content server 300 and collecting data;

토픽 모델을 생성하기 위하여 주의깊게 인식하고자 하는 의도 정보 및 핵심어를 설정하기 위한 토픽파라미터조정모듈(252);A topic parameter adjustment module 252 for setting intention information and key words to be carefully recognized to generate a topic model;

상기 토픽파라미터조정모듈에 의해 설정된 의도 정보 및 핵심어를 포함하고 있는 컨텐츠를 상기 컨텐츠수집모듈에 의해 획득하여 자연어 처리를 수행하기 위한 토픽자연어처리모듈(253);A topic natural language processing module (253) for acquiring contents containing intention information and key words set by the topic parameter adjustment module by the content acquisition module and performing natural language processing;

상기 자연어 처리 결과를 참조하여 사용자가 설정한 의도 정보 및 핵심어를 포함한 토픽 정보를 모델링하며, 모델링된 토픽 모델 정보를 토픽일치도판단부(260)로 제공하기 위한 토픽모델생성모듈(254);을 포함하여 구성되는 것을 특징으로 한다.A topic model generation module 254 for modeling the topic information including the intention information and key words set by the user with reference to the natural language processing result and providing the modeled topic model information to the topic match degree determination unit 260 .

이때, 상기 토픽일치도판단부(260)는,At this time, the topic match degree determining unit 260,

다채널내용분석부에서 제공된 각 채널별 음성 인식 요약 정보와 모델링된 토픽 모델 정보를 획득하여 토픽일치도판단모듈로 제공하기 위한 채널별일치도판단정보획득모듈(261);A channel-based match degree determination information acquisition module 261 for acquiring speech recognition summary information and modeled topic model information for each channel provided by the multi-channel content analysis unit and providing the obtained speech recognition summary information to the topic match degree determination module;

상기 채널별일치도판단정보획득모듈에서 제공된 각 채널별 음성 인식 요약 정보와 모델링된 토픽 모델 정보 간의 확률적 거리값을 각각 계산하며, 계산된 확률적 거리값이 기준치 이상의 토픽 일치도를 제공하는 채널을 판단하기 위한 토픽일치도판단모듈(262);Calculates a probabilistic distance value between the speech recognition summary information for each channel and the modeled topic model information provided by the per-channel match degree information acquisition module, and determines a channel for which the calculated probabilistic distance value is greater than or equal to a reference value A topic match degree judging module 262 for judging a match degree;

상기 토픽일치도판단모듈에서 기준치 이상의 토픽 일치도를 제공하는 채널을 획득하여 해당 채널의 마이크 정보를 음성입력감도강화조정부(270)로 제공하기 위한 토픽일치도결과출력모듈(263);을 포함하여 구성되는 것을 특징으로 한다.And a topic correspondence degree output module 263 for acquiring a channel for providing a topic agreement degree equal to or higher than a reference value in the topic match degree determination module and providing the microphone information of the corresponding channel to the speech input sensitivity enhancement adjuster 270 .

이때, 상기 음성입력감도강화조정부(270)는,At this time, the voice input sensitivity enhancement adjusting unit 270 adjusts,

토픽일치도판단부로부터 채널 마이크 정보를 획득하여 음성입력감도강화조정모듈(272)로 해당 채널 마이크 정보를 제공하기 위한 채널마이크정보획득모듈(271);A channel microphone information acquisition module 271 for acquiring channel microphone information from the topic matching degree determination unit and providing corresponding channel microphone information to the voice input sensitivity enhancement adjustment module 272;

채널마이크정보획득모듈로부터 채널 마이크 정보를 획득할 경우에 해당 채널 마이크의 음성 입력 감도를 높이기 위하여, 마이크 방향 조정 정보, 마이크 거리 이동 정보, 마이크 감도 조정 정보 중 어느 하나 이상의 정보를 생성하여 해당 채널마이크제어부(110)로 전송하기 위한 음성입력감도강화조정모듈(272);을 포함하여 구성되는 것을 특징으로 한다.In order to increase the voice input sensitivity of the channel microphone when the channel microphone information is acquired from the channel microphone information acquisition module, information on at least one of the microphone direction adjustment information, the microphone distance movement information, and the microphone sensitivity adjustment information is generated, And an audio input sensitivity enhancement adjustment module (272) for transmitting the audio input sensitivity enhancement adjustment module (272) to the control unit (110).

이때, 상기 토픽모델부(250)는,At this time, the topic modeling unit 250,

사용자가 원하는 중요 화제 정보를 선별하기 위하여, 딥 러닝(deep learning) 모델, 머신 러닝(Machine Learning), SVM(Support Vector Machine), 신경망(Neural Network) 중 어느 하나의 기계학습 모델을 적용하여 토픽 모델 정보를 생성하는 것을 특징으로 한다.In order to select important topic information desired by the user, a machine learning model of a deep learning model, a machine learning, a support vector machine (SVM), and a neural network is applied to a topic model Information is generated.

이때, 상기 토픽모델부(250)는,At this time, the topic modeling unit 250,

컨텐츠서버(300)로부터 외부 컨텐츠를 크롤링하며, 딥 러닝 모델을 이용하여 외부 컨텐츠의 분석과 학습을 주기적으로 수행하여 지속적인 토픽 모델링 및 업데이트를 수행함으로써, 토픽 모델링의 정확도를 향상시키는 것을 특징으로 한다.Crawling external content from the content server 300 and periodically performing analysis and learning of external content using a deep learning model to perform continuous topic modeling and updating to improve the accuracy of topic modeling.

한편, 본 발명의 제1 실시예에 따른 중요 화제 선별을 이용한 자동 방향 선택 음성인식 방법은,Meanwhile, the automatic direction selection speech recognition method using the important agent selection according to the first embodiment of the present invention,

중요화제선별자동방향선택음성인식장치(200)의 다채널음원입력부(210)가 마이크 방향 조정 제어, 마이크 거리 이동 제어, 마이크 감도 조정 제어 중 어느 하나 이상의 제어를 수행하기 위한 채널마이크제어부(110)를 포함하여 구성되며, 주변 음원을 획득하도록 구성되는 적어도 한 개 이상의 채널 마이크(100)로부터 다수의 음원을 입력받아 다채널음원분리부로 제공하기 위한 다채널음원입력단계(S100)와,The multi-channel sound source input unit 210 of the speech recognition apparatus 200 includes a channel microphone control unit 110 for performing at least one of a microphone direction adjustment control, a microphone distance movement control, and a microphone sensitivity adjustment control, A multi-channel sound source input step (S100) for receiving a plurality of sound sources from at least one channel microphone (100) configured to acquire an ambient sound source and providing the sound sources to the multi-channel sound source separation unit,

중요화제선별자동방향선택음성인식장치(200)의 다채널음원분리부(220)가 상기 다채널음원입력부(210)에서 제공된 다수의 음원을 각 채널별로 분리하며, 분리된 다수의 음원을 다채널음성인식부로 제공하기 위한 다채널음원분리단계(S200)와,The multi-channel sound source separation unit 220 of the speech recognition apparatus 200 separates a plurality of sound sources provided from the multi-channel sound source input unit 210 for each channel, and separates a plurality of separated sound sources into multi- A multi-channel sound source separation step S200 for providing a sound recognition unit,

중요화제선별자동방향선택음성인식장치(200)의 다채널음성인식부(230)가 상기 다채널음원분리부(220)로부터 제공된 다수의 음원을 각 채널별로 음성을 인식하는 다채널음성인식단계(S300)와,The multi-channel speech recognition unit 230 of the speech recognition apparatus 200 recognizes a plurality of sound sources provided from the multi-channel sound source separation unit 220 by a multi-channel speech recognition step S300)

중요화제선별자동방향선택음성인식장치(200)의 다채널내용분석부(240)가 상기 다채널음성인식부(230)로부터 각 채널별 음성 인식 정보를 획득하여 각 채널별로 자연어 처리를 수행하여 각 채널별 내용 분석을 수행하며, 수행된 내용 분석을 참조하여 각 채널별로 음성 인식 요약 정보를 생성하여 토픽일치도판단부로 제공하기 위한 다채널내용분석단계(S400)와,The multichannel content analyzer 240 of the speech recognition apparatus 200 acquires speech recognition information for each channel from the multichannel speech recognition unit 230 and performs natural language processing for each channel, A multi-channel content analyzing step (S400) for analyzing the content of each channel, generating speech recognition summary information for each channel by referring to the analyzed content analysis,

중요화제선별자동방향선택음성인식장치(200)의 토픽모델부(250)가 컨텐츠서버(300)로부터 외부 컨텐츠를 크롤링하여 주의깊게 인식하고자 하는 토픽 정보를 모델링하며, 모델링된 토픽 모델 정보를 토픽일치도판단부로 제공하기 위한 토픽모델링단계(S500)와,The topic model unit 250 of the important topic selection automatic direction selection unit 210 crawls the external content from the content server 300 to model the topic information to be carefully recognized and transmits the modeled topic model information to the topic matching information A topic modeling step (S500) for providing to the judgment unit,

중요화제선별자동방향선택음성인식장치(200)의 토픽일치도판단부(260)가 상기 다채널내용분석부(240)에서 제공된 각 채널별 음성 인식 요약 정보와 모델링된 토픽 모델 정보 간의 확률적 거리값을 각각 계산하여 확률적 거리값이 기준치 이상의 토픽 일치도를 제공하는 채널을 판단하여 해당 채널 마이크 정보를 음성입력감도강화조정부로 제공하기 위한 토픽일치도판단단계(S600)와,The topic matching degree determination unit 260 of the speech recognition apparatus 200 selects a probabilistic distance value between the speech recognition summary information for each channel and the modeled topic model information provided by the multi-channel content analysis unit 240 (S600) for determining a channel providing a topic match degree of which the probabilistic distance value is equal to or greater than a reference value and providing the corresponding channel microphone information to the speech input sensitivity enhancement adjusting unit,

중요화제선별자동방향선택음성인식장치(200)의 음성입력감도강화조정부(270)가 상기 토픽일치도판단부(260)로부터 채널 마이크 정보를 획득할 경우에 해당 채널 마이크의 음성 입력 감도를 높이기 위한 음성입력감도강화조정단계(S700)를 포함하는 것을 특징으로 한다.When the speech input sensitivity enhancement adjusting unit 270 of the speech recognition apparatus 200 acquires the channel microphone information from the topic match degree determining unit 260, the voice input sensitivity enhancement unit 270 selects a voice for increasing the voice input sensitivity of the corresponding channel microphone And an input sensitivity enhancement adjustment step (S700).

이때, 상기 다채널내용분석단계(S400)는,At this time, the multi-channel content analysis step (S400)

다채널내용분석부(240)의 채널별자연어처리모듈(241)이 다채널음성인식부로부터 각 채널별 음성 인식 정보를 획득하여 각 채널별로 자연어 처리(Natural Language Processing)를 수행하기 위한 채널별자연어처리단계(S410);Channel natural language processing module 241 of the multi-channel content analyzer 240 acquires the speech recognition information for each channel from the multi-channel speech recognition unit and performs natural language processing for each channel, Processing step S410;

다채널내용분석부(240)의 채널별의도정보및핵심어추출모듈(242)이 상기 채널별자연어처리모듈(241)에 의해 각 채널별로 처리된 자연어 처리 결과를 참조하여 각 채널별로 발화의 의도 정보와 핵심어를 추출하여 음성인식요약정보생성모듈로 제공하기 위한 채널별의도정보및핵심어추출단계(S420);Channel intention information of the multi-channel content analyzer 240 and the keyword extraction module 242 refer to the natural language processing result processed for each channel by the channel-by-channel natural language processing module 241, (Step S420) of extracting keyword information and keyword for providing information to the speech recognition summary information generation module by extracting information and key words;

다채널내용분석부(240)의 음성인식요약정보생성모듈(243)이 상기 채널별의도정보및핵심어추출모듈(242)에 의해 제공된 각 채널별 발화의 의도 정보와 핵심어를 참조하여 각 채널별로 음성 인식 요약 정보를 생성하여 토픽일치도판단부(260)로 제공하기 위한 음성인식요약정보생성단계(S430);을 포함하는 것을 특징으로 한다.The speech recognition summary information generation module 243 of the multi-channel content analysis unit 240 refers to the per-channel degree information and the intention information and key words for each channel provided by the key word extraction module 242, And a speech recognition summary information generating step (S430) for generating speech recognition summary information and providing the generated speech recognition summary information to the topic match degree determining unit 260. [

이때, 상기 토픽모델단계(S500)는,At this time, the topic model step (S500)

토픽모델부(250)의 컨텐츠수집모듈(251)이 컨텐츠서버(300)로부터 외부 컨텐츠를 크롤링하여 데이터를 수집하기 위한 컨텐츠수집단계(S510);A content collecting step (S510) for the content collecting module 251 of the topic modeling unit 250 to collect data by crawling external contents from the contents server 300;

토픽모델부(250)의 토픽파라미터조정모듈(252)이 토픽 모델을 생성하기 위하여 주의깊게 인식하고자 하는 의도 정보 및 핵심어를 설정하기 위한 토픽파라미터조정단계(S520);A topic parameter adjustment step (S520) for setting the intention information and key words that the topic parameter adjustment module 252 of the topic model unit 250 intends to carefully recognize to generate the topic model;

토픽모델부(250)의 토픽자연어처리모듈(253)이 상기 토픽파라미터조정모듈(252)에 의해 설정된 의도 정보 및 핵심어를 포함하고 있는 컨텐츠를 상기 컨텐츠수집모듈에 의해 획득하여 자연어 처리하기 위한 토픽자연어처리단계(S530);A topic natural language processing module 253 of the topic model unit 250 acquires the contents including the intention information and key words set by the topic parameter adjustment module 252, Processing step S530;

토픽모델부(250)의 토픽모델생성모듈(254)이 상기 자연어 처리 결과를 참조하여 사용자가 설정한 의도 정보 및 핵심어를 포함한 토픽 정보를 모델링하며, 모델링된 토픽 모델 정보를 토픽일치도판단부(260)로 제공하기 위한 토픽모델생성단계(S540);를 포함하는 것을 특징으로 한다.The topic model generation module 254 of the topic model unit 250 models the topic information including the intention information and key words set by the user with reference to the natural language processing result and outputs the modeled topic model information to the topic match degree determination unit 260 (S540) of providing a topic model for providing a topic model.

이때, 상기 토픽일치도판단단계(S600)는,In this case, the topic match degree determination step S600 may include:

토픽일치도판단부(260)의 채널별일치도판단정보획득모듈(261)이 다채널내용분석부에서 제공된 각 채널별 음성 인식 요약 정보와 모델링된 토픽 모델 정보를 획득하여 토픽일치도판단모듈로 제공하기 위한 채널별일치도판단정보획득단계(S610);The channel matching degree information acquisition module 261 of the topic matching degree determination unit 260 acquires the speech recognition summary information for each channel and the modeled topic model information provided by the multi-channel content analysis unit and provides the same to the topic matching degree determination module A step S610 of acquiring information on the degree of match of each channel;

토픽일치도판단부(260)의 토픽일치도판단모듈(262)이 상기 채널별일치도판단정보획득모듈(261)에서 제공된 각 채널별 음성 인식 요약 정보와 모델링된 토픽 모델 정보 간의 확률적 거리값을 각각 계산하며, 계산된 확률적 거리값이 기준치 이상의 토픽 일치도를 제공하는 채널을 판단하기 위한 토픽일치도판단단계(S620);The topic matching degree judging module 262 of the topic matching degree judging unit 260 calculates the probabilistic distance values between the speech recognition summary information for each channel and the modeled topic model information provided by the channel matching degree judgment information acquiring module 261 A topic matching degree determination step (S620) for determining a channel in which the calculated probabilistic distance value provides a topic matching degree equal to or higher than a reference value;

토픽일치도판단부(260)의 토픽일치도결과출력모듈(263)이 상기 토픽일치도판단모듈(262)에서 기준치 이상의 토픽 일치도를 제공하는 채널을 획득하여 해당 채널의 마이크 정보를 음성입력감도강화조정부(270)로 제공하기 위한 토픽일치도결과출력단계(S630);을 포함하는 것을 특징으로 한다.The topic matching degree result output module 263 of the topic matching degree judging unit 260 obtains the channel providing the topic matching degree higher than the reference value in the topic matching degree judging module 262 and transmits the microphone information of the corresponding channel to the voice input sensitivity enhancing adjusting unit 270 (Step S630) of outputting a topic match degree result for providing the topic match result.

이하에서는, 본 발명에 의한 중요 화제 선별을 이용한 자동 방향 선택 음성인식시스템 및 음성인식방법의 실시예를 통해 상세히 설명하도록 한다.Hereinafter, embodiments of the automatic direction selection speech recognition system and the speech recognition method using the important agent selection according to the present invention will be described in detail.

도 1은 본 발명의 제1 실시예에 따른 중요 화제 선별을 이용한 자동 방향 선택 음성인식시스템을 개략적으로 나타낸 전체 구성도이다.FIG. 1 is an overall schematic diagram of an automatic directional speech recognition system using important agent selection according to a first embodiment of the present invention.

도 1에 도시한 바와 같이, 본 발명인 중요 화제 선별을 이용한 자동 방향 선택 음성인식시스템은 복수 개의 채널 마이크(100a ~ 100n), 중요화제선별자동방향선택음성인식장치(200), 컨텐츠서버(300)를 포함하여 구성된다.As shown in FIG. 1, the automatic directional speech recognition system using important agent selection according to the present invention includes a plurality of channel microphones 100a to 100n, an important direction selection automatic direction selection speech recognition device 200, a content server 300, .

상기와 같은 구성을 통해, 다채널로 입력된 음성을 음원 분리하고, 분리된 음성마다 음성 인식을 수행하여 각 채널별 인식 결과 내용을 분석하여 사용자가 원하는 토픽에 맞는 음성이 입력되는 채널마이크를 자동으로 선별하여 해당 채널마이크의 감도를 증가시켜 높은 인식 성능을 확보함으로써, 칵테일 파티 효과를 재현할 수 있는 효과를 발휘한다.Through the above-described configuration, the voice input through the multiple channels is separated from the sound source, the voice recognition is performed for each separated voice, and the contents of the recognition result for each channel are analyzed to provide a channel microphone And the sensitivity of the corresponding channel microphones is increased to secure a high recognition performance, so that the cocktail party effect can be reproduced.

그리고, 도 2에 도시한 바와 같이, 상기와 같은 효과를 발휘하기 위하여, 핵심적 구성요소인 중요화제선별자동방향선택음성인식장치(200)는 적어도 한 개 이상의 채널 마이크(100a ~ 100n)로부터 다중의 대화 음원을 입력받아 각 채널별로 음성 인식을 수행하고, 자연어 처리를 통해 내용 분석을 한 후, 해당 분석된 채널별 내용 정보와 사용자에 의해 정해진 토픽 모델 정보와의 일치도를 측정하여 가장 일치도가 높은 채널을 선정하게 된다.As shown in FIG. 2, in order to achieve the above-mentioned effects, the key recognition automatic speech recognition apparatus 200 for identifying important speech, which is a core component, is provided with at least one channel microphone 100a to 100n, After receiving the conversation sound source, the speech recognition is performed for each channel. After analyzing the content through the natural language processing, the degree of matching between the analyzed content information per channel and the topic model information determined by the user is measured, .

이후, 사용자가 원하는 토픽에 맞는 음성이 입력되는 채널마이크의 감도를 채널마이크제어부(110)의 제어에 따라 증가시키게 된다.Thereafter, the sensitivity of the channel microphone to which a voice corresponding to a topic desired by the user is input is increased under the control of the channel microphone control unit 110. [

상기 채널 마이크(100)는 적어도 한 개 이상이 특정한 장소에 설치 구성되게 되며, 다수의 채널 마이크들(100a ~ 100n)을 이용하여 다양한 사람들의 음성 음원을 획득하게 된다.At least one of the channel microphones 100 is installed at a specific location, and a plurality of channel microphones 100a to 100n are used to acquire voice sound sources of various people.

이때, 상기 채널 마이크에는 마이크 방향 조정 제어, 마이크 거리 이동 제어, 마이크 감도 조정 제어 중 어느 하나 이상의 제어를 수행하기 위한 채널마이크제어부(110)를 포함하여 구성되는 것을 특징으로 한다.Here, the channel microphone may include a channel microphone controller 110 for performing at least one of a microphone direction adjustment control, a microphone distance movement control, and a microphone sensitivity adjustment control.

일반적으로 사용되는 화상회의, 세미나, 방송, 지하철 역사, 광장 등과 같이 다중이 발화하는 공간에서 다양한 사람들의 음성을 입력받기 위하여 채널 마이크에는 마이크 방향 조정, 마이크 거리 이동, 마이크 감도 조정을 위한 채널마이크제어부(110)를 구성하고 있으며, 이를 통해 특정 방향, 특정 거리의 대화 내용을 감도 조정을 통해 획득하게 된다.In order to receive various people's voices in the space where the video is frequently used, such as video conferencing, seminars, broadcasting, subway history, and the general public, a channel microphone is provided with a channel microphone control unit for adjusting a microphone direction, moving a microphone distance, (110). Through this, conversation contents of a specific direction and a specific distance are obtained through sensitivity adjustment.

따라서, 본 발명에서도 상기한 특정 음원을 인식하기 위하여 채널마이크제어부를 각각의 채널 마이크마다 설치 구성되어 있는 기기를 도입한 것이며, 이를 통해 주변 음원을 획득하게 된다.Accordingly, in the present invention, a channel microphone control unit is installed for each channel microphone in order to recognize the specific sound source, thereby acquiring an ambient sound source.

한편, 다른 실시예에 따라, 방향 조정 및 마이크 거리 이동이 불가능한 마이크에 도입된다면 감도만을 조정하기 위한 감도 조정 제어 정보만을 제공할 수 있는 것은 자명한 사실이다.On the other hand, according to another embodiment, it is obvious that only the sensitivity adjustment control information for adjusting only the sensitivity can be provided if it is introduced into a microphone which can not perform direction adjustment and microphone distance movement.

또한, 컨텐츠서버(300)는 주기적으로 상기 중요화제선별자동방향선택음성인식장치에 토픽 모델 정보를 생성할 수 있도록 외부 컨텐츠를 제공하는 기능을 수행하게 된다.In addition, the content server 300 periodically performs the function of providing the external contents so as to generate the topic model information to the automatic direction selecting speech recognition apparatus for sorting important matters.

이때, 상기 토픽 모델 생성은 주기적으로 실시하게 되며, 상기 생성된 토픽 모델 정보를 데이터베이스화하여 저장 관리함으로써, 지속적인 성능 업데이트가 가능하도록 구성하게 된다.At this time, the topic model generation is performed periodically, and the generated topic model information is stored in a database and stored and managed so that continuous performance update is possible.

다음은 상기한 중요화제선별자동방향선택음성인식장치(200)의 구체적인 구성수단들을 하기의 도면을 참조하여 구체적으로 설명하도록 하겠다.Hereinafter, the specific constituent elements of the automatic speech recognition apparatus 200 for selecting importance sorting automatic speech selection will be described in detail with reference to the following drawings.

도 3은 본 발명의 제1 실시예에 따른 중요 화제 선별을 이용한 자동 방향 선택 음성인식시스템의 중요화제선별자동방향선택음성인식장치 블록도이다.FIG. 3 is a block diagram of an automatic direction selection speech recognition apparatus for selecting an important agent in the automatic direction selection speech recognition system using the important agent selection according to the first embodiment of the present invention.

도 3에 도시한 바와 같이, 본 발명의 중요화제선별자동방향선택음성인식장치(200)는, 다채널음원입력부(210), 다채널음원분리부(220), 다채널음성인식부(230), 다채널내용분석부(240), 토픽모델부(250), 토픽일치도판단부(260), 음성입력감도강화조정부(270)를 포함하여 구성된다.3, the important speech recognizing automatic directional voice recognition apparatus 200 according to the present invention includes a multi-channel sound source input unit 210, a multi-channel sound source separation unit 220, a multi-channel speech recognition unit 230, A multi-channel content analysis unit 240, a topic model unit 250, a topic matching degree determination unit 260, and a voice input sensitivity enhancement adjustment unit 270.

상기와 같은 중요화제선별자동방향선택음성인식장치(200)의 구성적 특징에 의하여 다채널로 입력된 음성을 음원 분리하고, 분리된 음성마다 음성 인식을 수행하여 각 채널별 인식 결과 내용을 분석하여 사용자가 원하는 토픽에 맞는 음성이 입력되는 채널마이크를 자동으로 선별하여 해당 채널마이크의 감도를 증가시켜 높은 인식 성능을 확보함으로써, 칵테일 파티 효과를 재현할 수 있는 효과를 발휘한다.According to the constitutional feature of the automatic direction selecting speech recognizing apparatus 200, the voice inputted through the multiple channels is separated into the sound sources, the voice recognition is performed for each separated voice, and the contents of the recognition result for each channel are analyzed A channel microphone to which a voice corresponding to a topic desired by a user is inputted is automatically selected to increase the sensitivity of the corresponding channel microphone, thereby securing a high recognition performance, thereby demonstrating the effect of reproducing a cocktail party effect.

상기의 효과를 제공하기 위한 중요화제선별자동방향선택음성인식장치(200)의 구성 요소들을 하기에서 구체적으로 설명하도록 한다.The components of the important speech recognition automatic directional voice recognition apparatus 200 for providing the above effect will be described in detail below.

상기 다채널음원입력부(210)는 복수 개의 채널 마이크(100a, 100b, 100b, ... , 100n)로부터 다수의 음원을 입력받아 다채널음원분리부로 제공하는 기능을 수행하게 된다.The multi-channel sound source input unit 210 receives a plurality of sound sources from the plurality of channel microphones 100a, 100b, 100b, ..., 100n, and provides the multi-channel sound source separation unit.

예를 들어, 제1채널마이크(100a)로부터 제1 음원 정보를, 제2채널마이크(100b)로부터 제2 음원 정보를, 제3채널마이크(100c)로부터 제3 음원 정보를, 제n채널마이크(100n)로부터 제n 음원 정보를 입력받아 식별자를 각각 부여하여 다채널음원분리부로 제공하게 된다.For example, the first sound source information is transmitted from the first channel microphone 100a, the second sound source information is transmitted from the second channel microphone 100b, the third sound source information is transmitted from the third channel microphone 100c, And receives the n-th sound source information from the second sound source 100n, and provides them to the multi-channel sound source separation unit.

이후, 상기 다채널음원분리부(220)는 다채널음원입력부에서 제공된 다수의 음원을 각 채널별로 분리하며, 분리된 다수의 음원을 다채널음성인식부로 제공하게 된다.Then, the multi-channel sound source separation unit 220 separates a plurality of sound sources provided from the multi-channel sound source input unit for each channel, and provides a plurality of separated sound sources to the multi-channel sound recognition unit.

3개의 음원 정보를 예를 들자면, 제1 음원 정보인 #01_VOICE, 제2 음원 정보인 #02_VOICE, 제3 음원 정보인 #03_VOICE를 각각 분리하여 다채널음성인식부로 제공하게 되는 것이다.For example, the three sound source information may include first sound source information # 01_VOICE, second sound source information # 02_VOICE, and third sound source information # 03_VOICE, which are separately provided to the multi-channel speech recognition unit.

이때, 상기 다채널음성인식부(230)는 상기 다채널음원분리부로부터 제공된 다수의 음원을 각 채널별로 음성을 인식하는 기능을 수행하게 된다.At this time, the multi-channel speech recognition unit 230 recognizes a plurality of sound sources provided from the multi-channel sound source separation unit for each channel.

예를 들어, 제1 음원 정보인 #01_VOICE를 제1다채널음성인식부(230a)에서 획득하여 음성 인식을 수행하게 되며, 제2 음원 정보인 #02_VOICE를 제2다채널음성인식부(230b)에서 획득하여 음성 인식을 수행하게 되며, 제3 음원 정보인 #03_VOICE를 제3다채널음성인식부(230c)에서 획득하여 음성 인식을 수행하게 되는 것이다.For example, the first sound source information # 01_VOICE is acquired by the first multi-channel speech recognition unit 230a to perform speech recognition, and the second sound source information # 02_VOICE is acquired by the second multi-channel speech recognition unit 230b. And the third sound source information # 03_VOICE is acquired by the third multi-channel speech recognition unit 230c to perform speech recognition.

상기한 음성인식 기술은 컴퓨터가 마이크와 같은 소리 센서를 통해 얻은 음향학적 신호(Acoustic speech signal)를 단어나 문장으로 변환시키는 기술을 말하며, 일반적으로, 음향 신호를 추출한 후 잡음을 제거하는 작업을 하게 된다.The above-described speech recognition technology refers to a technique of converting an acoustic speech signal obtained by a computer through a sound sensor such as a microphone into a word or a sentence. In general, a technique of extracting a sound signal and then removing noise do.

따라서, 각 채널별로 음성 인식한 결과물인 단어나 문장의 텍스트가 포함된 음성 인식 정보를 생성하여 다채널내용분석부(240)로 제공하게 되는 것이다.Accordingly, speech recognition information including a word or a text of a result of speech recognition for each channel is generated and provided to the multi-channel content analyzer 240. [

예를 들어, 제1다채널음성인식부(230a)에서 제1 음원 정보인 #01_VOICE를 음성 인식한 #01_TEXT, 제2다채널음성인식부(230b)에서 제2 음원 정보인 #02_VOICE를 음성 인식한 #02_TEXT, 제3다채널음성인식부(230c)에서 제3 음원 정보인 #03_VOICE를 음성 인식한 #03_TEXT를 다채널내용분석부(240)로 제공하게 되는 것이다.For example, in the first multi-channel speech recognition unit 230a, # 01_TEXT, in which # 01_VOICE is recognized as the first tone source information, and # 02_VOICE in the second multi-channel speech recognition unit 230b, And the third multi-channel speech recognition unit 230c provides the multi-channel content analysis unit 240 with # 03_TEXT, which is voice recognition of # 03_VOICE, which is the third source information, to the multi-channel content analysis unit 240.

이후, 상기 다채널내용분석부(240)는 다채널음성인식부로부터 각 채널별 음성 인식 정보를 획득하여 각 채널별로 자연어 처리를 수행하여 각 채널별 내용 분석을 수행하며, 수행된 내용 분석을 참조하여 각 채널별로 음성 인식 요약 정보를 생성하여 토픽일치도판단부로 제공하게 되는 것이다.Thereafter, the multi-channel content analyzer 240 acquires speech recognition information for each channel from the multi-channel speech recognition unit, performs natural language processing for each channel, performs content analysis for each channel, Thereby generating speech recognition summary information for each channel and providing the speech recognition summary information to the topic matching degree determination unit.

예를 들어, 제1다채널음성인식부(230a)에서 제공된 #01_TEXT를 제1다채널내용분석부(240a)로 제공하여 자연어 처리를 수행하게 되며, 제2다채널음성인식부(230b)에서 제공된 #02_TEXT를 제2다채널내용분석부(240b)로 제공하여 자연어 처리를 수행하게 되며, 제3다채널음성인식부(230c)에서 제공된 #03_TEXT를 제3다채널내용분석부(240c)로 제공하여 자연어 처리를 수행하게 되는 것이다.For example, the first multi-channel speech recognition unit 230a provides # 01_TEXT provided by the first multi-channel speech recognition unit 230a to the first multi-channel content analysis unit 240a to perform natural language processing, And provides the provided # 02_TEXT to the second multi-channel content analyzer 240b to perform natural language processing. The # 03_TEXT provided from the third multi-channel speech recognizer 230c is transmitted to the third multi-channel content analyzer 240c So that natural language processing is performed.

이때, 각각의 다채널내용분석부들은 각각 내용 분석을 수행하며, 수행된 내용 분석을 참조하여 각각의 채널별로 음성 인식 요약 정보를 생성하게 되며, 생성된 음성 인식 요약 정보를 토픽일치도판단부로 제공하게 되는 것이다.At this time, each of the multi-channel content analyzing units performs content analysis, generates speech recognition summary information for each channel by referring to the performed content analysis, and provides the generated speech recognition summary information to the topic match degree determination unit .

예를 들어, 제1다채널내용분석부(240a)로부터 '이명박, 문재인, 박근혜, 당선, 대통령'이라는 음성 인식 요약 정보를 생성하며, 제2다채널내용분석부(240b)로부터 '음식, 당첨, 쿠폰'이라는 음성 인식 요약 정보를 생성하며, 제3다채널내용분석부(240c)로부터 '영어, 점수, 수학'이라는 음성 인식 요약 정보를 생성하고, 생성된 채널별 음성 인식 요약 정보를 토픽일치도판단부로 제공하게 된다.For example, from the first multi-channel content analyzer 240a, speech recognition summary information 'Lee Myung-bak, Moon Jae-in, Park Geun-hye, , Coupon ', generates speech recognition summary information' English, score, and mathematics' from the third multi-channel content analyzer 240c, and outputs the generated speech recognition summary information for each channel to the topic agreement And provides it to the judgment unit.

또한, 상기 토픽모델부(250)는 컨텐츠서버(300)로부터 외부 컨텐츠를 크롤링하여 주의깊게 인식하고자 하는 토픽 정보를 모델링하며, 모델링된 토픽 모델 정보를 토픽일치도판단부로 제공하기 위한 기능을 수행하게 된다.In addition, the topic modeling unit 250 crawls external content from the content server 300 to model the topic information to be carefully recognized, and provides the modeled topic model information to the topic matching degree determining unit .

사용자가 주의깊게 인식하고자 하는 토픽 정보를 제공하게 되면, 이와 관련된 외부 컨텐츠를 크롤링하여 해당 토픽 정보를 모델링하게 되는데, 예를 들어, 사용자가 토픽 주제로 '선거'를 선정하였다면 선거와 관련된 토픽 정보를 모델링하여 이와 일치도가 높은 내용들을 발화하고 있는 채널을 판단하도록 하기 위한 것이다.When the user provides the topic information to be carefully recognized, the external content related thereto is crawled and the corresponding topic information is modeled. For example, if the user selects 'election' as a topic topic, And to determine a channel that has uttered high-agreement contents.

본 발명에서 설명하고 있는 토픽 모델(Topic Model)은 문서 집합으로부터 토픽을 추출하는 모델이며, 자연어 처리 등에 사용되고 있다. The Topic Model described in the present invention is a model for extracting topics from a document set, and is used for natural language processing and the like.

LSA 등 벡터 기반의 모델은 단어 벡터를 이용해 문서를 다차원으로 표현하는 것에 비해, 토픽 모델은 단어의 분포가 특정 토픽에 따라 다르다는 것을 기반으로 문서에 포함된 토픽을 확률 분포로 표현한다. LSA and other vector-based models use word vectors to represent documents in a multidimensional manner, while topic models express the topics contained in a document as a probability distribution, based on the distribution of words varying according to a particular topic.

토픽 모델을 사용하게 되면 문서를 저차원으로 표현할 수 있고 또한 잠재적인 토픽을 추출할 수 있다.Using the topic model allows you to represent the document in low dimensions and also extract potential topics.

자연어 처리에서 대표적인 토픽 모델인 잠재 디리클레 할당(Latent Dirichlet Allocation, LDA)은 토픽을 문서에 할당하는 확률 모형이다. Latent Dirichlet Allocation (LDA), a representative topic model in natural language processing, is a probability model that assigns topics to documents.

주어진 문서로부터 주제별 단어의 분포를 추정하고, 주어진 문서에서 발견된 단어의 분포를 분석하는 것으로 해당 문서가 어떤 주제들을 다루고 있는지를 관측할 수 있다.By estimating the distribution of themed words from a given document and analyzing the distribution of the words found in a given document, you can observe what topics the document deals with.

잠재 디리클레 할당은 간결하고 실용적인 토픽모델로 여러 연구나 제품에 많이 응용되고 있으며, 중국의 IT회사 텐센트(Tencent)에서는 잠재 디리클레 할당을 이용한 대규모 잠재 토픽 추출 프로젝트 Peacock을 상용화하였다.Potential Dirichlet allocation is a concise and practical topic model that is widely applied to various researches and products, and Chinese IT company Tencent has commercialized Peacock, a large-scale potential topic extraction project using potential Dirichlet allocation.

Peacock에서는 10억×1억 크기의 행렬을 분해하여 계산하는 병렬계산방법을 통하여 10만100만개의 토픽을 학습하였다. Peacock studied 101 million topics through a parallel computation method that decomposes and computes a matrix of 1 billion × 100 million.

학습된 토픽은 텍스트 단어 의미 추출, 추천 시스템, 사용자의 취향 파악, 광고 추천 등의 영역에 사용된다.The learned topics are used in areas such as text word meaning extraction, recommendation system, user taste appreciation, and advertisement recommendation.

토픽 추출에 있어서 LDA외에 다른 단어 군집화 방법을 이용한 토픽 추출방법도 있으며, 지역별 뉴스를 이용하여 지역별 토픽을 단어 군집화 방법을 통해 추출하는 방법도 있다.In addition to the LDA, there is a topic extraction method using word clustering method in topic extraction, and a topic clustering method is used to extract regional topic using regional news.

예를 들어, 일정 기간동안 신문 기사의 주제를 살펴본다고 가정했을 때, 선거에 대한 이야기, 국제 정세, 스포츠 등의 섹션이 주제들과 연관이 있고, 다시 선거에 대한 기사를 좀 더 깊이 들어가 보면 대통령선거, 시장 선거, 국회의원 선거 등이 있다. For example, suppose you look at the subject of a newspaper article over a period of time, and sections of election stories, international affairs, sports, etc. are related to topics, Elections, mayoral elections, and parliamentary elections.

또한, 대통령 선거와 관련해서도 각 인물들의 대선 출마, 경선 등 다양한 주제가 연결되어 있다.Also, in relation to the presidential election, various topics such as presidential candidates and elections are linked.

이와 같이 신문 기사뿐만 아니라, 수많은 글들은 다양한 주제를 내포하고 있고 이들은 계속 변화한다. In this way, not only newspaper articles, but also numerous articles contain various themes and they change continuously.

하지만, 이들이 명시적으로 드러나지도 않을 뿐만 아니라 사람이 일일이 수작업으로 주제를 부착할 수도 없다. However, not only are they not explicitly exposed, they can not be manually attached to a subject.

토픽 모델링이란, 이와 같이 원문에 나타난 단어들을 분석해서 문서 안에 들어있는 주제(theme)들을 자동으로 찾아내고, 주제들이 상호간에 어떻게 연결되는지, 그리고 시간의 흐름에 따라 이러한 주제가 어떻게 변화하는지를 알아내는 통계 기반의 방법론이다.Topic modeling is the process of analyzing the words in the original text to automatically find the themes in the document, to find out how the topics are linked to each other, and how these topics change with time .

이 중에서 LDA(Latent Dirichlet Allocation)는 생성 모델(generative model)의 하나로 토픽 모델에서 가장 흔히 사용되는 방법이다. Among these, Latent Dirichlet Allocation (LDA) is one of the generative models and is the most commonly used method in topic models.

문서라고 하는 것은 수많은 토픽(topic)들로 이루어져 있으며, 문서에 등장하는 단어들은 그 토픽들에 의해 생성된다고 가정하면, 이를테면 문서는 여러 가지 주제에 의해서 생성되었는데, 'computer'나 'prediction'과 같은 단어로 대표되는 'data analysis'라는 토픽, 'life'나 'organism'과 같은 단어로 나타내어지는 'evolutionary biology' 토픽들이 문서 내에 섞여 있을 수 있다. A document is made up of a number of topics, and assuming that the words appearing in the document are generated by the topics, for example, the document was created by several themes, such as 'computer' or 'prediction' There may be topics in the document, such as 'data analysis' topics, 'evolutionary biology' topics such as 'life' or 'organism'.

LDA는 이러한 개념을 형식화하기 위한 도구로 문서는 토픽과 관련된 생성 모델이며 토픽이란 정해진 어휘를 기반으로 한 분포로 정의하였고 문서에 등장하는 단어들의 공기 관계에 의해서 결과적으로 토픽이 예측된다.The LDA is a tool for formalizing this concept. A document is a generation model related to a topic. A topic is defined as a distribution based on a specified vocabulary. As a result, a topic is predicted by the air relation of words appearing in the document.

본 발명에서 사용자가 원하는 화제를 선별하기 위하여 토픽 모델링을 수행하게 되며, 사용되는 어떠한 토픽 모델을 적용하여도 상관없다.In the present invention, topic modeling is performed in order to select a topic desired by the user, and any topic model used may be applied.

이때, 상기 토픽일치도판단부(260)는 상기 다채널내용분석부에서 제공된 각 채널별 음성 인식 요약 정보와 모델링된 토픽 모델 정보 간의 확률적 거리값을 각각 계산하여 확률적 거리값이 기준치 이상의 토픽 일치도를 제공하는 채널을 판단하여 해당 채널 마이크 정보를 음성입력감도강화조정부로 제공하게 된다.At this time, the topic match degree determining unit 260 calculates a probabilistic distance value between the speech recognition summary information for each channel and the modeled topic model information provided by the multi-channel content analyzing unit, And provides the channel microphone information to the voice input sensitivity enhancement adjusting unit.

상기한 확률적 거리값을 계산하는 기술은 통계학 혹은 음성 인식 기술에서 주로 사용하는 기술로서, 토픽 모델, 오피니언 마이닝, 텍스트 요약, 데이터 분석, 여론 조사 등에서 일반적으로 적용되는 기술이므로 확률적 거리값의 계산하는 원리를 설명하지 않아도 당업자들은 상기한 의미를 충분히 이해할 수 있다는 것은 자명한 사실이다.The technique of calculating the probabilistic distance value is a technology that is mainly used in statistical or speech recognition technology and is generally applied to a topic model, Opinion mining, text summary, data analysis, opinion survey, etc. Therefore, It is obvious that those skilled in the art can fully understand the above-mentioned meaning.

(참고문헌 :Aletras, N. and M. Stevenson, 'Evaluating topic(Reference: Aletras, N. and M. Stevenson, 'Evaluating topic

coherence using distributional semantics', Proceedings of the 10th International Conference on Computational Semantics(IWCS), Potsdam, Germany, 2013 , Blei, D., 'Probabilistic topic models,' Communications of the ACM, Vol.55, No.4,(2012), 77-84)Proceedings of the 10th International Conference on Computational Semantics (IWCS), Potsdam, Germany, 2013, Blei, D., 'Probabilistic topic models,' Communications of the ACM, Vol.55, No.4, 2012), 77-84)

예를 들어, 기준치를 0.5로 설정하고, 제1다채널내용분석부(240a)로부터 제공된 음성 인식 요약 정보와 모델링된 토픽 모델 정보 간의 확률적 거리값이 0.7이며, 제2다채널내용분석부(240b)로부터 제공된 음성 인식 요약 정보와 모델링된 토픽 모델 정보 간의 확률적 거리값이 0.4이며, 제3다채널내용분석부(240c)로부터 제공된 음성 인식 요약 정보와 모델링된 토픽 모델 정보 간의 확률적 거리값이 0.1이라면, 기준치인 0.5이상의 토픽 일치도를 보이는 제1다채널내용분석부(240a)에 음원을 제공한 제1채널마이크(100a) 정보를 음성입력감도강화조정부로 제공하는 것이다.For example, if the reference value is set to 0.5, the probabilistic distance value between the speech recognition summary information provided from the first multi-channel content analyzer 240a and the modeled topic model information is 0.7, and the second multi- 240b) is 0.4, the probability distance value between the speech recognition summary information provided from the third multi-channel content analyzer 240c and the modeled topic model information Is 0.1, the first channel microphone 100a providing the sound source to the first multi-channel content analyzer 240a having a reference match degree of 0.5 or more is provided to the sound input sensitivity enhancement controller.

이후, 상기 음성입력감도강화조정부(270)는 상기 토픽일치도판단부로부터 채널 마이크 정보를 획득할 경우에 해당 채널 마이크의 음성 입력 감도를 높이기 위한 제어 정보를 해당 채널마이크의 채널마이크제어부로 제공하게 된다.When acquiring the channel microphone information from the topic match degree determining unit, the speech input sensitivity enhancement adjusting unit 270 provides control information for increasing the voice input sensitivity of the corresponding channel microphone to the channel microphone control unit of the corresponding channel microphone .

도 4는 본 발명의 제1 실시예에 따른 중요 화제 선별을 이용한 자동 방향 선택 음성인식시스템의 중요화제선별자동방향선택음성인식장치에 포함된 다채널내용분석부 블록도이다.FIG. 4 is a block diagram of a multi-channel content analysis unit included in an automatic direction selection speech recognition apparatus for selecting an importance agent in an automatic direction selection speech recognition system using important agent selection according to the first embodiment of the present invention.

도 4에 도시한 바와 같이, 상기 다채널내용분석부(240)는 채널별자연어처리모듈(241), 채널별의도정보및핵심어추출모듈(242), 음성인식요약정보생성모듈(243)을 포함하여 구성된다.4, the multi-channel content analyzer 240 includes a channel-by-channel natural language processing module 241, channel-specific degree information, keyword extraction module 242, and speech recognition summary information generation module 243 .

구체적으로 설명하면, 상기 채널별자연어처리모듈(241)은 다채널음성인식부로부터 각 채널별 음성 인식 정보를 획득하여 각 채널별로 자연어 처리(Natural Language Processing)를 수행하게 된다.More specifically, the channel-by-channel natural language processing module 241 acquires speech recognition information for each channel from the multi-channel speech recognition unit and performs natural language processing for each channel.

즉, 모든 음원을 통합하여 자연어 처리를 수행하면 칵테일 파티 효과를 제공할 수가 없기 때문에 각각의 채널별로 음성 인식 정보를 획득하여 각각의 음성 인식 정보를 토대로 자연어 처리를 수행하는 것이다.That is, if all sound sources are integrated to perform natural language processing, it is impossible to provide a cocktail party effect, so that speech recognition information is acquired for each channel and natural language processing is performed based on each speech recognition information.

상기한 자연어 처리는 정보검색분야에서는 이용자와의 자연스러운 대화를 통해 이용자의 의도를 컴퓨터가 파악하여 보다 정확한 정보를 다양한 형태의 데이터로부터 취합해 제공하는데에 활용된다. In the field of information retrieval, the natural language processing described above is used to grasp the intention of the user through natural conversation with the user and to collect and provide more accurate information from various types of data.

자연어 처리기술의 세부 기술로는 형태소분석, 고정밀 구문분석과 같은 구조 분석을 바탕으로 한 담화분석, 정보추출, 정보요약, 문서분류 기술 등이 있으며, 음성을 분석하여 특징을 추출한 다음 미리 수집된 음성모델DB와의 유사도를 측정하여 가장 유사한 것을 텍스트 혹은 명령어로 변환하는 기술 등이 있다.Detailed techniques of natural language processing techniques include speech analysis, information extraction, information summarization, and document classification techniques based on structural analysis such as morphological analysis and high-precision syntax analysis. And a technique of measuring similarity with the model DB and converting the most similar thing into text or command.

상기 채널별의도정보및핵심어추출모듈(242)은 채널별자연어처리모듈에 의해 각 채널별로 처리된 자연어 처리 결과를 참조하여 각 채널별로 발화의 의도 정보와 핵심어를 추출하여 음성인식요약정보생성모듈로 제공하게 된다.The per-channel intention information and key word extraction module 242 extracts intention information and keyword of each speech by referring to the natural language processing result processed for each channel by the natural language processing module for each channel, .

예를 들어, 제1채널마이크로부터 획득된 음원으로부터 '이명박, 문재인, 박근혜, 당선, 대통령' 등의 발화의 의도 정보와 핵심어를 추출하는 것이며, 제2채널마이크로부터 획득된 음원으로부터 '음식, 당첨, 쿠폰' 등의 발화의 의도 정보와 핵심어를 추출하는 것이며, 제3채널마이크로부터 획득된 음원으로부터 '영어, 점수, 수학' 등의 발화의 의도 정보와 핵심어를 추출하는 것이다.For example, it extracts intention information and key words of utterances such as 'Lee Myung-bak, Moon Jae-in, Park Geun-hye, DGE, and President' from the sound source obtained from the first channel micro. , Coupon 'and the like, and extracts intention information and key words of utterance such as' English, score, and mathematics' from sound sources obtained from the third channel microphones.

상기 제1채널마이크로부터 획득된 음원의 발화 의도는 선거 관련한 내용이며, 제2채널마이크로부터 획득된 음원의 발화 의도는 음식 관련한 내용이며, 제3채널마이크로부터 획득된 음원의 발화 의도는 학업 관련한 내용임을 알 수 있을 것이다.The utterance intention of the sound source obtained from the first channel micro is related to the election, the utterance intention of the sound source obtained from the second channel micro is the content related to the food, .

상기한 발화의 의도 정보란, 예를 들어, '길 안내해줘, 이 근처 맛집'으로 발화한 사용자의 의도는 현재 위치 주변의 맛집을 추천해주고, 해당 맛집으로 길 안내를 수행해달라는 것을 의미하는 것으로서, 음성 인식 기술에서 널리 알려진 기술이므로 상기한 정도의 설명만으로도 발화의 의도 정보가 무엇인지를 당업자들이라면 쉽게 이해할 수 있는 사항이라는 것은 자명한 사실이다.For example, the intention of the user who has uttered the 'guide the road, the restaurant nearby' recommends the restaurant around the current location and requests the guide to the restaurant, Since it is a well-known technology in the speech recognition technology, it is obvious that a person skilled in the art can easily understand what the intention information of the speech is based on the above description.

이때, 상기 음성인식요약정보생성모듈(243)은 상기 채널별의도정보및핵심어추출모듈에 의해 제공된 각 채널별 발화의 의도 정보와 핵심어를 참조하여 각 채널별로 음성 인식 요약 정보를 생성하여 토픽일치도판단부(260)로 제공하게 되는 것이다.At this time, the speech recognition summary information generation module 243 generates speech recognition summary information for each channel by referring to the per-channel perception information and the intention information and the keyword of each channel provided by the keyword extraction module, And provides it to the determination unit 260.

예를 들어, 제1채널마이크로부터 획득된 음원의 음성 인식 요약 정보를 '#01-POINT-선거/이명박/문재인/박근혜/당선/대통령'으로, 제2채널마이크로부터 획득된 음원의 음성 인식 요약 정보를 '#02POINT-음식/당첨/쿠폰'으로, 제3채널마이크로부터 획득된 음원의 음성 인식 요약 정보를 '#03POINT-학업/영어/점수/수학' 등으로 생성하여 토픽일치도판단부(260)로 제공하게 되는 것이다.For example, the speech recognition summary information of the sound source obtained from the first channel microphone is' # 01-POINT-election / Lee Myung-bak / Moon Jae-in / Park Geun-hye / , The speech recognition summary information of the sound source obtained from the third channel micro is generated as '# 02POINT-food / winning / coupons', '# 03POINT-academy / English / score / mathematics' ).

도 5는 본 발명의 제1 실시예에 따른 중요 화제 선별을 이용한 자동 방향 선택 음성인식시스템의 중요화제선별자동방향선택음성인식장치에 포함된 토픽모델부 블록도이다.FIG. 5 is a block diagram of a topic model block included in an automatic direction selection speech recognition apparatus for selecting an importance agent in an automatic direction selection speech recognition system using important agent selection according to the first embodiment of the present invention.

도 5에 도시한 바와 같이, 상기 토픽모델부(250)는 컨텐츠수집모듈(251), 토픽파라미터조정모듈(252), 토픽자연어처리모듈(253), 토픽모델생성모듈(254)을 포함하여 구성된다.5, the topic model unit 250 includes a content acquisition module 251, a topic parameter adjustment module 252, a topic natural language processing module 253, and a topic model generation module 254, do.

상기한 토픽 모델(Topic model)이란, 문서 집합의 추상적인 "주제"를 발견하기 위한 통계적 모델 중 하나로, 텍스트 본문의 숨겨진 의미 구조를 발견하기 위해 사용되는 텍스트 마이닝 기법 중 하나이다. The Topic model described above is one of the text mining techniques used to discover the hidden semantic structure of the text body as one of statistical models for discovering the abstract "subject" of the document set.

특정 주제에 관한 문헌에서는 그 주제에 관한 단어가 다른 단어들에 비해 더 자주 등장할 것이다. In the literature on a particular topic, the word about the topic will appear more often than the other words.

예를 들어 개에 대한 문서에서는 '개'와 '뼈다귀'라는 단어가 더 자주 등장하는 반면, 고양이에 대한 문서에서는 '고양이'와 '야옹'이 더 자주 등장할 것이고, '그', '~이다'와 같은 단어는 양쪽 모두에서 자주 등장할 것이다. For example, the words 'dog' and 'bone' appear more often in documents about dogs, whereas 'cat' and 'meons' appear more often in documents about cats, 'he', '~' 'Will often appear on both sides.

이렇게 함께 자주 등장하는 단어들은 대게 유사한 의미를 지니게 되는데 이를 잠재적인 '주제'로 정의할 수 있다. The words that often appear together often have a similar meaning, which can be defined as a potential 'subject'.

즉, '개'와 '뼈다귀'를 하나의 주제로 묶고, '고양이'와 '야옹'을 또 다른 주제로 묶는 모형을 구상할 수 있는데 바로 이것이 토픽 모델의 개략적인 개념이다. In other words, we can conceive a model that binds 'dog' and 'bone' as one subject, and 'cat' and 'meow' as another theme. This is a rough concept of the topic model.

실제로 문헌 내에 어떤 주제가 들어있고, 주제 간의 비중이 어떤지는 문헌 집합 내의 단어 통계를 수학적으로 분석함으로써 알아낼 수 있다.In fact, it is possible to find out what kind of topics are included in the literature and how the weight among them is mathematically analyzed in terms of word statistics in the document set.

그렇기에 토픽 모델은 또한 확률적 토픽 모델이라고도 불리는데, 이는 광범위한 텍스트 본문의 잠재적 의미 구조를 발견하기 위한 통계적 알고리즘을 가리키는 의미로도 쓰인다. Thus, a topic model is also called a stochastic topic model, which is also used to refer to statistical algorithms for finding potential semantic structures in a broad text body.

정보화 시대가 도래하면서 매일 생성되는 텍스트는 인간이 직접 처리할 수 있는 양을 크게 넘어서는데, 토픽 모델은 자동적으로 비정형 텍스트의 집합을 이해하기 쉽도록 조직하고 정리하는 데에 쓰일 수 있다.With the advent of the information age, the daily generated text goes far beyond the amount that humans can handle directly, and the topic model can be used to automatically organize and organize a collection of unstructured texts.

또한, 토픽 모델은 '내비게이션' 같이 정해진 명령어를 발화해서 그 결과를 출력하는 고립 단어기반의 음성 인식뿐만이 아니라, '내비게이션 보고 싶은데 틀어봐'와 같이 전체 문장 단위로 발화하고, 그 안에 내포된 의미를 분석하여 화자의 의도와 행동 양식을 예측하는 머신 러닝 기반의 언어 처리 기술이 활용되고 있어서 본 발명에서는 토픽 모델을 이용하여 사용자가 원하는 토픽을 선정하고 이와 일치도가 높은 음원을 분석하게 되는 것이다.In addition, the topic model is not only based on isolated word-based speech recognition, which outputs a result of a predetermined command such as' navigation, 'but also uttered in whole sentence units such as' I want to watch navigation, Based on a machine learning based language processing technique for predicting a speaker's intention and behavior, the present invention uses a topic model to select a topic desired by the user and analyzes the sound source having a high degree of matching with the topic.

구체적으로 설명하면, 컨텐츠수집모듈(251)은 컨텐츠서버(300)로부터 외부 컨텐츠를 크롤링하여 데이터를 수집하기 위한 기능을 수행하게 된다.More specifically, the content acquisition module 251 performs a function of collecting data by crawling external content from the content server 300. [

컨텐츠들이 어떤 토픽 정보를 지니고 있는지 컨텐츠 정보를 게더링하는 것이며, 컨텐츠 정보는 외부 네트워크 또는 통신을 이용하여 연결된 컨텐츠서버에서 크롤링된 것이며, 언어적 정제를 거쳐 수집되게 된다.Content information is crawled in a content server connected using an external network or communication, and is collected through linguistic refinement.

상기 토픽파라미터조정모듈(252)은 토픽 모델을 생성하기 위하여 주의깊게 인식하고자 하는 의도 정보 및 핵심어를 설정하기 위한 기능을 수행하게 되는데, 예를 들어, 사용자가 주의깊게 인식하고자 하는 의도 정보를 '선거와 관련된 내용을 알고 싶어'로 핵심어를 '선거, 대통령, 대통령 후보 이름' 등을 설정하게 되는 것이다.The topic parameter adjustment module 252 performs functions for setting intention information and key words to be carefully recognized in order to generate a topic model. For example, I want to know the contents related to 'the key word' election, president, presidential candidate name, 'and so on.

즉, 사용자가 원하는 의도 및 핵심어를 토픽파라미터조정모듈을 통해 조정할 수 있는데, 토픽에서 요구하는 의미 정보의 수준 및 기준 문턱값(Threshold)를 설정할 수 있게 되는 것이다.That is, the intention and key words desired by the user can be adjusted through the topic parameter adjustment module, and the level of the semantic information required by the topic and the threshold value can be set.

이는 대한민국등록특허 제10-1229108호, 대한민국등록특허 제10-0362292에 개시되어 있으며, 당업자들에게 파라미터 조정을 위한 기술은 널리 알려져 있으므로 상기한 설명만으로도 그 의미하는 바를 충분히 이해할 수 있을 것이다.This is disclosed in Korean Patent No. 10-1229108 and Korean Patent Registration No. 10-0362292, and a technique for parameter adjustment is well known to those skilled in the art, so that the above description can be fully understood.

이후, 상기 토픽자연어처리모듈(253)은 상기 토픽파라미터조정모듈에 의해 설정된 의도 정보 및 핵심어를 포함하고 있는 컨텐츠를 수집하도록 컨텐츠수집모듈에 수집 요청 정보를 제공하고, 이를 통해 획득된 컨텐츠를 가지고 자연어 처리를 수행하게 된다.Thereafter, the topic natural language processing module 253 provides the collection request information to the content collection module to collect the content including the intention information and the key word set by the topic parameter adjustment module, Processing is performed.

상기와 같이, 사용자가 원하는 것은 선거 관련 내용이지만, 선거와 관련된 내용들은 수도 없이 많으므로 선거와 관련된 모든 단어들을 학습시키며, 이를 통해 의도 정보 및 핵심어를 추출하기 위한 모델로 적용하는 것이다.As described above, what the user desires is election-related content, but because there are many election-related contents, there are many words related to the election, so that it is applied as a model for extracting intention information and keywords.

예를 들어, 선거와 관련해서는 대통령뿐만 아니라, 국회의원, 교육감, 도지사 등등 다양한 형태로 존재하기 때문에 이를 사전에 학습하여 모델링화하는 작업을 토픽 모델을 통해 수행하는 것이다.For example, in relation to the election, there are various forms such as the president, the parliamentarian, the superintendent, the governor, and so on.

따라서, 상기 토픽모델생성모듈(254)은 상기 자연어 처리 결과를 참조하여 사용자가 설정한 의도 정보 및 핵심어를 포함한 토픽 정보를 모델링하며, 모델링된 토픽 모델 정보를 토픽일치도판단부(260)로 제공하게 되는 것이다.Accordingly, the topic model generation module 254 models the topic information including the intention information and the key word set by the user with reference to the natural language processing result, and provides the modeled topic model information to the topic match degree determination unit 260 .

즉, 토픽모델생성모듈(254)은 사용자가 더 주의깊게 듣고 싶은 주제가 무엇인지를 설정하는 역할을 수행하는데, 그 주제가 단순한 키워드 형식으로 존재하는 것이 아니라, 일종의 모델 형태로 존재함으로써, 실제 발화하는 인식 결과와의 확률적 거리값에 의해 토픽 일치도를 계산해낼 수가 있게 되는 것이다.That is, the topic model generation module 254 plays a role of setting what the user wants to listen to more carefully. The topic does not exist in a simple keyword form but exists in a form of a kind of model, The topic matching degree can be calculated by the probabilistic distance value with the result.

도 6은 본 발명의 제1 실시예에 따른 중요 화제 선별을 이용한 자동 방향 선택 음성인식시스템의 중요화제선별자동방향선택음성인식장치에 포함된 토픽일치도판단부 블록도이다.FIG. 6 is a block diagram of a topic matching degree determination unit included in an automatic direction selection speech recognition apparatus for selecting an important agent in an automatic direction selection speech recognition system using important agent selection according to the first embodiment of the present invention.

도 6에 도시한 바와 같이, 상기 토픽일치도판단부(260)는, 채널별일치도판단정보획득모듈(261), 토픽일치도판단모듈(262), 토픽일치도결과출력모듈(263)을 포함하여 구성된다.6, the topic match degree determining unit 260 includes a channel match degree information acquiring module 261, a topic match degree determining module 262, and a topic match degree result output module 263 .

구체적으로 설명하면, 상기 채널별일치도판단정보획득모듈(261)은 다채널내용분석부에서 제공된 각 채널별 음성 인식 요약 정보와 모델링된 토픽 모델 정보를 획득하여 토픽일치도판단모듈로 제공하게 된다.Specifically, the per-channel match degree information acquisition module 261 acquires the speech recognition summary information for each channel and the modeled topic model information provided by the multi-channel content analysis unit, and provides them to the topic match degree determination module.

예를 들어, 제1채널마이크로부터 획득된 음원의 음성 인식 요약 정보인 '#01-POINT-선거/이명박/문재인/박근혜/당선/대통령', 제2채널마이크로부터 획득된 음원의 음성 인식 요약 정보인 '#02POINT-음식/당첨/쿠폰', 제3채널마이크로부터 획득된 음원의 음성 인식 요약 정보인 '#03POINT-학업/영어/점수/수학'을 획득하게 되며, 토픽 모델 정보를 획득하게 된다.For example, the speech recognition summary information of the sound source obtained from the first channel microphone is' # 01-POINT-election / Lee Myung-bak / Moon Jae-in / Park Geun-hye / '# 03POINT-Academic / English / Score / Mathematics', which is the speech recognition summary information of the sound source obtained from the third channel microphone, and obtains the topic model information .

이때, 상기 토픽일치도판단모듈(262)은 상기 채널별일치도판단정보획득모듈에서 제공된 각 채널별 음성 인식 요약 정보와 모델링된 토픽 모델 정보 간의 확률적 거리값을 각각 계산하며, 계산된 확률적 거리값이 기준치 이상의 토픽 일치도를 제공하는 채널을 판단하게 된다.At this time, the topic match degree determining module 262 calculates the probabilistic distance value between the speech recognition summary information for each channel and the modeled topic model information provided by the channel-based match degree information acquiring module, And determines a channel providing the topic matching degree equal to or higher than the reference value.

예를 들어, 기준치를 0.5로 설정하고, 제1다채널내용분석부(240a)로부터 제공된 음성 인식 요약 정보인 '#01-POINT-선거/이명박/문재인/박근혜/당선/대통령'과 모델링된 토픽 모델 정보 간의 확률적 거리값이 0.7이며, 제2다채널내용분석부(240b)로부터 제공된 음성 인식 요약 정보인 '#02POINT-음식/당첨/쿠폰'과 모델링된 토픽 모델 정보 간의 확률적 거리값이 0.4이며, 제3다채널내용분석부(240c)로부터 제공된 음성 인식 요약 정보인 '#03POINT-학업/영어/점수/수학'과 모델링된 토픽 모델 정보 간의 확률적 거리값이 0.1이라면, 기준치인 0.5이상의 토픽 일치도를 보이는 제1다채널내용분석부(240a)에 음원을 제공한 제1채널마이크(100a) 정보를 제공하는 것이다.For example, when the reference value is set to 0.5 and the speech recognition summary information provided from the first multi-channel content analyzer 240a is modeled with '# 01-POINT-election / Lee Myung-bak / Moon Jae-in / Park Geun-hye / The probabilistic distance value between the model information items is 0.7, and the probabilistic distance value between the speech recognition summary information '# 02POINT-food / winning / coupon' provided from the second multi-channel content analysis unit 240b and the modeled topic model information 0.4, and if the probabilistic distance value between the speech recognition summary information '# 03POINT-Academic / English / Score / Mathematics' provided from the third multi-channel content analyzer 240c and the modeled topic model information is 0.1, And provides the first channel microphone 100a providing the sound source to the first multi-channel content analyzer 240a having the above-mentioned topic agreement.

이후, 상기 토픽일치도결과출력모듈(263)은 상기 토픽일치도판단모듈에서 기준치 이상의 토픽 일치도를 제공하는 채널을 획득하여 해당 채널의 마이크 정보를 음성입력감도강화조정부(270)로 제공하게 된다.Then, the topic match degree result output module 263 acquires a channel providing a topic match degree higher than a reference value in the topic match degree determination module, and provides microphone information of the corresponding channel to the speech input sensitivity enhancement adjuster 270.

즉, 기준치인 0.5이상의 토픽 일치도를 보이는 제1다채널내용분석부(240a)에 음원을 제공한 제1채널마이크(100a) 정보를 음성입력감도강화조정부(270)로 제공하게 된다.That is, the first channel microphone 100a providing the sound source to the first multi-channel content analyzer 240a having the reference match degree of 0.5 or more is provided to the speech input sensitivity enhancement adjuster 270. [

도 7은 본 발명의 제1 실시예에 따른 중요 화제 선별을 이용한 자동 방향 선택 음성인식시스템의 중요화제선별자동방향선택음성인식장치에 포함된 음성입력감도강화조정부 블록도이다.FIG. 7 is a block diagram of a voice input sensitivity enhancement adjusting unit included in an automatic directional voice selection apparatus for selecting an important agent in an automatic directional selection voice recognition system using important agent selection according to the first embodiment of the present invention.

도 7에 도시한 바와 같이, 상기 음성입력감도강화조정부(270)는, 채널마이크정보획득모듈(271), 음성입력감도강화조정모듈(272)을 포함하여 구성된다.7, the voice input sensitivity enhancement adjusting unit 270 includes a channel microphone information acquisition module 271 and a voice input sensitivity enhancement adjustment module 272. [

상기와 같은 구성을 통해, 토픽일치도판단부로부터 채널 마이크 정보를 획득할 경우에 해당 채널 마이크의 음성 입력 감도를 높이기 위한 제어 정보를 해당 채널마이크의 채널마이크제어부로 제공하게 되는 것이다.According to the above configuration, when acquiring channel microphone information from the topic matching degree determining unit, control information for increasing the voice input sensitivity of the corresponding channel microphone is provided to the channel microphone control unit of the corresponding channel microphone.

구체적으로 설명하면, 상기 채널마이크정보획득모듈(271)은 토픽일치도판단부로부터 채널 마이크 정보를 획득하여 음성입력감도강화조정모듈(272)로 해당 채널 마이크 정보를 제공하게 되며, 상기 음성입력감도강화조정모듈(272)은 채널마이크정보획득모듈로부터 채널 마이크 정보를 획득할 경우에 해당 채널 마이크의 음성 입력 감도를 높이기 위하여, 마이크 방향 조정 정보, 마이크 거리 이동 정보, 마이크 감도 조정 정보 중 어느 하나 이상의 정보를 생성하여 해당 채널마이크제어부(110)로 전송하게 되는 것이다.More specifically, the channel microphone information acquisition module 271 acquires channel microphone information from the topic matching degree determination unit and provides corresponding channel microphone information to the voice input sensitivity enhancement adjustment module 272, When acquiring the channel microphone information from the channel microphone information acquiring module, the adjustment module 272 acquires information on at least one of the microphone direction adjustment information, the microphone distance movement information, and the microphone sensitivity adjustment information in order to increase the voice input sensitivity of the corresponding channel microphone And transmits it to the corresponding channel microphone controller 110.

예를 들어, 제1채널마이크(100a) 정보를 획득하면, '마이크 방향-30도 시계방향 회전', '마이크 거리 이동-전방 20cm 이동', '마이크 감도 조정-30데시벨 상향' 등과 같은 어느 하나 이상의 정보를 생성하여 해당 채널마이크제어부(110)로 전송하는 것이다.For example, when the information of the first channel microphone 100a is acquired, the information on the first channel microphone 100a is transmitted to the first channel microphone 100a in any one of the following directions such as 'direction of the microphone -30 degrees clockwise rotation' And transmits the generated information to the corresponding channel microphone controller 110.

이때, 제1채널마이크에 포함된 채널마이크제어부는 제어 정보를 획득하여 마이크 방향을 30도 시계 방향으로 회전시키기 위하여 회전 모터에 동작 신호를 전송하며, 마이크를 전방 20cm 이동시키기 위하여 이동 모터에 동작 신호를 전송하며, 마이크 감도를 30데시벨 상향 조정하기 위하여 감도조정모듈에 조정 신호를 전송하게 된다.At this time, the channel microphone control unit included in the first channel microphone acquires control information, transmits an operation signal to the rotation motor to rotate the microphone direction by 30 degrees in the clockwise direction, and transmits an operation signal And sends an adjustment signal to the sensitivity adjustment module to adjust the microphone sensitivity by 30 decibels.

이는 마이크 방향 조정, 마이크 거리 이동, 마이크 감도 조정을 통해 보다 더 높은 인식 성능을 확보할 수 있도록 하는 것이다.This allows for better recognition performance by adjusting the microphone direction, moving the microphone distance, and adjusting the microphone sensitivity.

일반적으로 마이크의 방향은 각 음원이 유입되는 시차에 따라 방향을 추정할수 있으며, 마이크의 거리는 기준값의 감도 변화 차이를 측정하여 조정할 수 있다.Generally, the direction of the microphone can be estimated according to the parallax into which each sound source is introduced, and the distance of the microphone can be adjusted by measuring the difference in sensitivity variation of the reference value.

마이크의 감도 역시 음성인식 최적 감도 부근으로 해당 채널의 음성 입력이들어올 수 있도록 조정할 수 있는 것이다.The sensitivity of the microphone can also be adjusted so that the voice input of the corresponding channel can be received in the vicinity of the optimal sensitivity for speech recognition.

한편, 본 발명의 부가적인 양태에 따라, 상기 토픽모델부(250)는, 사용자가 원하는 중요 화제 정보를 선별하기 위하여, 딥 러닝(deep learning) 모델, 머신 러닝(Machine Learning), SVM(Support Vector Machine), 신경망(Neural Network) 중 어느 하나의 기계학습 모델을 적용하여 토픽 모델 정보를 생성하는 것을 특징으로 한다.Meanwhile, in accordance with an additional aspect of the present invention, the topic modeling unit 250 may include a deep learning model, a machine learning, a support vector And a neural network, to generate topic model information by applying the machine learning model.

이는 토픽 모델 이외에도 다양한 기계학습 모델링 기법을 이용하여 언어 모델 정보를 생성할 수 있음을 의미하는 것이다.This means that language model information can be generated using various machine learning modeling techniques in addition to the topic model.

상기 딥 러닝 모델은 여러 비선형 변화기법의 조합을 통해 다량의 데이터나 복잡한 자료들 속에서 핵심적인 내용 또는 기능을 요약하는 작업 즉, 추상화를 시도하는 기계학습 알고리즘으로 정의되며 넓은 범위에서는 인간의 두뇌를 구성하는 신경세포의 메커니즘을 모방하여 인지, 학습 및 추론 등과 같이 인간의 두뇌활동과 비슷한 기능을 수행할 수 있도록 컴퓨터 프로그램으로 구현한 인공지능 시스템을 말한다.The deep learning model is defined as a machine learning algorithm that abstracts a core content or function in a large amount of data or complex data through a combination of various nonlinear transformation techniques. In the wide range, the human brain It refers to an artificial intelligence system implemented by a computer program so as to imitate the mechanism of the nerve cell constituting it and to perform functions similar to human brain activities such as cognition, learning and reasoning.

이러한 딥 러닝 모델 기술은 컴퓨터비전, 음성인식, 자연어처리 또는 신호처리 등의 다양한 분야에서 적용되어 활용되고 있으며, 본 발명에서는 중요 화제를 선별하기 위한 모델링 작업에 활용된다.The deep learning model technique is applied to various fields such as computer vision, speech recognition, natural language processing, or signal processing. In the present invention, the deep learning model technique is used for modeling work for selecting important topics.

또한, 다른 부가적인 양태에 따라, 상기 토픽모델부(250)는 컨텐츠서버(300)로부터 외부 컨텐츠를 크롤링하며, 딥 러닝 모델을 이용하여 외부 컨텐츠의 분석과 학습을 주기적으로 수행하여 지속적인 토픽 모델링 및 업데이트를 수행함으로써, 토픽 모델링의 정확도를 향상시키는 것을 특징으로 한다.In addition, according to another additional aspect, the topic modeling unit 250 may crawl external content from the content server 300, periodically analyze and learn external content using a deep learning model, Updating is performed, thereby improving the accuracy of topic modeling.

이는 토픽 모델링의 정확도를 향상시키도록 함으로써, 토픽 유사도가 높은 채널에 대한 집중적인 감도 강화의 정확성을 제공하게 된다.This improves the accuracy of topic modeling, thereby providing intensive sensitivity enhancement for channels with high topic similarity.

예를 들어, 2018년 2월 20일 오후 5시에 컨텐츠서버(300)로부터 선거 관련된 컨텐츠를 획득하였으며, 오후 6시에 다시 접속하여 새로운 컨텐츠가 존재하는 지를 요청하게 되며, 새로운 컨텐츠가 존재하지 않으면 접속을 종료하게 된다.For example, the content related to the election is acquired from the content server 300 at 5:00 PM on February 20, 2018, and the new content is requested to be connected again at 6:00 PM. If no new content exists The connection is terminated.

이후, 2018년 2월 21일 오전 10시에 다시 접속하여 새로운 컨텐츠가 존재하는 지를 요청하게 되며, 새로운 컨텐츠가 존재하게 되면 해당 컨텐츠를 요청하여 이를 획득하는 과정을 반복하게 되는 것이다.Then, the user is reconnected at 10:00 am on Feb. 21, 2018 to request whether there is new content. When new content exists, the content is requested and the process is repeated.

즉, 사용자가 원하는 주요 화제와 관련된 컨텐츠 정보 혹은 다양한 컨텐츠 정보를 지속적으로 튜닝하여 업데이트하는 것으로서, 지속적인 토픽 모델 업데이트를 통해 정확도 성능을 장기적으로 계속 향상시키게 되는 것이다.That is, continuously tuning and updating the content information or various contents information related to the main topic desired by the user, the continuous performance of the topic model is continuously improved in the long term.

따라서, 기존 음성 인식 분야에서 주로 사용하는 통계 방식 대비 높은 정확성을 제공할 수 있으며, 지속적인 성능 개선을 기대할 수 있게 되는 것이다.Therefore, it is possible to provide high accuracy compared with statistical methods used in the conventional speech recognition field, and it is expected that continuous improvement of performance can be expected.

다음은 본 발명인 중요 화제 선별을 이용한 자동 방향 선택 음성인식 방법에 대하여 도 8 내지 도 11을 참조하여 구체적으로 설명하도록 하겠다.Hereinafter, a method for recognizing an automatic direction selection speech using the selection of important agents according to the present invention will be described in detail with reference to FIGS. 8 to 11. FIG.

도 8은 본 발명의 제1 실시예에 따른 중요 화제 선별을 이용한 자동 방향 선택 음성인식 방법의 전체 흐름도이다.FIG. 8 is an overall flowchart of an automatic directional selection speech recognition method using important agent selection according to the first embodiment of the present invention.

도 8에 도시한 바와 같이, 상기 중요 화제 선별을 이용한 자동 방향 선택 음성인식 방법은, 크게 다채널음원입력단계(S100), 다채널음원분리단계(S200), 다채널음성인식단계(S300), 다채널내용분석단계(S400), 토픽모델링단계(S500), 토픽일치도판단단계(S600), 음성입력감도강화조정단계(S700)를 포함하게 된다.As shown in FIG. 8, the automatic direction selection speech recognition method using the importance agent sorting method includes a multi-channel sound source input step S100, a multi-channel sound source separation step S200, a multi-channel speech recognition step S300, A multi-channel content analysis step S400, a topic modeling step S500, a topic matching degree determination step S600, and a voice input sensitivity enhancement adjustment step S700.

구체적으로 설명하자면, 상기 다채널음원입력단계(S100)는 중요화제선별자동방향선택음성인식장치(200)의 다채널음원입력부(210)가 마이크 방향 조정 제어, 마이크 거리 이동 제어, 마이크 감도 조정 제어 중 어느 하나 이상의 제어를 수행하기 위한 채널마이크제어부(110)를 포함하여 구성되며, 주변 음원을 획득하도록 구성되는 적어도 한 개 이상의 채널 마이크(100)로부터 다수의 음원을 입력받아 다채널음원분리부로 제공하게 된다.More specifically, in the multi-channel sound source input step S100, the multi-channel sound source input unit 210 of the automatic sound direction selection voice recognition apparatus 200 selects a microphone direction adjustment control, a microphone distance movement control, a microphone sensitivity adjustment control And a channel microphone controller 110 for performing at least one of the control of the channel microphone 100 and the channel microphone controller 100. The channel microphone controller 100 receives a plurality of sound sources from at least one channel microphone 100 configured to acquire an ambient sound source, .

예를 들어, 제1채널마이크(100a)로부터 제1 음원 정보를, 제2채널마이크(100b)로부터 제2 음원 정보를, 제3채널마이크(100c)로부터 제3 음원 정보를, 제n채널마이크(100n)로부터 제n 음원 정보를 입력받아 식별자를 각각 부여하여 다채널음원분리부로 제공하게 된다.For example, the first sound source information is transmitted from the first channel microphone 100a, the second sound source information is transmitted from the second channel microphone 100b, the third sound source information is transmitted from the third channel microphone 100c, And receives the n-th sound source information from the second sound source 100n, and provides them to the multi-channel sound source separation unit.

이후, 다채널음원분리단계(S200)는 중요화제선별자동방향선택음성인식장치의 다채널음원분리부(220)가 상기 다채널음원입력부(210)에서 제공된 다수의 음원을 각 채널별로 분리하며, 분리된 다수의 음원을 다채널음성인식부로 제공하게 된다.In the multi-channel sound source separation step S200, the multi-channel sound source separation unit 220 of the automatic direction selection speech recognition apparatus separates a plurality of sound sources provided from the multi-channel sound source input unit 210 for each channel, And a plurality of separated sound sources are provided to the multi-channel speech recognition unit.

3개의 음원 정보를 예를 들자면, 제1 음원 정보인 #01_VOICE, 제2 음원 정보인 #02_VOICE, 제3 음원 정보인 #03_VOICE를 각각 분리하여 다채널음성인식부로 제공하게 되는 것이다.For example, the three sound source information may include first sound source information # 01_VOICE, second sound source information # 02_VOICE, and third sound source information # 03_VOICE, which are separately provided to the multi-channel speech recognition unit.

이후, 다채널음성인식단계(S300)는 중요화제선별자동방향선택음성인식장치의 다채널음성인식부(230)가 상기 다채널음원분리부(220)로부터 제공된 다수의 음원을 각 채널별로 음성을 인식하게 된다.Then, in the multi-channel speech recognition step S300, the multi-channel speech recognition unit 230 of the automatic direction selection speech recognition apparatus for sorting important texts audits a plurality of sound sources provided from the multi-channel sound source separation unit 220 .

예를 들어, 제1 음원 정보인 #01_VOICE를 제1다채널음성인식부(230a)에서 획득하여 음성 인식을 수행하게 되며, 제2 음원 정보인 #02_VOICE를 제2다채널음성인식부(230b)에서 획득하여 음성 인식을 수행하게 되며, 제3 음원 정보인 #03_VOICE를 제3다채널음성인식부(230c)에서 획득하여 음성 인식을 수행하게 되는 것이다.For example, the first sound source information # 01_VOICE is acquired by the first multi-channel speech recognition unit 230a to perform speech recognition, and the second sound source information # 02_VOICE is acquired by the second multi-channel speech recognition unit 230b. And the third sound source information # 03_VOICE is acquired by the third multi-channel speech recognition unit 230c to perform speech recognition.

이후, 다채널내용분석단계(S400)는 중요화제선별자동방향선택음성인식장치의 다채널내용분석부(240)가 상기 다채널음성인식부(230)로부터 각 채널별 음성 인식 정보를 획득하여 각 채널별로 자연어 처리를 수행하여 각 채널별 내용 분석을 수행하며, 수행된 내용 분석을 참조하여 각 채널별로 음성 인식 요약 정보를 생성하여 토픽일치도판단부로 제공하게 된다.Then, in the multi-channel content analyzing step S400, the multi-channel content analyzing unit 240 of the automatic direction selecting speech recognition apparatus obtains the speech recognition information for each channel from the multi-channel speech recognizing unit 230, Processing of the natural language is performed for each channel to analyze the contents of each channel, and the speech recognition summary information is generated for each channel by referring to the performed content analysis, and is provided to the topic matching determination unit.

예를 들어, 제1다채널음성인식부(230a)에서 제공된 #01_TEXT를 제1다채널내용분석부(240a)로 제공하여 자연어 처리를 수행하게 되며, 제2다채널음성인식부(230b)에서 제공된 #02_TEXT를 제2다채널내용분석부(240b)로 제공하여 자연어 처리를 수행하게 되며, 제3다채널음성인식부(230c)에서 제공된 #03_TEXT를 제3다채널내용분석부(240c)로 제공하여 자연어 처리를 수행하게 되는 것이다.For example, the first multi-channel speech recognition unit 230a provides # 01_TEXT provided by the first multi-channel speech recognition unit 230a to the first multi-channel content analysis unit 240a to perform natural language processing, And provides the provided # 02_TEXT to the second multi-channel content analyzer 240b to perform natural language processing. The # 03_TEXT provided from the third multi-channel speech recognizer 230c is transmitted to the third multi-channel content analyzer 240c So that natural language processing is performed.

이후, 토픽모델링단계(S500)는 중요화제선별자동방향선택음성인식장치의 토픽모델부(250)가 컨텐츠서버(300)로부터 외부 컨텐츠를 크롤링하여 주의깊게 인식하고자 하는 토픽 정보를 모델링하며, 모델링된 토픽 모델 정보를 토픽일치도판단부로 제공하게 된다.Thereafter, the topic modeling step S500 models the topic information to be carefully recognized by the topic modeling unit 250 of the automatic direction selecting speech recognition apparatus by crawling the external contents from the contents server 300, The topic model information is provided to the topic matching degree judgment unit.

예를 들어, 사용자가 주의깊게 인식하고자 하는 토픽 정보를 제공하게 되면, 이와 관련된 외부 컨텐츠를 크롤링하여 해당 토픽 정보를 모델링하게 되는데, 예를 들어, 사용자가 토픽 주제로 '선거'를 선정하였다면 선거와 관련된 토픽 정보를 모델링하여 이와 일치도가 높은 내용들을 발화하고 있는 채널을 판단하도록 하기 위한 것이다.For example, when the user provides the topic information to be carefully recognized, the related external content is crawled and the corresponding topic information is modeled. For example, if the user selects 'election' as a topic topic, And the related topic information is modeled to judge the channel which is uttering contents having high agreement degree.

이후, 토픽일치도판단단계(S600)는 중요화제선별자동방향선택음성인식장치의 토픽일치도판단부(260)가 상기 다채널내용분석부(240)에서 제공된 각 채널별 음성 인식 요약 정보와 모델링된 토픽 모델 정보 간의 확률적 거리값을 각각 계산하여 확률적 거리값이 기준치 이상의 토픽 일치도를 제공하는 채널을 판단하여 해당 채널 마이크 정보를 음성입력감도강화조정부로 제공하게 된다.In step S600, the topic matching degree determination unit 260 of the automatic direction selection speech recognition apparatus selects the important speech recognition summary information for each channel provided by the multi-channel content analysis unit 240, And calculates the probabilistic distance value between the model information and determines the channel providing the topic matching degree at which the probabilistic distance value is equal to or higher than the reference value, and provides the corresponding channel microphone information to the voice input sensitivity enhancement adjusting unit.

예를 들어, 기준치를 0.5로 설정하고, 제1다채널내용분석부(240a)로부터 제공된 음성 인식 요약 정보와 모델링된 토픽 모델 정보 간의 확률적 거리값이 0.7이며, 제2다채널내용분석부(240b)로부터 제공된 음성 인식 요약 정보와 모델링된 토픽 모델 정보 간의 확률적 거리값이 0.4이며, 제3다채널내용분석부(240c)로부터 제공된 음성 인식 요약 정보와 모델링된 토픽 모델 정보 간의 확률적 거리값이 0.1이라면, 기준치인 0.5이상의 토픽 일치도를 보이는 제1다채널내용분석부(240a)에 음원을 제공한 제1채널마이크(100a) 정보를 음성입력감도강화조정부로 제공하는 것이다.For example, if the reference value is set to 0.5, the probabilistic distance value between the speech recognition summary information provided from the first multi-channel content analyzer 240a and the modeled topic model information is 0.7, and the second multi- 240b) is 0.4, the probability distance value between the speech recognition summary information provided from the third multi-channel content analyzer 240c and the modeled topic model information Is 0.1, the first channel microphone 100a providing the sound source to the first multi-channel content analyzer 240a having a reference match degree of 0.5 or more is provided to the sound input sensitivity enhancement controller.

이후, 최종적으로 음성입력감도강화조정단계(S700)는 중요화제선별자동방향선택음성인식장치의 음성입력감도강화조정부(270)가 상기 토픽일치도판단부(260)로부터 채널 마이크 정보를 획득할 경우에 해당 채널 마이크의 음성 입력 감도를 높이게 되는 것이다.Finally, in step S700, the speech input sensitivity enhancement adjustment unit 270 acquires the channel microphone information from the topic match degree determination unit 260, The voice input sensitivity of the corresponding channel microphone is increased.

도 9는 본 발명의 제1 실시예에 따른 중요 화제 선별을 이용한 자동 방향 선택 음성인식 방법의 다채널내용분석단계의 흐름도이다.FIG. 9 is a flowchart of a multi-channel content analyzing step of an automatic directional selection speech recognition method using an important agent selection according to the first embodiment of the present invention.

도 9에 도시한 바와 같이, 상기 다채널내용분석단계(S400)는 채널별자연어처리단계(S410), 채널별의도정보및핵심어추출단계(S420), 음성인식요약정보생성단계(S430)를 포함하게 된다.As shown in FIG. 9, the multi-channel content analyzing step S400 includes steps S410 to S410, step S420 of extracting key word information, key word extraction step S420, .

구체적으로 설명하자면, 상기 채널별자연어처리단계(S410)는 다채널내용분석부(240)의 채널별자연어처리모듈(241)에 의해 다채널음성인식부로부터 각 채널별 음성 인식 정보를 획득하여 각 채널별로 자연어 처리(Natural Language Processing)를 수행하게 된다.In more detail, the natural language processing step (S410) of the channel-by-channel natural language processing module 241 of the multi-channel content analyzer 240 acquires speech recognition information for each channel from the multi-channel speech recognition unit, And performs natural language processing for each channel.

이후, 채널별의도정보및핵심어추출단계(S420)는 다채널내용분석부(240)의 채널별의도정보및핵심어추출모듈(242)에 의해 상기 채널별자연어처리모듈(241)에 의해 각 채널별로 처리된 자연어 처리 결과를 참조하여 각 채널별로 발화의 의도 정보와 핵심어를 추출하여 음성인식요약정보생성모듈로 제공하게 된다.Then, the per-channel intention information and key word extraction step S420 are performed by the per-channel natural language processing module 241 by the per-channel intention information of the multi-channel content analyzer 240 and the key word extraction module 242, By referring to the natural language processing result processed for each channel, intention information and key words of utterance are extracted for each channel and provided to the speech recognition summary information generation module.

이후, 최종적으로 음성인식요약정보생성단계(S430)는 다채널내용분석부(240)의 음성인식요약정보생성모듈(243)에 의해 채널별의도정보및핵심어추출모듈(242)에 의해 제공된 각 채널별 발화의 의도 정보와 핵심어를 참조하여 각 채널별로 음성 인식 요약 정보를 생성하여 토픽일치도판단부(260)로 제공하게 되는 것이다.The speech recognition summary information generating module 243 of the multi-channel content analyzer 240 finally generates the speech recognition summary information by using the channel-specific degree information and the angle information provided by the keyword extraction module 242 The speech recognition summary information is generated for each channel by referring to the intention information and the key word of each channel-based speech, and the speech recognition summary information is provided to the topic match degree determining unit 260.

예를 들어, 제1채널마이크로부터 획득된 음원의 음성 인식 요약 정보를 '#01-POINT-선거/이명박/문재인/박근혜/당선/대통령'으로, 제2채널마이크로부터 획득된 음원의 음성 인식 요약 정보를 '#02POINT-음식/당첨/쿠폰'으로, 제3채널마이크로부터 획득된 음원의 음성 인식 요약 정보를 '#03POINT-학업/영어/점수/수학' 등으로 생성하여 토픽일치도판단부(260)로 제공하게 되는 것이다.For example, the speech recognition summary information of the sound source obtained from the first channel microphone is' # 01-POINT-election / Lee Myung-bak / Moon Jae-in / Park Geun-hye / , The speech recognition summary information of the sound source obtained from the third channel micro is generated as '# 02POINT-food / winning / coupons', '# 03POINT-academy / English / score / mathematics' ).

도 10은 본 발명의 제1 실시예에 따른 중요 화제 선별을 이용한 자동 방향 선택 음성인식 방법의 토픽모델단계의 흐름도이다.FIG. 10 is a flowchart of a topic model step of an automatic directional speech recognition method using important agent selection according to the first embodiment of the present invention.

도 10에 도시한 바와 같이, 상기 토픽모델단계(S500)는 컨텐츠수집단계(S510), 토픽파라미터조정단계(S520), 토픽자연어처리단계(S530), 토픽모델생성단계(S540)를 포함하게 된다.10, the topic model step S500 includes a content collection step S510, a topic parameter adjustment step S520, a topic natural language processing step S530, and a topic model generation step S540 .

구체적으로 설명하자면, 컨텐츠수집단계(S510)는 토픽모델부(250)의 컨텐츠수집모듈(251)에 의해 컨텐츠서버(300)로부터 외부 컨텐츠를 크롤링하여 데이터를 수집하게 되며, 토픽파라미터조정단계(S520)는 토픽모델부(250)의 토픽파라미터조정모듈(252)에 의해 토픽 모델을 생성하기 위하여 주의깊게 인식하고자 하는 의도 정보 및 핵심어를 설정하게 된다.More specifically, in the content collection step S510, the content acquisition module 251 of the topic model unit 250 crawls external content from the content server 300 to collect data, and in a topic parameter adjustment step S520 ) Will set the intention information and key words to be carefully recognized in order to generate the topic model by the topic parameter adjustment module 252 of the topic model unit 250. [

이후, 토픽자연어처리단계(S530)는 토픽모델부(250)의 토픽자연어처리모듈(253)에 의해 토픽파라미터조정모듈(252)에 의해 설정된 의도 정보 및 핵심어를 포함하고 있는 컨텐츠를 상기 컨텐츠수집모듈에 의해 획득하여 자연어 처리하게 된다.The topic natural language processing step S530 is a step in which the topic natural language processing module 253 of the topic model unit 250 transmits content including the intention information and key words set by the topic parameter adjustment module 252, And processed in a natural language.

이후, 토픽모델생성단계(S540)는 토픽모델부(250)의 토픽모델생성모듈(254)에 의해 자연어 처리 결과를 참조하여 사용자가 설정한 의도 정보 및 핵심어를 포함한 토픽 정보를 모델링하며, 모델링된 토픽 모델 정보를 토픽일치도판단부(260)로 제공하게 되는 것이다.Then, the topic model generation step (S540) models the topic information including the intention information and key word set by the user by referring to the natural language processing result by the topic model generation module 254 of the topic model unit 250, And provides the topic model information to the topic matching degree determination unit 260. [

도 11은 본 발명의 제1 실시예에 따른 중요 화제 선별을 이용한 자동 방향 선택 음성인식 방법의 토픽일치도판단단계의 흐름도이다.11 is a flowchart of a topic matching degree determination step of an automatic directional selection speech recognition method using an important agent selection method according to the first embodiment of the present invention.

도 11에 도시한 바와 같이, 상기 토픽일치도판단단계(S600)는 채널별일치도판단정보획득단계(S610), 토픽일치도판단단계(S620), 토픽일치도결과출력단계(S630)를 포함하게 된다.As shown in FIG. 11, the topic matching degree determination step S600 includes a step S610 of obtaining the degree-of-matching-of-channel determination information S610, a step S620 of determining a topic matching degree, and a step S630 of outputting a topic matching result.

구체적으로 설명하자면, 채널별일치도판단정보획득단계(S610)는 토픽일치도판단부(260)의 채널별일치도판단정보획득모듈(261)에 의해 다채널내용분석부에서 제공된 각 채널별 음성 인식 요약 정보와 모델링된 토픽 모델 정보를 획득하여 토픽일치도판단모듈로 제공하게 된다.More specifically, the step of obtaining the per-channel match degree determination information S610 is performed by the per-channel match degree information acquisition module 261 of the topic match degree determining unit 260, And the modeled topic model information to provide a topic matching degree determination module.

이후, 토픽일치도판단단계(S620)는 토픽일치도판단부(260)의 토픽일치도판단모듈(262)에 의해 상기 채널별일치도판단정보획득모듈(261)에서 제공된 각 채널별 음성 인식 요약 정보와 모델링된 토픽 모델 정보 간의 확률적 거리값을 각각 계산하며, 계산된 확률적 거리값이 기준치 이상의 토픽 일치도를 제공하는 채널을 판단하게 되며, 토픽일치도결과출력단계(S630)는 토픽일치도판단부(260)의 토픽일치도결과출력모듈(263)이 상기 토픽일치도판단모듈(262)에서 기준치 이상의 토픽 일치도를 제공하는 채널을 획득하여 해당 채널의 마이크 정보를 음성입력감도강화조정부(270)로 제공하게 되는 것이다.The topic matching degree determination step S620 is a step for determining whether the topic matching degree is determined by the topic matching degree determining module 262 of the topic matching degree determining unit 260 and the voice recognition summary information for each channel provided by the channel matching degree determination information acquiring module 261, And calculates a probabilistic distance value between the topic model information and a channel in which the computed probabilistic distance value provides a topic matching degree equal to or higher than a reference value. The topic matching result output step (S630) The topic matching degree result output module 263 acquires a channel providing the topic matching degree higher than the reference value in the topic matching degree judging module 262 and provides microphone information of the corresponding channel to the voice input sensitivity enhancing adjuster 270.

예를 들어, 기준치를 0.5로 설정하고, 제1다채널내용분석부(240a)로부터 제공된 음성 인식 요약 정보인 '#01-POINT-선거/이명박/문재인/박근혜/당선/대통령'과 모델링된 토픽 모델 정보 간의 확률적 거리값이 0.7이며, 제2다채널내용분석부(240b)로부터 제공된 음성 인식 요약 정보인 '#02POINT-음식/당첨/쿠폰'과 모델링된 토픽 모델 정보 간의 확률적 거리값이 0.4이며, 제3다채널내용분석부(240c)로부터 제공된 음성 인식 요약 정보인 '#03POINT-학업/영어/점수/수학'과 모델링된 토픽 모델 정보 간의 확률적 거리값이 0.1이라면, 기준치인 0.5이상의 토픽 일치도를 보이는 제1다채널내용분석부(240a)에 음원을 제공한 제1채널마이크(100a) 정보를 제공하는 것이다.For example, when the reference value is set to 0.5 and the speech recognition summary information provided from the first multi-channel content analyzer 240a is modeled with '# 01-POINT-election / Lee Myung-bak / Moon Jae-in / Park Geun-hye / The probabilistic distance value between the model information items is 0.7, and the probabilistic distance value between the speech recognition summary information '# 02POINT-food / winning / coupon' provided from the second multi-channel content analysis unit 240b and the modeled topic model information 0.4, and if the probabilistic distance value between the speech recognition summary information '# 03POINT-Academic / English / Score / Mathematics' provided from the third multi-channel content analyzer 240c and the modeled topic model information is 0.1, And provides the first channel microphone 100a providing the sound source to the first multi-channel content analyzer 240a having the above-mentioned topic agreement.

이후, 상기 토픽일치도결과출력모듈(263)은 상기 토픽일치도판단모듈에서 기준치 이상의 토픽 일치도를 제공하는 채널을 획득하여 해당 채널의 마이크 정보를 음성입력감도강화조정부(270)로 제공하게 되는데, 예를 들어, 기준치인 0.5이상의 토픽 일치도를 보이는 제1다채널내용분석부(240a)에 음원을 제공한 제1채널마이크(100a) 정보를 음성입력감도강화조정부(270)로 제공하게 된다.Then, the topic match degree result output module 263 obtains a channel providing a topic match degree higher than a reference value in the topic match degree determination module and provides the microphone information of the corresponding channel to the speech input sensitivity enhancement adjuster 270. The first channel microphone 100a providing the sound source to the first multi-channel content analyzer 240a having a reference level equal to or higher than 0.5, which is a reference value, is provided to the speech input sensitivity enhancement adjuster 270.

지금까지 설명한 본 발명에 의하면, 다채널로 입력된 음성을 음원 분리하고, 분리된 음성마다 음성 인식을 수행하여 각 채널별 인식 결과 내용을 분석하여 사용자가 원하는 토픽에 맞는 음성이 입력되는 채널마이크를 자동으로 선별하여 해당 채널마이크의 감도를 증가시켜 높은 인식 성능을 확보함으로써, 칵테일 파티 효과를 재현할 수 있는 효과를 발휘한다.According to the present invention as described above, the sound input from the multi-channel is separated from the sound source, the speech recognition is performed for each separated sound, and the contents of the recognition result for each channel are analyzed to obtain a channel microphone It is possible to reproduce the cocktail party effect by securing high recognition performance by automatically selecting and increasing the sensitivity of the corresponding channel microphone.

또한, 토픽모델부를 제공함으로써, 외부의 컨텐츠서버로부터 외부 컨텐츠를 크롤링하며, 딥 러닝 모델을 이용하여 외부 컨텐츠의 분석과 학습을 주기적으로 수행하여 지속적인 토픽 모델링 및 업데이트를 수행함으로써, 토픽 모델링의 정확도를 향상시키도록 함으로써, 토픽 유사도가 높은 채널에 대한 집중적인 감도 강화의 정확성을 제공하게 된다.In addition, by providing a topic model unit, external content is crawled from an external content server, and analysis and learning of external contents are periodically performed by using a deep learning model to continuously perform topic modeling and updating, thereby improving the accuracy of topic modeling So as to provide intensive sensitivity enhancement accuracy for channels with high topic similarity.

또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형 실시가 가능한 것은 물론이고, 이러한 변형 실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안될 것이다.While the present invention has been particularly shown and described with reference to exemplary embodiments thereof, it is to be understood that the invention is not limited to the disclosed exemplary embodiments, but, on the contrary, It should be understood that various modifications may be made by those skilled in the art without departing from the spirit and scope of the present invention.

100 : 채널 마이크
200 : 중요화제선별자동방향선택음성인식장치
300 : 컨텐츠서버
100: Channel microphone
200: Select the important direction Automatic direction selection Speech recognition device
300: Content server

Claims (10)

중요 화제 선별을 이용한 자동 방향 선택 음성인식시스템에 있어서,
마이크 방향 조정 제어, 마이크 거리 이동 제어, 마이크 감도 조정 제어 중 어느 하나 이상의 제어를 수행하기 위한 채널마이크제어부(110)를 포함하여 구성되며, 주변 음원을 획득하도록 구성되는 적어도 한 개 이상의 채널 마이크(100)와,

상기 복수 개의 채널 마이크로부터 다수의 음원을 입력받아 다채널음원분리부로 제공하기 위한 다채널음원입력부(210);
상기 다채널음원입력부에서 제공된 다수의 음원을 각 채널별로 분리하며, 분리된 다수의 음원을 다채널음성인식부로 제공하기 위한 다채널음원분리부(220);
상기 다채널음원분리부로부터 제공된 다수의 음원을 각 채널별로 음성을 인식하는 다채널음성인식부(230);
상기 다채널음성인식부로부터 각 채널별 음성 인식 정보를 획득하여 각 채널별로 자연어 처리를 수행하여 각 채널별 내용 분석을 수행하며, 수행된 내용 분석을 참조하여 각 채널별로 음성 인식 요약 정보를 생성하여 토픽일치도판단부로 제공하기 위한 다채널내용분석부(240);
컨텐츠서버(300)로부터 외부 컨텐츠를 크롤링하여 주의깊게 인식하고자 하는 토픽 정보를 모델링하며, 모델링된 토픽 모델 정보를 토픽일치도판단부로 제공하기 위한 토픽모델부(250);
상기 다채널내용분석부에서 제공된 각 채널별 음성 인식 요약 정보와 모델링된 토픽 모델 정보 간의 확률적 거리값을 각각 계산하여 확률적 거리값이 기준치 이상의 토픽 일치도를 제공하는 채널을 판단하여 해당 채널 마이크 정보를 음성입력감도강화조정부로 제공하기 위한 토픽일치도판단부(260);
상기 토픽일치도판단부로부터 채널 마이크 정보를 획득할 경우에 해당 채널 마이크의 음성 입력 감도를 높이기 위한 음성입력감도강화조정부(270);를 포함하여 구성되는 중요화제선별자동방향선택음성인식장치(200)와,

주기적으로 상기 중요화제선별자동방향선택음성인식장치에 토픽 모델 정보를 생성할 수 있도록 외부 컨텐츠를 제공하기 위한 컨텐츠서버(300)를 포함하여 구성되며,

상기 다채널내용분석부(240)는,
다채널음성인식부로부터 각 채널별 음성 인식 정보를 획득하여 각 채널별로 자연어 처리(Natural Language Processing)를 수행하기 위한 채널별자연어처리모듈(241);
상기 채널별자연어처리모듈에 의해 각 채널별로 처리된 자연어 처리 결과를 참조하여 각 채널별로 발화의 의도 정보와 핵심어를 추출하여 음성인식요약정보생성모듈로 제공하기 위한 채널별의도정보및핵심어추출모듈(242);
상기 채널별의도정보및핵심어추출모듈에 의해 제공된 각 채널별 발화의 의도 정보와 핵심어를 참조하여 각 채널별로 음성 인식 요약 정보를 생성하여 토픽일치도판단부(260)으로 제공하기 위한 음성인식요약정보생성모듈(243);을 포함하여 구성되는 중요 화제 선별을 이용한 자동 방향 선택 음성인식시스템.
An automatic directional speech recognition system using important topic selection,
And a channel microphone control unit 110 for performing at least one of a microphone direction control, a microphone distance movement control, and a microphone sensitivity adjustment control. The at least one channel microphone 100 )Wow,

A multi-channel sound source input unit 210 for receiving a plurality of sound sources from the plurality of channel microphones and providing the multi-channel sound source separation unit to the multi-channel sound source separation unit;
A multi-channel sound source separation unit 220 for separating a plurality of sound sources provided from the multi-channel sound source input unit for each channel and providing a plurality of separated sound sources to the multi-channel sound recognition unit;
A multi-channel speech recognition unit (230) for recognizing a plurality of sound sources provided from the multi-channel sound source separation unit for each channel;
Acquires speech recognition information for each channel from the multi-channel speech recognition unit, performs natural language processing for each channel, performs content analysis for each channel, generates speech recognition summary information for each channel by referring to the performed content analysis, A multi-channel content analyzing unit 240 for providing the topic matching degree to the judging unit;
A topic modeling unit 250 for modeling topic information to be carefully recognized by crawling external contents from the content server 300 and providing the modeled topic model information to the topic matching degree determining unit;
The method comprising: calculating a probabilistic distance value between the speech recognition summary information for each channel and the modeled topic model information provided by the multi-channel content analyzing unit, determining a channel providing a topic match degree with a probabilistic distance value equal to or greater than a reference value, To the speech input sensitivity enhancement adjusting unit (260);
And an audio input sensitivity enhancement adjusting unit (270) for increasing the audio input sensitivity of the channel microphone when the channel microphone information is obtained from the topic match degree determining unit (200). Wow,

And a content server (300) for periodically providing the external content so as to generate topic model information in the automatic direction selection speech recognition apparatus for sorting important information,

The multi-channel content analyzing unit 240,
A channel-specific natural language processing module 241 for acquiring speech recognition information for each channel from the multi-channel speech recognition unit and performing natural language processing for each channel;
Extracting intention information and key words of the utterance for each channel with reference to the natural language processing result processed for each channel by the natural language processing module for each channel and providing the speech recognition summary information to the speech recognition summary information generation module, (242);
The speech recognition summary information for each channel is generated by referring to the per-channel intention information and the keyword intention information and key words provided for each channel provided by the key word extraction module, and provides the speech recognition summary information to the topic consistency determination unit 260 And a generating module (243) for selecting an important direction.
제 1항에 있어서,
상기 토픽모델부(250)는,
컨텐츠서버(300)로부터 외부 컨텐츠를 크롤링하여 데이터를 수집하기 위한 컨텐츠수집모듈(251);
토픽 모델을 생성하기 위하여 주의깊게 인식하고자 하는 의도 정보 및 핵심어를 설정하기 위한 토픽파라미터조정모듈(252);
상기 토픽파라미터조정모듈에 의해 설정된 의도 정보 및 핵심어를 포함하고 있는 컨텐츠를 상기 컨텐츠수집모듈에 의해 획득하여 자연어 처리를 수행하기 위한 토픽자연어처리모듈(253);
상기 자연어 처리 결과를 참조하여 사용자가 설정한 의도 정보 및 핵심어를 포함한 토픽 정보를 모델링하며, 모델링된 토픽 모델 정보를 토픽일치도판단부(260)로 제공하기 위한 토픽모델생성모듈(254);을 포함하여 구성되는 중요 화제 선별을 이용한 자동 방향 선택 음성인식시스템.
The method according to claim 1,
The topic modeling unit 250,
A content collection module 251 for crawling external content from the content server 300 and collecting data;
A topic parameter adjustment module 252 for setting intention information and key words to be carefully recognized to generate a topic model;
A topic natural language processing module (253) for acquiring contents containing intention information and key words set by the topic parameter adjustment module by the content acquisition module and performing natural language processing;
A topic model generation module 254 for modeling the topic information including the intention information and key words set by the user with reference to the natural language processing result and providing the modeled topic model information to the topic match degree determination unit 260 Automatic Speech Recognition System using Automatic Speech Recognition.
제 1항에 있어서,
상기 토픽일치도판단부(260)는,
다채널내용분석부에서 제공된 각 채널별 음성 인식 요약 정보와 모델링된 토픽 모델 정보를 획득하여 토픽일치도판단모듈로 제공하기 위한 채널별일치도판단정보획득모듈(261);
상기 채널별일치도판단정보획득모듈에서 제공된 각 채널별 음성 인식 요약 정보와 모델링된 토픽 모델 정보 간의 확률적 거리값을 각각 계산하며, 계산된 확률적 거리값이 기준치 이상의 토픽 일치도를 제공하는 채널을 판단하기 위한 토픽일치도판단모듈(262);
상기 토픽일치도판단모듈에서 기준치 이상의 토픽 일치도를 제공하는 채널을 획득하여 해당 채널의 마이크 정보를 음성입력감도강화조정부(270)로 제공하기 위한 토픽일치도결과출력모듈(263);을 포함하여 구성되는 중요 화제 선별을 이용한 자동 방향 선택 음성인식시스템.
The method according to claim 1,
The topic match degree determining unit 260,
A channel-based match degree determination information acquisition module 261 for acquiring speech recognition summary information and modeled topic model information for each channel provided by the multi-channel content analysis unit and providing the obtained speech recognition summary information to the topic match degree determination module;
Calculates a probabilistic distance value between the speech recognition summary information for each channel and the modeled topic model information provided by the per-channel match degree information acquisition module, and determines a channel for which the calculated probabilistic distance value is greater than or equal to a reference value A topic match degree judging module 262 for judging a match degree;
And a topic agreement degree output module 263 for acquiring a channel for providing a topic match degree higher than a reference value in the topic match degree determination module and providing the microphone information of the corresponding channel to the speech input sensitivity enhancement adjustment unit 270. [ Automatic Directional Speech Recognition System Using Topic Selection.
제 1항에 있어서,
상기 음성입력감도강화조정부(270)는,
토픽일치도판단부로부터 채널 마이크 정보를 획득하여 음성입력감도강화조정모듈(272)로 해당 채널 마이크 정보를 제공하기 위한 채널마이크정보획득모듈(271);
채널마이크정보획득모듈로부터 채널 마이크 정보를 획득할 경우에 해당 채널 마이크의 음성 입력 감도를 높이기 위하여, 마이크 방향 조정 정보, 마이크 거리 이동 정보, 마이크 감도 조정 정보 중 어느 하나 이상의 정보를 생성하여 해당 채널마이크제어부(110)로 전송하기 위한 음성입력감도강화조정모듈(272);을 포함하여 구성되는 중요 화제 선별을 이용한 자동 방향 선택 음성인식시스템.
The method according to claim 1,
The voice input sensitivity enhancement adjusting unit 270 adjusts,
A channel microphone information acquisition module 271 for acquiring channel microphone information from the topic matching degree determination unit and providing corresponding channel microphone information to the voice input sensitivity enhancement adjustment module 272;
In order to increase the voice input sensitivity of the channel microphone when the channel microphone information is acquired from the channel microphone information acquisition module, information on at least one of the microphone direction adjustment information, the microphone distance movement information, and the microphone sensitivity adjustment information is generated, And an audio input sensitivity enhancement adjustment module (272) for transmitting the audio signal to the control unit (110).
제 1항에 있어서,
상기 토픽모델부(250)는,
사용자가 원하는 중요 화제 정보를 선별하기 위하여, 딥 러닝(deep learning) 모델, 머신 러닝(Machine Learning), SVM(Support Vector Machine), 신경망(Neural Network) 중 어느 하나의 기계학습 모델을 적용하여 토픽 모델 정보를 생성하는 것을 특징으로 하는 중요 화제 선별을 이용한 자동 방향 선택 음성인식시스템.
The method according to claim 1,
The topic modeling unit 250,
In order to select important topic information desired by the user, a machine learning model of a deep learning model, a machine learning, a support vector machine (SVM), and a neural network is applied to a topic model Wherein the automatic direction selection speech recognition system comprises:
제 1항에 있어서,
상기 토픽모델부(250)는,
컨텐츠서버(300)로부터 외부 컨텐츠를 크롤링하며, 딥 러닝 모델을 이용하여 외부 컨텐츠의 분석과 학습을 주기적으로 수행하여 지속적인 토픽 모델링 및 업데이트를 수행함으로써, 토픽 모델링의 정확도를 향상시키는 것을 특징으로 하는 중요 화제 선별을 이용한 자동 방향 선택 음성인식시스템.
The method according to claim 1,
The topic modeling unit 250,
Crawling external content from the content server 300 and periodically performing analysis and learning of external content using a deep learning model to continuously perform topic modeling and updating to improve the accuracy of topic modeling Automatic Directional Speech Recognition System Using Topic Selection.
삭제delete 삭제delete 삭제delete 삭제delete
KR1020180028521A 2018-03-12 2018-03-12 Automatic direction selection speech recognition system using important topic selection and Method KR101889809B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180028521A KR101889809B1 (en) 2018-03-12 2018-03-12 Automatic direction selection speech recognition system using important topic selection and Method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180028521A KR101889809B1 (en) 2018-03-12 2018-03-12 Automatic direction selection speech recognition system using important topic selection and Method

Publications (1)

Publication Number Publication Date
KR101889809B1 true KR101889809B1 (en) 2018-08-20

Family

ID=63443142

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180028521A KR101889809B1 (en) 2018-03-12 2018-03-12 Automatic direction selection speech recognition system using important topic selection and Method

Country Status (1)

Country Link
KR (1) KR101889809B1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113782013A (en) * 2021-09-15 2021-12-10 北京百度网讯科技有限公司 Method, apparatus, storage medium, and program product for speech recognition and model training
WO2022010320A1 (en) * 2020-07-10 2022-01-13 주식회사 아모센스 Device for processing voice and operation method thereof

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100655489B1 (en) 2004-12-06 2006-12-08 한국전자통신연구원 Analysis system and analysis method of speech recognition engine under noise situation
KR20140112360A (en) * 2013-03-13 2014-09-23 삼성전자주식회사 Vocabulary integration system and method of vocabulary integration in speech recognition
KR20150144640A (en) * 2014-06-17 2015-12-28 인천광역시(인천광역시경제자유구역청장) Apparatus and Method for Judging Unusual sound
KR20160014926A (en) * 2014-07-30 2016-02-12 삼성전자주식회사 speech recognition apparatus and method thereof
KR101698369B1 (en) * 2015-11-24 2017-01-20 주식회사 인텔로이드 Method and apparatus for information providing using user speech signal

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100655489B1 (en) 2004-12-06 2006-12-08 한국전자통신연구원 Analysis system and analysis method of speech recognition engine under noise situation
KR20140112360A (en) * 2013-03-13 2014-09-23 삼성전자주식회사 Vocabulary integration system and method of vocabulary integration in speech recognition
KR20150144640A (en) * 2014-06-17 2015-12-28 인천광역시(인천광역시경제자유구역청장) Apparatus and Method for Judging Unusual sound
KR20160014926A (en) * 2014-07-30 2016-02-12 삼성전자주식회사 speech recognition apparatus and method thereof
KR101698369B1 (en) * 2015-11-24 2017-01-20 주식회사 인텔로이드 Method and apparatus for information providing using user speech signal

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022010320A1 (en) * 2020-07-10 2022-01-13 주식회사 아모센스 Device for processing voice and operation method thereof
CN113782013A (en) * 2021-09-15 2021-12-10 北京百度网讯科技有限公司 Method, apparatus, storage medium, and program product for speech recognition and model training
CN113782013B (en) * 2021-09-15 2024-01-30 北京百度网讯科技有限公司 Method, apparatus, storage medium and program product for speech recognition and model training

Similar Documents

Publication Publication Date Title
CN108074576A (en) Inquest the speaker role&#39;s separation method and system under scene
Bilmes Natural statistical models for automatic speech recognition
KR20170034227A (en) Apparatus and method for speech recognition, apparatus and method for learning transformation parameter
KR20080023030A (en) On-line speaker recognition method and apparatus for thereof
CN101661754A (en) Data processing unit, method and control program
CN1351744A (en) Recognition engines with complementary language models
KR20230107860A (en) Voice personalization and federation training using real noise
Shivaprasad et al. Identification of regional dialects of Telugu language using text independent speech processing models
CN108710653B (en) On-demand method, device and system for reading book
KR101889809B1 (en) Automatic direction selection speech recognition system using important topic selection and Method
Vignolo et al. Feature optimisation for stress recognition in speech
Huang et al. Emotional speech feature normalization and recognition based on speaker-sensitive feature clustering
Yasmin et al. Graph based feature selection investigating boundary region of rough set for language identification
Londhe et al. Chhattisgarhi speech corpus for research and development in automatic speech recognition
CN115249480A (en) Beidou short message-based voice and text conversion method and related device
Park et al. Towards soundscape information retrieval (SIR)
Ramadani et al. A new technology on translating Indonesian spoken language into Indonesian sign language system.
Dutta et al. Language identification using phase information
KR20130068624A (en) Apparatus and method for recognizing speech based on speaker group
Kacamarga et al. Analysis of acoustic features in gender identification model for english and bahasa indonesia telephone speeches
Hajihashemi et al. Novel time-frequency based scheme for detecting sound events from sound background in audio segments
Revathi et al. Hearing impaired speech recognition: Stockwell features and models
KR101890704B1 (en) Simple message output device using speech recognition and language modeling and Method
Almurayziq et al. Evaluating AI techniques for blind students using voice-activated personal assistants
Heittola Computational Audio Content Analysis in Everyday Environments

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant