KR102140770B1 - Method for unlocking user equipment based on voice, user equipment releasing lock based on voice and computer readable medium having computer program recorded therefor - Google Patents

Method for unlocking user equipment based on voice, user equipment releasing lock based on voice and computer readable medium having computer program recorded therefor Download PDF

Info

Publication number
KR102140770B1
KR102140770B1 KR1020130115695A KR20130115695A KR102140770B1 KR 102140770 B1 KR102140770 B1 KR 102140770B1 KR 1020130115695 A KR1020130115695 A KR 1020130115695A KR 20130115695 A KR20130115695 A KR 20130115695A KR 102140770 B1 KR102140770 B1 KR 102140770B1
Authority
KR
South Korea
Prior art keywords
voice
user
information
user device
text
Prior art date
Application number
KR1020130115695A
Other languages
Korean (ko)
Other versions
KR20150035312A (en
Inventor
나승원
Original Assignee
에스케이플래닛 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에스케이플래닛 주식회사 filed Critical 에스케이플래닛 주식회사
Priority to KR1020130115695A priority Critical patent/KR102140770B1/en
Publication of KR20150035312A publication Critical patent/KR20150035312A/en
Application granted granted Critical
Publication of KR102140770B1 publication Critical patent/KR102140770B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/66Substation equipment, e.g. for use by subscribers with means for preventing unauthorised or fraudulent calling
    • H04M1/667Preventing unauthorised calls from a telephone set
    • H04M1/67Preventing unauthorised calls from a telephone set by electronic means

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)

Abstract

본 발명은 음성에 기반한 잠금 해제를 수행하는 사용자 장치, 음성에 기반한 사용자 장치의 잠금 해제 방법 및 컴퓨터 프로그램이 기록된 기록매체를 개시한다. 즉, 본 발명은 사용자 장치로 입력되는 소리 정보가 사람의 음성인지 여부를 판단하고 소리 정보가 사람의 음성인 경우, 소리 정보를 기반으로 변환 텍스트를 생성하고 변환 텍스트와 참조 텍스트를 비교하여 사용자 장치의 잠금을 해제할지 여부를 결정할 수 있다. 이러한 방법을 사용함으로써 기존 키 입력 등보다 편리한 사용자 친화적 환경을 제공할 뿐 아니라 보안성을 높일 수 있다.The present invention discloses a user device that performs voice-based unlocking, a method for unlocking a voice-based user device, and a recording medium on which a computer program is recorded. That is, the present invention determines whether the sound information input to the user device is a human voice, and when the sound information is a human voice, generates converted text based on the sound information and compares the converted text and the reference text to the user device You can decide whether to unlock or not. By using this method, it is possible to not only provide a more convenient user-friendly environment such as existing key input, but also increase security.

Description

음성에 기반한 잠금 해제를 수행하는 사용자 장치, 음성에 기반한 사용자 장치의 잠금 해제 방법 및 컴퓨터 프로그램이 기록된 기록매체{Method for unlocking user equipment based on voice, user equipment releasing lock based on voice and computer readable medium having computer program recorded therefor}Method for unlocking user equipment based on voice, user equipment releasing lock based on voice and computer readable medium having a user device performing voice-based unlocking, a method for unlocking a voice-based user device, and a computer program computer program recorded therefor}

본 발명은 음성에 기반한 잠금 해제를 수행하는 사용자 장치, 음성에 기반한 사용자 장치의 잠금 해제 방법 및 컴퓨터 프로그램이 기록된 기록매체에 관한 것으로, 특히 사용자 장치에 입력되는 사용자의 음성을 기반으로 잠금을 해제하는 사용자 장치, 사용자 음성을 기반으로 사용자 장치의 잠금을 해제하는 방법 및 컴퓨터 프로그램이 기록된 기록매체에 관한 것이다.The present invention relates to a user device performing unlocking based on voice, a method for unlocking a user device based on voice, and a recording medium on which a computer program is recorded, in particular, unlocking based on the voice of a user input to the user device The present invention relates to a user device, a method for unlocking a user device based on a user voice, and a recording medium on which a computer program is recorded.

최근 들어 자동 통역 시스템 및 음성인식 전화기, 음성인식 컴퓨터, 그리고 음성인식 자동차 등의 제품이 등장하여 음성인식에 대한 일반인들의 관심이 높아지고 있다. 공상 과학 영화에서는 음성인식이 미래 사회의 필수적인 기술로 항상 등장한다. 음성은 대부분의 사람들에게 있어서 가장 자연스럽고 효과적인 정보 교환 수단이기 때문에 음성인식 기술은 활성화된다면 일상 생활에서 보다 편리함을 줄 수 있는 기술이 될 수 있다. 음성인식 기술의 목표는 음성 정보를 받을 수 있고 받은 정보에 따른 적절한 동작 및 대화를 할 수 있는 기계의 구현이다. 음성인식 연구는 인간과 자연스럽게 대화하는 기계 구현을 목표로 오랜 시간 동안 진행되어 왔다. 아직도 임의의 화자의 음성을 주어진 환경하에서 자연스럽게 인식할 수 있는 음성 인식 기술은 완성되지 못했지만 음성인식 기술은 현재에도 다양한 응용 분야에 적용되고 있다.2. Description of the Related Art Recently, products such as an automatic interpretation system, a voice recognition telephone, a voice recognition computer, and a voice recognition vehicle have emerged, and the public's interest in voice recognition is increasing. In science fiction films, voice recognition always appears as an essential skill in the future society. Since voice is the most natural and effective means of information exchange for most people, voice recognition technology can be a technology that can provide more convenience in everyday life if activated. The goal of speech recognition technology is to implement a machine capable of receiving speech information and performing appropriate actions and conversations according to the received information. Speech recognition research has been conducted for a long time with the goal of realizing a machine that naturally communicates with humans. Although speech recognition technology that can naturally recognize the voice of an arbitrary speaker under a given environment has not been completed, speech recognition technology is still being applied to various applications.

예를 들어, 최근 스마트폰 기술의 발전으로 음성을 기반으로 한 서비스들이 선보이고 있다. 이러한 음성 기반의 서비스를 제공하기 위해서는 정확한 음성 인식 기술이 필요하고 서비스의 성격 및 사용자 설정에 따라 음성 인식 기술을 적응적으로 활용하기 위한 방법이 필요하다.For example, recent voice-based services have been introduced due to the development of smart phone technology. In order to provide such a voice-based service, an accurate voice recognition technology is required, and a method for adaptively utilizing the voice recognition technology according to the nature and user setting of the service is required.

한국공개특허 제10-2002-0057262호 [명칭: 음성 인식을 이용한 이동통신 단말기의 잠금 장치 및 방법]Korean Patent Publication No. 10-2002-0057262 [Name: Locking device and method of mobile communication terminal using speech recognition]

본 발명의 목적은 사용자 장치에 대한 제3자의 무단 사용을 방지하기 위해 사용자의 음성 신호를 기반으로 사용자 장치의 잠금 상태를 해제하는 사용자 장치, 사용자 장치의 잠금 해제 방법 및 컴퓨터 프로그램이 기록된 기록매체를 제공하는 데 있다. An object of the present invention is to prevent a third party from unauthorized use of a user device based on a user's voice signal, a user device that unlocks a user device, a method for unlocking the user device, and a recording medium in which a computer program is recorded To provide.

본 발명의 다른 목적은 사용자 장치의 잠금 해제의 편의성을 향상시킬 수 있도록 잠금 해제를 위해 음성 기반의 인터페이스를 활용하는 사용자 장치, 사용자 장치의 잠금 해제 방법 및 컴퓨터 프로그램이 기록된 기록매체를 제공하는 데 있다.Another object of the present invention is to provide a recording medium in which a user device that utilizes a voice-based interface for unlocking, a user device unlocking method, and a computer program are recorded to improve the convenience of unlocking the user device. have.

본 발명의 또 다른 목적은 인식 수준을 결정하는 파라메터 값이 사용자에 의해 설정되도록 하여, 음성 신호에 기반한 사용자 장치의 잠금 해제 여부를 상황에 맞게 적응적으로 설정이 가능하도록 한 사용자 장치, 사용자 장치의 잠금 해제 방법 및 컴퓨터 프로그램이 기록된 기록매체를 제공하는 데 있다.Another object of the present invention is to enable the user device and the user device to adaptively set whether to unlock the user device based on the voice signal by setting the parameter value for determining the recognition level by the user. It is to provide a recording medium in which a method of unlocking and a computer program are recorded.

본 발명의 실시예에 따른 음성에 기반한 잠금 해제를 수행하는 사용자 장치는 사용자 장치로 입력되는 소리 정보가 사람의 음성인지 여부를 판단하도록 구현되는 사운드 유형 분석부; 소리 정보가 사람의 음성인 경우, 소리 정보를 기반으로 변환 텍스트를 생성하고 변환 텍스트와 사용자 장치의 잠금 장치를 해제할지 여부를 결정하기 위한 판단 기준이 되는 텍스트 정보인 참조 텍스트를 비교하여 산출된 매칭 결과와 미리 설정한 사용자 설정 파라메터를 기반으로 사용자 장치의 잠금을 해제할지 여부를 결정하도록 구현되는 개인별 음성 패턴 분석부; 및 매칭 결과가 사용자 설정 파라메터의 임계값을 만족하는 경우, 사용자 장치의 잠금을 해제하도록 구현되는 프로세서를 포함할 수 있다. A user device performing unlocking based on voice according to an embodiment of the present invention includes a sound type analyzer configured to determine whether sound information input to a user device is a human voice; If the sound information is a human voice, the match is calculated by generating converted text based on the sound information and comparing the converted text with reference text, which is text information that is a criterion for determining whether to unlock the user device. An individual voice pattern analysis unit implemented to determine whether to unlock the user device based on a result and a preset user setting parameter; And a processor implemented to unlock the user device when the matching result satisfies the threshold of the user setting parameter.

본 발명과 관련된 일 예로서 매칭 결과는 변환 텍스트와 참조 텍스트 사이에 일치하는 토큰의 수에 대한 정보 및 일치율에 대한 정보를 포함하고, 사용자 설정 파라메터는 사용자 장치의 잠금을 해제할지 여부를 결정하기 위해 설정된 토큰의 수에 대한 임계값 정보 및 일치율에 대한 임계값 정보일 수 있다.As an example related to the present invention, the matching result includes information on the number of tokens matched between the converted text and the reference text, and information on the matching rate, and the user setting parameter is used to determine whether to unlock the user device. It may be threshold information for a set number of tokens and threshold information for a match rate.

본 발명과 관련된 일 예로서 일치하는 토큰의 수는 변환 텍스트와 참조 텍스트에 포함된 단어 별로 매핑을 수행하여 매핑되는 단어의 개수에 기반하여 산출되고, 일치율은 매핑되는 단어에서 일치하는 음절의 개수에 기반하여 산출될 수 있다.As an example related to the present invention, the number of matching tokens is calculated based on the number of words mapped by performing mapping for each word included in the converted text and the reference text, and the matching rate is based on the number of syllables matching in the mapped word. It can be calculated based on.

본 발명과 관련된 일 예로서 음성에 기반한 잠금 해제를 수행하는 사용자 장치는 사용자 설정 파라메터를 설정하기 위해 구현되는 사용자 설정부를 더 포함하고, 사용자 설정 파라메터는 사용자 장치의 보안 요구 정도에 따라 다르게 설정될 수 있다. As an example related to the present invention, the user device performing unlocking based on voice further includes a user setting unit implemented to set user setting parameters, and the user setting parameters may be set differently according to the degree of security requirements of the user device. have.

본 발명과 관련된 일 예로서 개인별 음성 패턴 분석부는 소리 정보를 토큰 단위로 분할하고, 토큰 단위로 분할한 소리 정보를 사용자 음성의 특징 정보를 기반으로 전처리하고, 전처리된 상기 소리 정보를 텍스트로 변환하여 변환 텍스트를 생성하도록 구현될 수 있으며, 사용자 음성의 특징 정보는 주파수 정보일 수 있다. As an example related to the present invention, an individual voice pattern analysis unit divides sound information into token units, pre-processes sound information divided into token units based on feature information of the user's voice, and converts the pre-processed sound information into text. It may be implemented to generate converted text, and the feature information of the user voice may be frequency information.

본 발명과 관련된 일 예로서 변환 텍스트는 사용자 설정 파라메터의 임계값을 만족하는 경우, 참조 텍스트로 설정되어 저장될 수 있다. As an example related to the present invention, the converted text may be set and stored as a reference text when a threshold value of a user-set parameter is satisfied.

본 발명과 관련된 일 예로서 사운드 유형 분석부는 소리 정보에 패턴이 존재하지 않고 사람의 음성 주파수 대역인 경우, 사람의 음성으로 판단하도록 구현될 수 있다.As an example related to the present invention, the sound type analysis unit may be implemented to determine a human voice when a pattern does not exist in the sound information and is a human voice frequency band.

본 발명의 실시예에 따른 사용자 음성 기반 사용자 장치의 잠금 해제 방법은 사용자 장치로 입력되는 소리 정보가 사람의 음성인지 여부를 판단하는 단계; 소리 정보가 상기 사람의 음성인 경우, 소리 정보를 기반으로 변환 텍스트를 생성하는 단계; 변환 텍스트와 사용자 장치의 잠금 장치를 해제할지 여부를 결정하기 위한 판단 기준이 되는 텍스트 정보인 참조 텍스트를 비교하여 산출된 매칭 결과와 사용자 설정 파라메터를 기반으로 사용자 장치의 잠금을 해제할지 여부를 결정하는 단계; 및 매칭 결과가 사용자 설정 파라메터의 임계값을 만족하는 경우, 사용자 장치의 잠금을 해제하는 단계를 포함할 수 있다. According to an embodiment of the present invention, a method for unlocking a user voice-based user device includes determining whether sound information input to the user device is human voice; If the sound information is the human voice, generating converted text based on the sound information; Determining whether to unlock the user device based on the matching result calculated by comparing the converted text and the reference text, which is text information that is a judgment criterion for determining whether to unlock the user device, or a user setting parameter. step; And when the matching result satisfies the threshold of the user setting parameter, unlocking the user device.

본 발명과 관련된 일 예로서 매칭 결과는 변환 텍스트와 참조 텍스트 사이에 일치하는 토큰의 수에 대한 정보 및 일치율에 대한 정보를 포함하고 사용자 설정 파라메터는 사용자 장치의 잠금을 해제할지 여부를 결정하기 위해 설정된 토큰의 수에 대한 임계값 정보 및 일치율에 대한 임계값 정보일 수 있다. As an example related to the present invention, the matching result includes information on the number of tokens matched between the converted text and the reference text and information on the matching rate, and the user setting parameter is set to determine whether to unlock the user device. It may be threshold information on the number of tokens and threshold information on the match rate.

본 발명과 관련된 일 예로서 소리 정보가 사람의 음성인 경우, 소리 정보를 기반으로 변환 텍스트를 생성하는 단계는, 소리 정보에서 피치 정보를 검출하는 단계; 피치 정보를 기반으로 소리 정보에서 특징 벡터를 산출하는 단계; 특징 벡터를 기반으로 소리 정보 중 변환 텍스트로 변환할 소리 정보를 추출하는 단계; 및 어절 및 음절의 언어적인 순서 관계를 기반으로 모델링한 언어 모델을 기반으로 추출된 소리 정보를 변환 텍스트로 생성하는 단계를 포함할 수 있다.As an example related to the present invention, when the sound information is a human voice, generating converted text based on the sound information includes: detecting pitch information from the sound information; Calculating a feature vector from sound information based on the pitch information; Extracting sound information to be converted into converted text among sound information based on the feature vector; And generating extracted sound information as converted text based on a language model modeled based on a linguistic order relationship of words and syllables.

본 발명의 실시예에 따른 컴퓨터 프로그램이 기록된 기록매체에는 상술한 실시예에 따른 방법을 수행하는 컴퓨터 프로그램이 저장될 수 있다.A computer program for performing the method according to the above-described embodiment may be stored in a recording medium on which the computer program according to an embodiment of the present invention is recorded.

본 발명은 사람의 음성을 인식하는 방법을 사용자 장치의 잠금 상태를 해제하기 위해 사용하여 기존 키 입력에 기반한 잠금 해제 방법보다 사용자 친화적 환경을 제공할 뿐 아니라 보안성을 높일 수 있는 효과가 있다. The present invention uses a method of recognizing a human voice to unlock a user device, thereby providing a user-friendly environment as compared to a method of unlocking based on an existing key input and enhancing security.

또한, 본 발명은 음성 기반의 인터페이스를 사용함으로써 아동과 장애인이 사용하는 사용자 장치의 잠금 해제에도 도움이 될 뿐만 아니라 사용자 설정 파라메터의 설정값에 따라 인식 수준을 사용자가 결정하여 사용자 장치의 잠금 해제 여부를 상황에 맞게 적응적으로 설정할 수 있는 효과가 있다.In addition, the present invention not only helps unlocking a user device used by children and persons with disabilities by using a voice-based interface, but also determines whether the user device is unlocked by determining a recognition level according to a setting value of a user setting parameter. There is an effect that can be set adaptively according to the situation.

도 1은 본 발명의 실시예에 따른 음성 인식에 기반한 본인 인증 방법을 나타낸 개념도이다.
도 2는 본 발명의 실시예에 따른 음성 인식에 기반한 사용자 장치의 잠금 해제 방법을 나타낸 개념도이다.
도 3은 본 발명의 실시예에 따른 사용자 설정 파라메터를 결정하고 잠금 장치를 해제할지 여부를 결정하는 방법을 나타낸 순서도이다.
도 4는 본 발명의 실시예에 따른 사용자 입력 음성 분석 방법을 나타낸 개념도이다.
도 5는 본 발명의 실시예에 따른 사용자 입력 음성 분석 방법을 나타낸 순서도이다.
도 6은 본 발명의 실시예에 따른 사용자 입력 음성을 텍스트로 변환하는 방법을 나타낸 개념도이다.
도 7은 본 발명의 실시예에 따른 사용자 장치를 나타낸 개념도이다.
1 is a conceptual diagram showing a user authentication method based on speech recognition according to an embodiment of the present invention.
2 is a conceptual diagram illustrating a method for unlocking a user device based on speech recognition according to an embodiment of the present invention.
3 is a flowchart illustrating a method of determining a user setting parameter according to an embodiment of the present invention and determining whether to release the locking device.
4 is a conceptual diagram illustrating a user input voice analysis method according to an embodiment of the present invention.
5 is a flowchart illustrating a user input voice analysis method according to an embodiment of the present invention.
6 is a conceptual diagram illustrating a method of converting a user input voice into text according to an embodiment of the present invention.
7 is a conceptual diagram illustrating a user device according to an embodiment of the present invention.

본 발명에서 사용되는 기술적 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아님을 유의해야 한다. 또한, 본 발명에서 사용되는 기술적 용어는 본 발명에서 특별히 다른 의미로 정의되지 않는 한 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 의미로 해석되어야 하며, 과도하게 포괄적인 의미로 해석되거나 과도하게 축소된 의미로 해석되지 않아야 한다. 또한, 본 발명에서 사용되는 기술적인 용어가 본 발명의 사상을 정확하게 표현하지 못하는 잘못된 기술적 용어일 때에는 당업자가 올바르게 이해할 수 있는 기술적 용어로 대체되어 이해되어야 할 것이다. 또한, 본 발명에서 사용되는 일반적인 용어는 사전에 정의되어 있는 바에 따라 또는 전후 문맥상에 따라 해석되어야 하며, 과도하게 축소된 의미로 해석되지 않아야 한다.It should be noted that the technical terms used in the present invention are only used to describe specific embodiments, and are not intended to limit the present invention. In addition, technical terms used in the present invention should be interpreted as meanings generally understood by a person having ordinary knowledge in the technical field to which the present invention belongs, unless defined otherwise. It should not be interpreted as a meaning or an excessively reduced meaning. In addition, when the technical term used in the present invention is a wrong technical term that does not accurately represent the spirit of the present invention, it should be understood as being replaced by a technical term that can be correctly understood by those skilled in the art. In addition, the general terms used in the present invention should be interpreted as defined in the dictionary or according to context before and after, and should not be interpreted as an excessively reduced meaning.

또한, 본 발명에서 사용되는 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한 복수의 표현을 포함한다. 본 발명에서 "구성된다" 또는 "포함한다" 등의 용어는 발명에 기재된 여러 구성 요소들 또는 여러 단계를 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성 요소들 또는 일부 단계들은 포함되지 않을 수도 있고 또는 추가적인 구성 요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다.In addition, the singular expression used in the present invention includes a plural expression unless the context clearly indicates otherwise. In the present invention, terms such as “consisting of” or “comprising” should not be construed to include all of the various components or steps described in the present invention, and some of the components or some steps may not be included. It should be construed that it may or may further include additional components or steps.

또한, 본 발명에서 사용되는 제 1, 제 2 등과 같이 서수를 포함하는 용어는 구성 요소들을 설명하는데 사용될 수 있지만 구성 요소들은 용어들에 의해 한정되어서는 안 된다. 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제 1 구성 요소는 제 2 구성 요소로 명명될 수 있고, 유사하게 제 2 구성 요소도 제 1 구성 요소로 명명될 수 있다.Further, terms including ordinal numbers such as first and second used in the present invention may be used to describe elements, but the elements should not be limited by terms. The terms are used only to distinguish one component from another component. For example, the first component may be referred to as a second component without departing from the scope of the present invention, and similarly, the second component may be referred to as a first component.

이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성 요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.Hereinafter, preferred embodiments according to the present invention will be described in detail with reference to the accompanying drawings, but the same or similar elements will be given the same reference numbers regardless of the reference numerals, and redundant descriptions thereof will be omitted.

또한, 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 발명의 사상을 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 발명의 사상이 제한되는 것으로 해석되어서는 아니 됨을 유의해야 한다.In addition, in the description of the present invention, when it is determined that detailed descriptions of related known technologies may obscure the subject matter of the present invention, detailed descriptions thereof will be omitted. In addition, it should be noted that the accompanying drawings are only for easy understanding of the spirit of the present invention and should not be interpreted as limiting the spirit of the present invention by the accompanying drawings.

이하, 본 발명의 실시예에서는 음성 인식에 기반한 사용자 장치의 잠금 해제 방법에 대해 개시한다. 설명의 편의상 음성 인식을 기반으로 사용자 장치에 대한 잠금을 해제하는 방법에 대해서 개시하나, 본 발명의 실시예에 따른 음성 인식 방법은 사용자 장치에 대한 잠금 해제뿐만 아니라 사용자 장치에 필요한 다른 본인 인증 절차 또는 장치의 동작을 제어하기 위해 사용될 수도 있다.Hereinafter, an embodiment of the present invention discloses a method for unlocking a user device based on speech recognition. For convenience of description, a method of unlocking a user device based on voice recognition is disclosed, but the voice recognition method according to an embodiment of the present invention not only unlocks a user device, but also other user authentication procedures required for the user device or It can also be used to control the operation of the device.

도 1은 본 발명의 실시예에 따른 음성 인식에 기반한 사용자 장치의 잠금 해제 방법을 나타낸 개념도이다.1 is a conceptual diagram illustrating a method for unlocking a user device based on speech recognition according to an embodiment of the present invention.

이하, 본 발명의 실시예에서 사용자 장치는 다양한 용어로 불릴 수 있다. 예를 들어, 사용자 장치(User Equipment, UE)는 고정되거나 이동성을 가질 수 있으며, MS(mobile station), MT(mobile terminal), UT(user terminal), SS(subscriber station), 무선기기(wireless device), PDA(personal digital assistant), 무선 모뎀(wireless modem), 휴대기기(handheld device), 무선 단말 등 다른 용어로 불릴 수 있다.Hereinafter, in an embodiment of the present invention, a user device may be referred to in various terms. For example, a user equipment (UE) may be fixed or mobile, and a mobile station (MS), a mobile terminal (MT), a user terminal (UT), a subscriber station (SS), and a wireless device ), PDA (personal digital assistant), wireless modem (wireless modem), handheld device (handheld device), may be referred to in other terms such as wireless terminals.

도 1에 도시된 바와 같이, 사용자 장치(100)는 본인 인증을 거쳐 잠금 상태를 해제한 후 사용되도록 구현될 수 있다. 사용자 장치(100)는 사용자의 음성 신호(110)를 입력 받아 본인 인증을 수행할 수 있다. 예를 들어, 사용자는 사용자 장치(100)의 잠금을 해제하기 위해 특정한 단어 또는 문장을 발음하여 음성 신호(110)를 생성할 수 있다. 사용자 장치(100)는 음성 신호(110)를 수신하고, 수신된 음성 신호(110)를 분석하여 잠금 상태(120)를 해제할지 여부에 대해 판단할 수 있다. 본 발명의 실시예에 따르면, 사용자 장치(100)는 수신한 음성 신호(110)와 사용자 장치(100)에 미리 결정된 텍스트를 비교하여 사용자 장치(100)의 잠금 상태(120)를 해제(130)할지 여부를 결정할 수 있다. 미리 결정된 텍스트는 사용자 장치(100)의 잠금 상태(120)를 해제(130)하기 위해 설정된 문장 또는 단어일 수 있다. 이하, 본 발명의 실시예에서는 사용자 장치(100)의 잠금 상태(120)를 해제하기 위해 미리 결정된 텍스트는 참조 텍스트라는 용어로 정의하여 사용할 수 있다. 또한, 사용자가 사용자 장치(100)의 잠금 해제(130)를 위해 사용자 장치(100)로 입력하는 음성 신호(110)는 사용자 입력 음성이라는 용어로 정의하여 사용할 수 있다.As illustrated in FIG. 1, the user device 100 may be implemented to be used after releasing the lock state through authentication. The user device 100 may receive the user's voice signal 110 and perform user authentication. For example, the user may generate a voice signal 110 by pronouncing a specific word or sentence to unlock the user device 100. The user device 100 may receive the voice signal 110 and analyze the received voice signal 110 to determine whether to unlock the locked state 120. According to an embodiment of the present invention, the user device 100 compares the received voice signal 110 and the predetermined text to the user device 100 to release the locked state 120 of the user device 100 (130) You can decide whether or not to do it. The predetermined text may be a sentence or word set to release 130 the locked state 120 of the user device 100. Hereinafter, in an embodiment of the present invention, the predetermined text in order to release the locked state 120 of the user device 100 may be defined and used in the term reference text. In addition, the voice signal 110 input by the user to the user device 100 for unlocking 130 of the user device 100 may be defined and used in the term user input voice.

본 발명의 실시예에 따르면, 입력되는 음성 신호(110)가 사람의 음성인지 여부를 판단하고, 음성 신호가 사람의 음성인 경우, 사용자 입력 음성을 텍스트로 변경하고, 변경된 텍스트와 참조 텍스트를 특정한 단위로 매칭하여 매칭 정보를 산출할 수 있다. 특정한 단위는 어절, 음절, 어휘, 문장과 같은 언어의 다양한 단위가 될 수 있다. 이하 본 발명의 실시예에서는 매칭을 수행하는 언어의 단위를 토큰이라고 표현한다. According to an embodiment of the present invention, it is determined whether the input voice signal 110 is human voice, and when the voice signal is human voice, the user input voice is changed to text, and the changed text and reference text are specified. Matching information can be calculated by matching units. A specific unit can be various units of a language such as a word, a syllable, a vocabulary, and a sentence. Hereinafter, in an embodiment of the present invention, a unit of a language performing matching is expressed as a token.

사용자 장치(100)의 잠금 상태(120)를 해제할지 여부를 결정하기 위한 매칭 정보는 매칭되는 토큰의 수 및 매칭율일 수 있다. 사용자 장치(100)는 산출된 매칭 정보와 잠금 설정 해제 판단 기준을 비교하여 사용자 장치(100)의 잠금 상태(120)를 해제(130)할지 여부에 대해 결정할 수 있다. Matching information for determining whether to unlock the locked state 120 of the user device 100 may be the number of matching tokens and the matching rate. The user device 100 may determine whether to unlock 130 the locked state 120 of the user device 100 by comparing the calculated matching information with the lock setting release determination criteria.

잠금 상태(120)를 해제(130)할지 여부에 대한 판단 기준은 사용자가 미리 설정한 값으로 사용자 입력 음성과 참조 텍스트 사이에 일치되는 토큰의 수 및 매칭율에 대한 설정일 수 있다. The criterion for determining whether to unlock 130 the locked state 120 may be a value set by the user in advance, and may be a setting for the number of matching tokens and the matching rate between the user input voice and the reference text.

이하 본 발명의 실시예에서 사용자 장치(100)가 사용자 입력 음성을 수신하고, 수신된 사용자 입력 음성을 분석하여 사용자 장치(100)의 잠금 설정을 해제할지 여부에 대해 판단하는 방법에 대해 구체적으로 개시한다. Hereinafter, in an embodiment of the present invention, a method for determining whether a user device 100 receives a user input voice and analyzes the received user input voice to determine whether to unlock the user device 100 is disclosed. do.

도 2는 본 발명의 실시예에 따른 음성 인식에 기반한 사용자 장치(100)의 잠금 해제 방법을 나타낸 개념도이다.2 is a conceptual diagram illustrating a method of unlocking a user device 100 based on speech recognition according to an embodiment of the present invention.

도 2에 도시된 바와 같이, 사용자는 사용자 장치(100)의 잠금 상태를 해제하기 위해 '길동이폰' 이라는 단어를 발음하여 사용자 장치(100)로 입력할 수 있다. 사용자 장치(100)에서는 사운드 유형 분석(200)을 기반으로 입력된 소리가 사람의 목소리인지 여부에 대해 판단할 수 있다.As illustrated in FIG. 2, the user may pronounce the word “gil mobile phone” to release the locked state of the user device 100 and input it to the user device 100. The user device 100 may determine whether the input sound is a human voice based on the sound type analysis 200.

예를 들어, 사용자 장치(100)는 사운드 유형 분석(200)을 통해 입력되는 소리가 생물의 소리인지, 무생물의 소리인지, 사람의 소리인지, 외부 잡음인지 기계음인지 여부를 판단하여 사람의 목소리인 경우에만 입력된 소리 정보를 분석할 수 있다. 이러한 방법을 사용함으로써 외부에서 입력되는 사람의 음성 외의 소리는 무시하고 사용자 입력 음성에 대해서만 사용자 장치(100)의 잠금을 해제할지 여부에 대해 판단할 수 있다.For example, the user device 100 determines whether the sound input through the sound type analysis 200 is a living sound, an inanimate sound, a human sound, an external noise, or a mechanical sound. Only when the input sound information can be analyzed. By using this method, it is possible to determine whether to unlock the user device 100 only for the user input voice while ignoring the sound other than the voice of the person input from the outside.

예를 들어, 사용자 장치(100)는 입력된 소리의 사운드 유형 분석(200)을 위해 입력된 소리의 특징 정보를 획득할 수 있다. 사람의 음성은 주파수 및 진폭이 존재하는 불규칙한 신호이다. 따라서, 획득한 소리의 특징 정보가 일정한 패턴이거나 특정 주파수 파장을 넘어서는 경우, 사용자 장치(100)는 입력된 소리가 사람의 음성 신호가 아닌 것으로 판단할 수 있다. 사용자 장치(100)는 입력된 소리가 사람의 음성 신호가 아니라고 판단하는 경우, 추가적인 사용자 음성 분석(220)을 수행하지 않을 수 있다. 반대로 입력된 신호가 사람의 음성이라고 판단되는 경우, 추가적으로 사용자 음성 분석(220)을 수행하여 입력된 음성으로 사용자 장치(100)의 잠금 해제가 가능한지 여부에 대해 판단할 수 있다.For example, the user device 100 may obtain characteristic information of the input sound for the sound type analysis 200 of the input sound. Human voice is an irregular signal with frequency and amplitude. Accordingly, when the characteristic information of the acquired sound is a certain pattern or exceeds a specific frequency wavelength, the user device 100 may determine that the input sound is not a human voice signal. When determining that the input sound is not a human voice signal, the user device 100 may not perform the additional user voice analysis 220. Conversely, when it is determined that the input signal is a human voice, an additional user voice analysis 220 may be performed to determine whether the user device 100 can be unlocked with the input voice.

또 다른 예로, 사용자 장치(100)는 사용자의 전화 목소리 또는 사용자가 별도로 입력한 목소리를 기반으로 사용자 음성의 특징 정보를 획득하여 사용자의 목소리가 맞는지 여부에 대해서도 구체적으로 판단할 수도 있다. As another example, the user device 100 may specifically determine whether the user's voice is correct by obtaining characteristic information of the user's voice based on the user's phone voice or a voice input by the user separately.

예를 들어, 사용자가 전화 통화를 수행 시 사용자의 음성 정보를 획득하여 사용자의 음성 정보에 대한 학습을 수행하여 사용자 음성의 특징을 추출할 수 있다. 사용자 장치(100)는 잠금 해제를 위해 외부에서 입력되는 음성 중 사용자의 음성 특징과 동일한 특징을 가지는 음성에 대해서만 사용자 음성 분석을 수행하여 잠금 장치 해제 여부에 대해 결정할 수 있다.For example, when a user makes a phone call, the user's voice information may be acquired and the user's voice information may be learned to extract characteristics of the user's voice. The user device 100 may determine whether to unlock the lock by performing user voice analysis on only voices having the same characteristics as the voices of the user among voices input from the outside for unlocking.

사용자 장치(100)에 입력된 소리가 사운드 유형 분석(200)을 기반으로 사용자 입력 음성(210)으로 판단된 경우, 다음 단계로 사용자 음성 분석(220)을 수행할 수 있다.When it is determined that the sound input to the user device 100 is the user input voice 210 based on the sound type analysis 200, the user voice analysis 220 may be performed as the next step.

사용자 음성 분석(220)은 사용자 입력 음성(210)을 텍스트로 변경하고, 변경된 텍스트를 토큰 단위로 참조 텍스트(230)와 매칭하여 유사성을 추출해낼 수 있다. 사용자 음성 분석(220)은 사용자 입력 음성(210)을 텍스트로 변경하기 위해서 예를 들어, ASR(automatic speech recognition) 또는 TTS(text to speech) 방법과 같은 음성과 텍스트 사이의 변환 방법을 사용할 수 있다. The user speech analysis 220 may extract the similarity by changing the user input speech 210 to text and matching the changed text with the reference text 230 in token units. The user speech analysis 220 may use a speech-to-text conversion method, such as an automatic speech recognition (ASR) or text to speech (TST) method, to convert the user input speech 210 into text. .

예를 들어, 사용자 장치(100)는 '길동이 폰' 이라는 소리가 입력된 경우, ASR을 기반으로 음성 신호를 '길동이 폰' 이라는 텍스트 정보로 변환할 수 있다. 예를 들어, 사용자 장치(100)에서는 사용자 입력 음성을 문장 레벨 또는 단어 레벨과 같은 특정 단위로 분석하여 텍스트로 변환할 수 있다.For example, the user device 100 may convert a voice signal into text information of a'gil gil' based on the ASR when a sound of'gil gil' is input. For example, the user device 100 may analyze the user input voice in a specific unit such as a sentence level or a word level and convert it into text.

사용자 장치(100)는 사용자 음성 신호가 변환된 텍스트와 미리 저장된 참조 텍스트(230)를 비교하여 사용자 장치(100)의 잠금 상태 해제 여부를 결정할 수 있다. 미리 저장된 참조 텍스트(230)는 사용자에 의해 미리 사용자 장치(100)에 저장된 텍스트로서, 사용자 입력 음성(210)과 비교되어 사용자 장치의 잠금 해제 여부를 결정하기 위한 텍스트일 수 있다. The user device 100 may determine whether to unlock the locked state of the user device 100 by comparing the text in which the user voice signal is converted and the reference text 230 stored in advance. The pre-stored reference text 230 is text previously stored in the user device 100 by the user, and may be text for determining whether to unlock the user device compared to the user input voice 210.

또한, 참조 텍스트(230)는 사용자 입력 음성(210) 중 잠금 해제가 가능한 음성을 텍스트화한 정보를 기반으로 업데이트될 수도 있다. Also, the reference text 230 may be updated based on textualized information of a voice that can be unlocked among the user input voices 210.

본 발명의 실시예에 따르면, 텍스트로 변환된 사용자 입력 음성(210)과 참조 텍스트(230)가 사용자 장치(100)의 잠금을 해제할 만큼 유사한지 여부를 사용자 설정에 따라 판단할 수 있다. 텍스트로 변환된 사용자 입력 음성(210)과 참조 텍스트(230)가 사용자 장치의 잠금을 해제할 만큼 유사한지 여부를 판단하기 위한 기준이 되는 파라메터를 사용자 설정 파라메터(240)라고 할 수 있다.According to an embodiment of the present invention, whether the user input voice 210 converted to text and the reference text 230 are similar enough to unlock the user device 100 may be determined according to user settings. A parameter that is a reference for determining whether the user input voice 210 converted into text and the reference text 230 are similar enough to unlock the user device may be referred to as a user setting parameter 240.

예를 들어, 사용자 설정 파라메터(240)는 텍스트로 변환된 사용자 입력 음성과 참조 텍스트(230) 사이에 일치하는 토큰의 개수, 매칭율 또는 인식율일 수 있다. 텍스트로 변환된 사용자 입력 음성과 참조 텍스트(230)가 일치하는 정도를 산출하여 사용자 설정에서 설정한 사용자 설정 파라메터(240)의 임계값 이상인 경우, 사용자 장치(100)의 잠금 상태를 해제할 수 있다. 반대로, 사용자 설정 파라메터(240)의 임계값 미만인 경우, 사용자 장치(100)의 잠금 상태를 해제하지 않을 수 있다.For example, the user setting parameter 240 may be the number of matching tokens, the matching rate, or the recognition rate between the user input voice converted into text and the reference text 230. When the user input voice converted into text and the reference text 230 are calculated to be equal to or greater than the threshold value of the user setting parameter 240 set in the user setting, the locked state of the user device 100 may be released. . Conversely, if it is less than the threshold of the user setting parameter 240, the locked state of the user device 100 may not be released.

예를 들어, 사용자 설정 파라메터(240)를 일치하는 토큰의 개수 1개, 매칭률 70%로 설정한 경우를 가정할 수 있다. 이러한 경우, 사용자 장치(100)에서 텍스트로 인식된 '길동이폰'과 참조 텍스트인 '나는 홍길동이다'를 비교하여 일치하는 토큰의 수가 1개 이상인지 및 매칭률이 70% 이상인지 여부에 대해 판단할 수 있다. 판단 결과가 설정된 사용자 설정 파라메터(240)의 임계값을 만족하는 경우, 사용자 장치(100)의 잠금 장치가 해제될 수 있다. 반대로 사용자 입력 음성(210)이 변환된 텍스트가 설정된 사용자 설정 파라메터(240)를 만족하지 않는 경우, 사용자 장치(100)의 잠금 장치가 해제되지 않을 수 있다.For example, it may be assumed that the user setting parameter 240 is set to 1 number of matching tokens and the matching rate is 70%. In this case, whether the number of matching tokens is 1 or more and the matching rate is 70% or more by comparing the'Gil Dongi phone' recognized as text in the user device 100 and the reference text'I am Hong Gil Dong' I can judge. When the determination result satisfies the threshold of the set user setting parameter 240, the locking device of the user device 100 may be released. Conversely, when the text input by the user input voice 210 does not satisfy the set user setting parameter 240, the locking device of the user device 100 may not be released.

본 발명의 실시예에 따르면, 사용자 설정 파라메터(240)에 따라 사용자 장치(100)의 보안 정도가 결정될 수 있다. 즉, 사용자 설정 파라메터(토큰, 매칭율, 인식율 등)(240)의 임계값을 조절하여 사용자 장치(100)의 보안 정도를 결정할 수 있다. 예를 들어, 보안 정도를 높게 설정하기 위해서는 사용자 설정 파라메터(240)의 임계값을 높은 값으로 설정하고, 보안 정도를 낮게 설정하기 위해서는 사용자 설정 파라메터(240)의 임계값을 낮은 값으로 설정할 수 있다.According to an embodiment of the present invention, the security level of the user device 100 may be determined according to the user setting parameter 240. That is, the threshold of the user setting parameters (token, matching rate, recognition rate, etc.) 240 may be adjusted to determine the security level of the user device 100. For example, the threshold of the user setting parameter 240 may be set to a high value to set the security degree high, and the threshold of the user setting parameter 240 may be set to a low value to set the security degree low. .

또한, 사용자 설정은 잠금 장치 해제가 수행된 사용자 입력 음성(210)을 기반으로 참조 텍스트 그룹을 업데이트할 것인지를 '결과 저장' 여부를 선택함으로써 추가적으로 설정할 수 있다. 예를 들어, '길동이 폰'과 같이 사용자 장치(100)의 잠금 상태를 해제한 사용자 입력 음성(210)의 경우, 이를 사용자 장치(100)의 잠금 해제가 가능한 새로운 참조 텍스트(230)로서 추가함으로써 참조 텍스트 그룹이 업데이트될 수 있다.In addition, the user setting may be additionally set by selecting whether or not to'save the result' whether to update the reference text group based on the user input voice 210 in which the unlocking is performed. For example, in the case of a user input voice 210 that has unlocked the user device 100, such as a'kicker', it is added as a new reference text 230 that can unlock the user device 100 By doing so, the reference text group can be updated.

도 3은 본 발명의 실시예에 따른 사용자 설정 파라메터(240)를 결정하고 잠금 상태를 해제할지 여부를 결정하는 방법을 나타낸 순서도이다. 3 is a flowchart illustrating a method of determining a user setting parameter 240 according to an embodiment of the present invention and determining whether to release the locked state.

도 3에 도시된 바와 같이, 먼저 사용자 설정 파라메터가 결정된다(단계 S300).As shown in FIG. 3, first, a user setting parameter is determined (step S300).

사용자 설정 파라메터(240)는 텍스트로 변환된 음성 정보와 참조 텍스트(230)를 비교하기 위해 설정된 파라메터로 토큰의 수, 매칭율 등일 수 있다. 사용자 장치(100)의 보안 정도에 따라 잠금 장치 해제를 위한 사용자 파라메터(240)가 적응적으로 설정될 수 있다. The user setting parameter 240 is a parameter set to compare the voice information converted into text and the reference text 230 and may be a number of tokens, a matching rate, and the like. Depending on the security level of the user device 100, the user parameter 240 for unlocking the lock device may be adaptively set.

예를 들어, 사용자 설정 파라메터(240)로 토큰의 수 3개, 일치율 50%로 설정하는 경우, 텍스트로 변환된 음성 정보와 참조 텍스트에서 일치하는 토큰의 수가 3개 이상이고, 매칭율이 50% 이상인 경우 사용자 장치(100)의 잠금 상태가 해제될 수 있다. 사용자 장치(100)의 잠금 상태를 해제하기 위한 사용자 설정 파라메터(240)의 최소값을 사용자 설정 파라메터(240)의 임계값이라고 할 수 있다.For example, if the number of tokens is set to 3 with the user setting parameter 240 and the matching rate is set to 50%, the number of matching tokens in the voice information converted into text and the reference text is 3 or more, and the matching rate is 50%. In the above case, the locked state of the user device 100 may be released. The minimum value of the user setting parameter 240 for releasing the locked state of the user device 100 may be referred to as a threshold of the user setting parameter 240.

다음으로, 텍스트로 변환된 음성 정보와 참조 텍스트 정보를 기반으로 매칭 정보가 산출된다(단계 S310).Next, matching information is calculated based on the voice information converted into text and the reference text information (step S310).

매칭 정보는 텍스트로 변환된 음성 정보와 참조 텍스트 정보를 비교하여 산출된 값이다. 매칭 정보는 사용자 설정 파라메터(240)의 임계값과 비교하여 사용자 장치(100)의 잠금 상태를 해제할지 여부를 결정하기 위해 산출될 수 있다. 사용자 설정 파라메터(240)가 토큰의 수 및 매칭율인 경우, 매칭 정보도 토큰의 수 및 매칭율일 수 있다.The matching information is a value calculated by comparing voice information converted into text and reference text information. Matching information may be calculated to determine whether to unlock the locked state of the user device 100 by comparing the threshold value of the user setting parameter 240. When the user setting parameter 240 is the number of tokens and the matching rate, the matching information may also be the number of tokens and the matching rate.

이후, 매칭 정보가 사용자 설정 파라메터의 임계값을 만족하는지 여부가 판단된다(단계 S320).Thereafter, it is determined whether the matching information satisfies the threshold of the user setting parameter (step S320).

텍스트로 변환된 사용자 입력 음성과 참조 텍스트 정보를 기반으로 매칭 정보를 산출한 결과 사용자 설정 파라메터(240)의 임계값을 만족하는지 여부를 판단할 수 있다. 예를 들어, 매칭 결과 산출된 일치하는 토큰의 수가 사용자 설정 파라메터(240)인 토큰의 수보다 크고, 매칭 결과 산출된 매칭율이 사용자 설정 파라메터(240)의 매칭율보다 큰지 여부를 판단할 수 있다. As a result of matching information based on the user input voice converted into text and reference text information, it may be determined whether the threshold of the user setting parameter 240 is satisfied. For example, it may be determined whether the number of matching tokens calculated as a result of the matching is greater than the number of tokens being the user-set parameter 240, and the matching rate calculated as a result of the matching is greater than the matching rate of the user-set parameter 240. .

매칭 정보가 사용자 설정 파라메터(240)의 임계값을 만족하는 경우, 사용자 장치의 잠금 상태가 해제된다(단계 S330).If the matching information satisfies the threshold of the user setting parameter 240, the locked state of the user device is released (step S330).

판단 결과 매칭 정보가 사용자 설정 파라메터(240)의 임계값을 만족하는 경우, 사용자 장치(100)의 잠금 상태가 해제될 수 있다. As a result of the determination, when the matching information satisfies the threshold of the user setting parameter 240, the locked state of the user device 100 may be released.

전술한 바와 같이 텍스트로 변환된 사용자 입력 음성은 참조 텍스트로 사용되기 위해 업데이트될 수 있다. 또한, 입력된 사용자 음성은 사용자 음성의 특징 정보를 산출하기 위해 사용될 수도 있다. As described above, the user input voice converted to text may be updated to be used as reference text. Also, the input user voice may be used to calculate characteristic information of the user voice.

매칭 정보가 사용자 설정 파라메터(240)의 임계값을 만족하지 않는 경우, 사용자 장치(100)의 잠금 상태가 해제되지 않고 판단 단계가 종료될 수 있다.If the matching information does not satisfy the threshold value of the user setting parameter 240, the locking state of the user device 100 is not released and the determination step may end.

도 4는 본 발명의 실시예에 따른 사용자 입력 음성 분석 방법을 나타낸 개념도이다. 4 is a conceptual diagram illustrating a user input voice analysis method according to an embodiment of the present invention.

도 4를 참조하여, 사운드 유형 분석 결과 사람의 음성으로 판단되는 경우, 사용자 입력 음성의 분석을 통해 사용자 장치(100)의 잠금 장치를 해제할지 여부를 결정하는 방법에 대해 개시한다.Referring to FIG. 4, a method for determining whether to unlock the locking device of the user device 100 through analysis of a user input voice when sound type analysis is determined to be human voice is disclosed.

사용자 입력 음성을 텍스트화하기 위해 사용자 장치(100)는 사용자 입력 음성을 토큰 단위로 분할할 수 있다. In order to text the user input voice, the user device 100 may divide the user input voice into token units.

또한, 사용자 장치(100)는 개인별 음성 패턴 분석을 통해 어휘의 고유한 주파수 파장을 저장한 후 비교하여 토큰 별로 매칭하는 기능을 제공할 수 있다. 매칭된 마지막 결과는 캐쉬(cache)에 저장될 수 있다. In addition, the user device 100 may provide a function of matching each token by comparing and storing the unique frequency wavelength of the vocabulary through individual voice pattern analysis. The last matched result can be stored in the cache.

예를 들어, 사용자 입력 음성에서 '길'과 '동'과 같은 개별 음절에 대한 사용자 음성 특징 정보 또는 평균 사용자 음성 특징 정보를 산출할 수 있다. 이러한 사용자 음성 특징 정보는 저장되고, 추후 입력되는 음성이 사용자의 음성인지 다른 사람의 음성인지 여부를 판단하기 위해 사용될 수 있다. 또한, 추후 입력되는 음성을 텍스트화하기 위한 기계 학습을 위해 사용될 수도 있다.For example, user voice feature information or average user voice feature information for individual syllables such as'road' and'dong' may be calculated from the user input voice. The user voice feature information is stored and may be used to determine whether the voice that is subsequently input is the user's voice or the voice of another person. In addition, it may be used for machine learning to textualize the voice input later.

예를 들어, 도 4에 도시된 바와 같이, 사용자 음성의 특징 정보(400)는 아래와 같이 추후 입력되는 사용자 입력 음성을 판단하기 위해 사용될 수 있다. 6 글자의 '스,마,트,폰,오,픈' 이라는 사용자 입력 음성이 입력되는 경우, 사용자 음성의 특징 정보(400)를 기반으로 사용자 음성의 주파수 범위 밖에 있는 글자는 배제할 수 있다. 만약, '오'라는 음절이 사용자 음성의 주파수 범위 밖으로 벗어난 경우, 사용자 입력 음성은 '오'라는 음절을 제외한 '스마트폰픈'으로 인식될 수 있다. 이러한 방법을 통해서 좀 더 정확하게 사용자 입력 음성에 대한 판단을 수행할 수 있다. For example, as illustrated in FIG. 4, the feature information 400 of the user's voice may be used to determine the user's input voice that is subsequently input as follows. When a user input voice of six letters's, mart, phone, open, open' is input, a letter outside the frequency range of the user's voice may be excluded based on the feature information 400 of the user's voice. If the syllable'o' is outside the frequency range of the user's voice, the user input voice may be recognized as'smartphone open' except for the syllable'o'. Through this method, the user input voice can be more accurately determined.

사용자의 음성 특징 정보(400)는 음성의 주파수 정보뿐만 아니라 사용자 음성의 피치 정보일 수 있다. The voice feature information 400 of the user may be pitch information of the user voice as well as frequency information of the voice.

이하에서는 사용자의 음성 특징 정보(400)는 음성의 피치 정보를 기반으로 사용자 입력 음성에서 텍스트를 산출하는 방법에 대해 개시한다.Hereinafter, the voice characteristic information of the user 400 discloses a method of calculating text from the user input voice based on the pitch information of the voice.

도 5는 본 발명의 실시예에 따른 사용자 입력 음성의 분석 방법을 나타낸 순서도이다.5 is a flowchart illustrating a method for analyzing a user input voice according to an embodiment of the present invention.

도 5에서는 참조 텍스트와 비교하기 위해 사용자 음성을 기반으로 텍스트를 산출하는 방법에 대해 개시한다.5 discloses a method of calculating text based on a user's voice for comparison with reference text.

도 5를 참조하면, 사용자 입력 음성에서 피치가 검출된다(단계 S500). Referring to FIG. 5, a pitch is detected in the user input voice (step S500).

사용자 입력 음성에서 피치는 다양한 방법으로 검출될 수 있다. 예를 들어, 사용자 입력 음성의 전체 음성 신호를 짧은 구간으로 나누어 분석할 수 있다. 음성 신호에 대한 짧은 구간 분석은 음성 신호가 짧은 시구간에서는 선형 시불변 시스템이라고 가정하고 한 주기 이상의 피치 주기를 포함할 수 있는 10~30msec 정도의 고정된 분석 길이로 분석 프레임을 구성할 수 있다. The pitch in the user input voice can be detected in various ways. For example, the entire voice signal of the user input voice may be divided into short sections and analyzed. The analysis of the short section of the speech signal can be composed of a fixed analysis length of about 10 to 30 msec that can include a pitch period of one or more periods, assuming that the speech signal is a linear time-invariant system in a short period of time.

또 다른 피치 검출 방법으로 음성 신호의 유사도를 기반으로 피치를 검출할 수 있다. 음성 신호는 유성음 구간에서 준 주기적인 패턴을 유지하기 때문에 인접한 두 피치 주기의 유사한 파형을 가질 수 있다. 준 주기적인 성질을 바탕으로 인접한 두 구간을 선택하여 상호 상관도 값을 계산하고, 두 구간의 음성 신호 사이의 유사도를 조사할 수 있다. 즉, 인접한 두 구간의 길이가 피치 주기인 경우, 상호 상관도는 최대가 될 수 있다. 이외에도 다양한 방법으로 사용자 음성에서 피치를 검출할 수 있다.As another pitch detection method, the pitch can be detected based on the similarity of the voice signal. Since the voice signal maintains a quasi-periodic pattern in the voiced sound section, it may have a similar waveform of two adjacent pitch periods. Based on the quasi-periodic property, two adjacent sections can be selected to calculate a cross-correlation value, and the similarity between speech signals of two sections can be investigated. That is, when the length of two adjacent sections is a pitch period, the cross-correlation may be maximum. In addition, the pitch can be detected from the user's voice in various ways.

사용자 입력 음성에서 특징 벡터가 추출된다(단계 S520).The feature vector is extracted from the user input speech (step S520).

피치를 기반으로 사용자 입력 음성에서 특징 벡터가 추출될 수 있다. 피치에 따라 사용자 입력 음성에서 특징 벡터를 추출하기 위한 분석 프레임의 길이가 가변적으로 변할 수 있다. 따라서, 본 발명의 실시예에 따르면, 각 피치 주기마다 구성되는 분석 프레임의 길이를 산출하고, 고속 푸리에 변환 분석 크기를 결정하여 사용자 입력 음성에서 특징 벡터를 추출할 수 있다. 사용자 입력 음성에서 특징 벡터를 추출하는 방법으로 다양한 방법이 사용될 수 있다. 사용자 입력 음성에서 산출된 특징 벡터는 학습되어 입력된 소리 정보 중에서 사용자 입력 음성만을 추출하기 위해 사용될 수 있다. Feature vectors may be extracted from the user input speech based on the pitch. The length of the analysis frame for extracting the feature vector from the user input speech may vary depending on the pitch. Accordingly, according to an embodiment of the present invention, the length of an analysis frame composed of each pitch period may be calculated, and a fast Fourier transform analysis size may be determined to extract a feature vector from the user input speech. Various methods can be used as a method of extracting a feature vector from a user input speech. The feature vector calculated from the user input voice may be used to extract only the user input voice from the learned and input sound information.

사용자 음성의 특징 정보를 기반으로 사용자 입력 장치로 입력된 소리 중 사용자 입력 음성이 추출된다(단계 S540).Based on the feature information of the user voice, a user input voice is extracted from sounds input to the user input device (step S540).

사용자 음성의 특징 정보는 음성 피치 정보, 특징 벡터, 주파수 정보 등과 같은 사용자 음성인지 여부를 판단하기 위한 정보일 수 있다. 단계 S500 및 단계 S520을 기반으로 산출된 음성 피치 정보 및 특징 벡터를 기반으로 사용자 장치(100)로 입력된 소리 정보 중 텍스트로 생성할 사용자 입력 음성을 추출할 수 있다. The feature information of the user voice may be information for determining whether it is a user voice, such as voice pitch information, feature vectors, frequency information, and the like. The user input voice to be generated as text may be extracted from the sound information input to the user device 100 based on the voice pitch information and the feature vector calculated based on the steps S500 and S520.

추출된 사용자 입력 음성이 텍스트로 변환된다(단계 S560).The extracted user input voice is converted into text (step S560).

추출된 사용자 입력 음성을 텍스트로 변환하기 위해 다양한 방법을 사용할 수 있다. 본 발명의 실시예에서는 설명의 편의상 단어 레벨의 매칭 및 문장 레벨의 매칭을 기반으로 입력 음성을 텍스트로 변환하는 방법에 대해 개시한다.Various methods can be used to convert the extracted user input speech into text. For convenience of description, an embodiment of the present invention discloses a method of converting an input voice into text based on word-level matching and sentence-level matching.

도 6은 본 발명의 실시예에 따른 사용자 입력 음성을 텍스트로 변환하는 방법을 나타낸 개념도이다. 6 is a conceptual diagram illustrating a method of converting a user input voice into text according to an embodiment of the present invention.

도 6에 도시된 바와 같이, 사용자 장치(100)로 입력되는 소리 정보는 전처리 단계(600)를 통해 전처리된 후 텍스트로 분석될 수 있다. 예를 들어, 전처리 단계(600)는 전술한 피치 정보 및 특징 벡터를 기반으로 텍스트화를 수행할 사용자 입력 음성을 추출하는 과정일 수 있다. As shown in FIG. 6, sound information input to the user device 100 may be analyzed as text after being pre-processed through the pre-processing step 600. For example, the pre-processing step 600 may be a process of extracting a user input voice for texting based on the above-described pitch information and feature vectors.

전처리 단계(600)를 거친 사용자 입력 음성은 단어 레벨 또는 문장 레벨의 매칭(630)을 통해 텍스트(640)로 변경될 수 있다. 단어 레벨 및 문장 레벨의 매칭(630)을 통해 텍스트(640)로 변경하기 위해서는 음성의 신호적인 특성을 모델링하여 비교하는 음향 모델(Acoustic Model)(610)과 인식 어휘에 해당하는 단어나 음절 등의 언어적인 순서 관계를 모델링하는 언어 모델(Language Model)(620)이 사용될 수 있다.The user input voice after the pre-processing step 600 may be changed to the text 640 through word level or sentence level matching 630. In order to change to text 640 through word level and sentence level matching 630, an acoustic model 610 that models and compares the signal characteristics of speech and words or syllables corresponding to the recognized vocabulary A language model 620 that models linguistic order relationships may be used.

음향 모델(610)은 인식 대상을 특징 벡터 모델로 설정하고 이를 입력 신호의 특징 벡터와 비교하는 직접 비교 방법 또는 인식 대상의 특징 벡터를 통계적으로 처리하여 이용하는 통계 방법을 사용할 수 있다. The acoustic model 610 may use a direct comparison method of setting a recognition object as a feature vector model and comparing it with a feature vector of an input signal or a statistical method of statistically processing the feature vector of the recognition object.

직접 비교 방법은 인식 대상이 되는 단어, 음소 등의 단위를 특징 벡터 모델로 설정하고 입력 음성이 이와 얼마나 유사한가 비교하는 방법이다. 직접 비교 방법 중 하나로 벡터 양자화(Vector Quantization) 방법이 사용될 수 있다. 벡터 양자화 방법은 앞서 구한 특징 벡터 또는 계수들을 기존 모델인 코드북(Codebook)과 매칭시켜 대표값으로 부호화하고, 부호화된 값들을 서로 비교하는 방법이다. The direct comparison method is a method of setting units of words, phonemes, and the like to be recognized as a feature vector model and comparing how similar the input speech is. A vector quantization method may be used as one of the direct comparison methods. The vector quantization method is a method of matching the feature vectors or coefficients obtained above with a codebook, which is an existing model, to encode the representative values, and comparing the coded values with each other.

통계적 모델 방법은 인식 대상에 대한 단위를 상태 열(State Sequence)로 구성하고 상태 열 간의 관계를 이용하는 방법이다. 상태 열은 복잡한 모델을 표시할 수 있어 간단한 단어 인식을 제외하고는 대부분의 음성 인식이 이 기술을 이용한다. 상태 열 간의 관계를 이용하는 방법은 다시 DTW(Dynamic Time Warping)과 같이 시간적 배열 관계를 이용하는 방법, HMM(hidden markov model)과 같이 확률값, 평균, 그리고 분산을 비교 대상으로 하는 통계적 방법, 그리고 인공 신경망을 이용하는 방법이 있다.The statistical model method is a method of constructing a unit for a recognition object into a state sequence and using the relationship between the state columns. The status column can display complex models, so most speech recognition uses this technique except simple word recognition. The method of using the relationship between the status columns is a method of using a temporal array relationship such as Dynamic Time Warping (DTW), a statistical method of comparing probability values, means, and variances such as the hidden markov model (HMM), and artificial neural networks. There is a way to use it.

DTW는 같은 사람이 같은 발음을 해도 신호의 길이가 시간에 따라 달라지는 음성의 동적 특성을 고려해 기존 모델과 비교할 때 시간축에서의 차이를 보상하는 방법이다. DTW is a method of compensating for a difference in the time axis when compared with the existing model considering the dynamic characteristics of the voice whose signal length varies with time even if the same person pronounces the same.

HMM은 음성을 상태 천이 확률 및 각 상태에서의 출력 심볼의 관찰 확률을 갖는 마르코프 프로세스로 가정한 후에 학습 데이터를 통해 상태 천이 확률 및 출력 심볼의 관찰 확률을 추정하고, 추정된 모델에서 입력된 음성이 발생할 확률을 계산하는 인식 방법이다.HMM estimates the state transition probability and the observation probability of the output symbol through the training data after assuming that the speech is a Markov process having the state transition probability and the observation probability of the output symbol in each state, and the voice input from the estimated model It is a recognition method that calculates the probability of occurrence.

한편, 단어나 음절 등의 언어적인 순서 관계를 모델링하는 언어 모델(620)은 언어를 구성하는 단위들 간의 순서 관계를 음성 인식에서 얻어진 단위들에 적용함으로써 음향적인 모호성을 줄이고 인식의 오류를 줄일 수 있다. 일반적으로 대용량 어휘를 대상으로 하는 연속 음성 인식의 경우 입력 음성에 내재한 언어적인 지식에 크게 의존하기 때문에 언어 모델(620)의 형태로 언어적인 지식을 결합하는 것이 중요하다. On the other hand, the language model 620 for modeling linguistic order relationships such as words or syllables reduces acoustic ambiguity and reduces errors in recognition by applying the order relationships between units constituting languages to units obtained in speech recognition. have. In general, in the case of continuous speech recognition targeting a large vocabulary, it is important to combine linguistic knowledge in the form of a language model 620 because it relies heavily on linguistic knowledge inherent in input speech.

언어 모델(620)로는 통계적 언어 모델과 유한 상태 네트워크(Finite State Automata, FSA)에 기반한 모델이 있다. 통계적 언어모델에는 구체적으로는 Unigram, Bigram, Trigram 등 단어의 연쇄 확률이 이용될 수 있다. 유한 상태 네트워크에 기반한 경우는 인식 대상 영역이 크지 않고, 발성되는 문자의 형태가 패턴화 되어 있는 경우에 주로 사용된다. 로봇을 제어하거나 컴퓨터 상의 데스크톱에서 응용 프로그램의 수행이나 간단한 명령어 등을 수행하는 경우에 활용될 수 있다.The language model 620 includes a statistical language model and a model based on a Finite State Automata (FSA). In the statistical language model, specifically, chain probabilities of words such as Unigram, Bigram, and Trigram can be used. The case based on the finite state network is mainly used when the recognition target area is not large, and the type of the spoken character is patterned. It can be used to control robots or to perform application programs or simple commands on a desktop on a computer.

본 발명의 실시예에 따르면 추출된 사용자 입력 음성은 음향 모델 또는 언어 모델에 기반하여 단어 레벨 매칭 및 문장 레벨 매칭(630)을 거친 후 텍스트(640)로 산출될 수 있다. 산출된 텍스트(640)는 전술한 바와 같이 참조 텍스트와 비교되어 사용자 설정에 따라 토큰 단위의 매칭을 통해 사용자 장치의 잠금 해제 여부에 대해 결정할 수 있다. According to an embodiment of the present invention, the extracted user input voice may be calculated as text 640 after performing word level matching and sentence level matching 630 based on an acoustic model or a language model. The calculated text 640 may be compared with the reference text as described above to determine whether to unlock the user device through token matching according to a user setting.

도 7은 본 발명의 실시예에 따른 사용자 장치를 나타낸 개념도이다. 7 is a conceptual diagram illustrating a user device according to an embodiment of the present invention.

도 7을 참조하면, 사용자 장치는 SPU(sound process unit)를 포함할 수 있다. Referring to FIG. 7, the user device may include a sound process unit (SPU).

사용자 장치(100)에 포함되는 SPU는 사운드 유형 분석부(710), 어휘 분석부(720), 개인별 음성 패턴 분석부(730), 사용자 설정부(740) 및 프로세서(750)를 포함할 수 있다. The SPU included in the user device 100 may include a sound type analysis unit 710, a vocabulary analysis unit 720, an individual voice pattern analysis unit 730, a user setting unit 740, and a processor 750. .

사운드 유형 분석부(710)는 입력되는 소리가 사람의 음성인지 여부에 대해 판단할 수 있다. 예를 들어, 사운드 유형 분석부(710)는 입력되는 소리가 생물의 소리인지 무생물의 소리인지 여부를 판단하고, 생물인 경우, 사람인지 동물인지 여부를 판단할 수 있다. 사운드 유형 분석부(710)는 입력되는 소리의 특성(주파수, 진폭 등)을 기반으로 입력되는 소리가 사람의 음성인지 여부를 판단할 수 있다. 사운드 유형 분석부(710)는 좀 더 구체적으로 입력되는 음성이 사용자의 음성인지 여부에 대해 추가적으로 판단할 수도 있다. The sound type analysis unit 710 may determine whether the input sound is a human voice. For example, the sound type analysis unit 710 may determine whether the input sound is a living sound or an inanimate sound, and in the case of a living body, whether it is a human or an animal. The sound type analyzer 710 may determine whether the input sound is a human voice based on the characteristics (frequency, amplitude, etc.) of the input sound. The sound type analyzer 710 may further determine whether the input voice is more specifically a user's voice.

예를 들어, 사용자가 이전에 입력한 음성 또는 사용자의 전화 통화 시 음성을 기반으로 사용자 음성 정보의 특성을 추출할 수 있다. 추출된 사용자 음성 정보의 특성은 사운드 유형 분석부(710)에서 사용자의 음성인지 여부를 판별하기 위해 사용될 수 있다.For example, characteristics of user voice information may be extracted based on voice previously input by the user or voice when the user makes a phone call. The characteristics of the extracted user voice information may be used by the sound type analysis unit 710 to determine whether it is the user's voice.

어휘 분석부(720)는 입력된 사용자의 음성을 특정한 단위로 분류할 수 있다. 예를 들어, 어휘 분석부(720)는 토큰 단위로 입력된 사용자 음성을 분리할 수 있다.The lexical analysis unit 720 may classify the input user's voice into a specific unit. For example, the vocabulary analysis unit 720 may separate the user voice input in units of tokens.

개인별 음성 패턴 분석부(730)는 음성을 텍스트로 변경하고, 변경된 텍스트를 토큰 단위(예를 들어, 음절, 어절) 별로 매칭하여 유사성을 추출할 수 있다. 사용자 음성은 도 5 및 도 6에서 전술한 기술을 기반으로 텍스트로 변경될 수 있다. 개인별 음성 패턴 분석부(730)는 음성을 텍스트로 변경 시 사용자 음성의 특징을 고려하여 유효한 범위 내의 음성만을 텍스트로 변경할 수 있다. 예를 들어, 기존에 입력된 사용자의 음성 특성을 고려하여 입력되는 음성 중 사용자의 음성 특성을 벋어나는 경우, 해당 정보는 제외할 수 있다.The voice pattern analysis unit 730 for each individual may change the voice to text, and match the changed text for each token unit (eg, syllables and words) to extract similarity. The user voice may be changed to text based on the techniques described above in FIGS. 5 and 6. The voice pattern analysis unit 730 for each individual may change only voices within an effective range into texts in consideration of characteristics of the user's voice when the voice is changed to text. For example, if the user's voice characteristic is out of the input voice in consideration of the voice characteristic of the previously input user, the corresponding information may be excluded.

또한, 개인별 음성 패턴 분석부(730)는 텍스트로 분석된 사용자 음성 신호와 참조 텍스트를 사용자 설정부에서 설정된 사용자 설정 파라메터(240)를 기반으로 비교할 수 있다. 분석된 결과가 사용자 설정 파라메터(240)를 만족하는지 여부에 대해 판단할 수 있다. 예를 들어, 사용자 설정 파라메터는 참조 텍스트와 텍스트로 변화된 사용자 음성 사이의 동일한 토큰의 개수, 매칭율, 인식률 등 일 수 있다. In addition, the individual voice pattern analysis unit 730 may compare the user voice signal analyzed with text and the reference text based on the user setting parameter 240 set in the user setting unit. It may be determined whether the analyzed result satisfies the user setting parameter 240. For example, the user setting parameter may be the same number of tokens, matching rate, recognition rate, etc. between the reference text and the user's voice changed to text.

사용자 설정부(740)는 텍스트로 변환한 사용자 음성과 참조 텍스트를 비교하여 입력된 음성으로 사용자 장치의 잠금 해제가 가능하게 하기 위한 사용자 설정 파라메터를 결정할 수 있다. 예를 들어, 사용자 설정 파라메터는 참조 텍스트와 텍스트로 변화된 사용자 음성을 비교하기 위한 토큰의 개수, 매칭율, 인식률일 수 있다.The user setting unit 740 may compare a user voice converted to text with a reference text and determine a user setting parameter for unlocking the user device with the input voice. For example, the user setting parameter may be a number of tokens, a matching rate, and a recognition rate for comparing the reference text and the user's voice changed to text.

프로세서(750)는 사운드 유형 분석부(710), 어휘 분석부(730720), 개인별 음성 패턴 분석부(750730), 사용자 설정부(740)의 동작을 제어하기 위해 구현될 수 있다. 또한, 프로세서(750)는 개인별 음성 패턴 분석부의 분석 결과 입력된 소리 신호가 사용자 장치의 잠금 상태를 해제할 수 있는 경우, 사용자 장치의 잠금 상태를 해제하도록 구현될 수 있다. 반대로 프로세서(750)는 개인별 음성 패턴 분석부(750730)의 분석 결과 입력된 소리 신호가 사용자 장치(100)의 잠금 상태를 해제할 수 없는 경우, 사용자 장치(100)의 잠금 상태를 해제하지 않고 추가로 다시 한번 사용자 음성을 입력할 것을 명령하도록 구현될 수 있다.The processor 750 may be implemented to control operations of the sound type analysis unit 710, the vocabulary analysis unit 730720, the individual voice pattern analysis unit 750730, and the user setting unit 740. In addition, the processor 750 may be implemented to release the locked state of the user device when the input sound signal can release the locked state of the user device as a result of analysis of the individual voice pattern analysis unit. Conversely, the processor 750 adds the sound signal input as a result of analysis by the individual voice pattern analysis unit 750730 without unlocking the user device 100 when the input sound signal cannot be unlocked. It can be implemented to command the user to input the voice once again.

이러한 생체 인식 기술인 사람의 음성을 인식하는 방법을 사용하여 기존 키 입력 등보다 편리한 사용자 친화적 환경을 제공할 뿐 아니라 보안성을 높일 수 있다. 또한, 음성 기반의 인터페이스를 사용함으로써 아동과 장애인에게도 도움이 된다. 또한, 사용자 설정 파라메터(240)의 설정값에 따라 인식 수준을 사용자가 결정하여 탄력적으로, 상황에 맞게 사용할 수 있다. By using the method of recognizing the human voice, which is the biometric technology, it is possible to provide a more convenient user-friendly environment such as existing key input and to increase security. It also helps children and people with disabilities by using a voice-based interface. In addition, the user can determine the recognition level according to the setting value of the user setting parameter 240 and use it flexibly and according to the situation.

본 발명의 실시예에 따른 음성 인식 방법은 다양한 장치의 잠금 해제를 위해 사용될 수 있을 뿐만 아니라, 잠금 장치가 아닌 다른 서비스에서 음성 인식 기반의 본인 인증 및 정보 입력을 위해 사용될 수 있다.The voice recognition method according to an embodiment of the present invention can be used not only for unlocking various devices, but also for voice recognition based personal authentication and information input in services other than the lock device.

본 발명의 실시예에 따른 음성에 기반한 사용자 장치의 잠금 해제 방법은 컴퓨터 프로그램으로 작성 가능하며, 컴퓨터 프로그램을 구성하는 코드들 및 코드 세그먼트들은 당해 분야의 컴퓨터 프로그래머에 의하여 용이하게 추론될 수 있다. 또한, 해당 컴퓨터 프로그램은 컴퓨터가 읽을 수 있는 정보저장매체(computer readable media)에 저장되고, 컴퓨터나 본 발명의 실시예에 따른 사용자 장치 등에 의하여 읽혀지고 실행됨으로써 사용자 장치의 잠금 상태 해제 방법을 구현할 수 있다. A method for unlocking a user device based on voice according to an embodiment of the present invention can be written in a computer program, and codes and code segments constituting the computer program can be easily deduced by a computer programmer in the art. In addition, the computer program is stored in a computer-readable information storage medium (computer readable media), and is read and executed by a computer or a user device according to an embodiment of the present invention to implement a method for unlocking a user device. have.

정보저장매체는 자기 기록매체, 광 기록매체 및 캐리어 웨이브 매체를 포함한다. 본 발명의 실시예에 따른 사용자 장치의 잠금 상태 해제 방법을 구현하는 컴퓨터 프로그램은 사용자 장치 등의 내장 메모리에 저장 및 설치될 수 있다. 또는, 본 발명의 실시예에 따른 사용자 장치의 잠금 상태 해제 방법을 구현하는 컴퓨터 프로그램을 저장 및 설치한 스마트 카드 등의 외장 메모리가 인터페이스를 통해 단말 등에 장착될 수도 있다.The information storage medium includes a magnetic recording medium, an optical recording medium and a carrier wave medium. A computer program that implements a method for releasing a locked state of a user device according to an embodiment of the present invention may be stored and installed in an internal memory such as a user device. Alternatively, an external memory such as a smart card that stores and installs a computer program that implements a method for releasing a locked state of a user device according to an embodiment of the present invention may be mounted on a terminal or the like through an interface.

전술된 내용은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.The above-described contents may be modified and modified without departing from the essential characteristics of the present invention by those skilled in the art to which the present invention pertains. Therefore, the embodiments disclosed in the present invention are not intended to limit the technical spirit of the present invention, but to explain, and the scope of the technical spirit of the present invention is not limited by these embodiments. The scope of protection of the present invention should be interpreted by the claims below, and all technical spirits within the scope equivalent thereto should be interpreted as being included in the scope of the present invention.

본 발명은 사용자 장치로 입력되는 소리 정보가 사람의 음성인지 여부를 판단하고 소리 정보가 사람의 음성인 경우, 소리 정보를 기반으로 변환 텍스트를 생성하고 변환 텍스트와 참조 텍스트를 비교하여 사용자 장치의 잠금을 해제할지 여부를 결정할 수 있다. 이러한 방법은 기존 키 입력 등보다 편리한 사용자 친화적 환경을 제공하고 사용자 장치의 보안성을 높이기 위해 사용자 장치에 활용되어질 수 있다. 또한, 본 발명은 사용자 장치의 잠금 해제에 음성 기반의 인터페이스를 사용하고 있으므로, 아동과 장애인이 사용하는 사용자 장치에 적용될 수 있다. 나아가, 사용자 설정 파라메터의 설정값에 따라 인식 수준을 사용자가 결정하여 사용자 장치의 잠금 해제 여부를 상황에 맞게 적응적으로 설정할 수 있도록 사용자 장치에 적용될 수 있다.The present invention determines whether the sound information input to the user device is human voice, and when the sound information is human voice, generates converted text based on the sound information and compares the converted text with the reference text to lock the user device You can decide whether to release it. This method can be utilized in a user device to provide a more convenient user-friendly environment such as existing key input and to increase the security of the user device. In addition, since the present invention uses a voice-based interface for unlocking a user device, it can be applied to a user device used by children and people with disabilities. Furthermore, the recognition level may be applied to the user device to adaptively set whether or not the user device is unlocked by determining the recognition level according to the setting value of the user setting parameter.

100: 사용자 장치 110: 음성 신호
120: 잠금 상태 130: 해제 상태
200: 사운드 유형 분석 210: 사용자 입력 음성
220: 사용자 음성 분석 230: 참조 텍스트
240: 사용자 설정 파라메터 400: 사용자 음성의 특징 정보
600: 전처리 단계 610: 음향 모델
620: 언어 모델 630: 단어 레벨 매칭 및 문장 레벨 매칭
640: 텍스트 700: SPU
710: 사운드 유형 분석부 720: 어휘 분석부
730: 개인별 음성 패턴 분석부 740: 사용자 설정부
750: 프로세서
100: user device 110: voice signal
120: locked state 130: unlocked state
200: sound type analysis 210: user input voice
220: user voice analysis 230: reference text
240: User setting parameter 400: User voice feature information
600: pre-processing step 610: acoustic model
620: Language model 630: Word level matching and sentence level matching
640: text 700: SPU
710: sound type analysis unit 720: vocabulary analysis unit
730: personal voice pattern analysis unit 740: user setting unit
750: processor

Claims (11)

사용자 장치로 입력되는 소리 정보가 사람의 음성인지 여부를 판단하도록 구현되는 사운드 유형 분석부;
상기 소리 정보가 상기 사람의 음성인 경우, 상기 소리 정보를 기반으로 변환 텍스트를 생성하고, 상기 변환 텍스트와 상기 사용자 장치의 잠금 장치를 해제할지 여부를 결정하기 위한 판단 기준이 되는 텍스트 정보인 참조 텍스트를 비교하여 산출된 매칭 결과와 미리 설정한 사용자 설정 파라메터를 기반으로 상기 사용자 장치의 잠금을 해제할지 여부를 결정하도록 구현되는 개인별 음성 패턴 분석부; 및
상기 매칭 결과가 상기 사용자 설정 파라메터의 임계값을 만족하는 경우, 상기 사용자 장치의 잠금을 해제하도록 구현되는 프로세서
를 포함하며,
상기 사운드 유형 분석부는 상기 소리 정보에 패턴이 존재하지 않고 사람의 음성 주파수 대역인 경우 사람의 음성으로 판단하고, 사람의 음성이 아닌 경우 상기 소리 정보를 무시하여 상기 사용자 장치의 잠금 해제가 이루어지지 않도록 하며,
상기 매칭 결과는 상기 변환 텍스트와 상기 참조 텍스트 사이에 일치하는 토큰의 수에 대한 정보 및 매칭율에 대한 정보를 포함하고,
상기 사용자 설정 파라메터는 상기 사용자 장치의 잠금을 해제할지 여부를 결정하기 위해 설정된 상기 토큰의 수에 대한 임계값 정보 및 상기 매칭율에 대한 임계값 정보인 것을 특징으로 하는 음성에 기반한 잠금 해제를 수행하는 사용자 장치.
A sound type analyzer configured to determine whether sound information input to the user device is a human voice;
When the sound information is the voice of the person, reference text that is text information that is a criterion for determining whether to generate a converted text based on the sound information and determine whether to unlock the locked device of the user device with the converted text A voice pattern analysis unit that is implemented to determine whether to unlock the user device based on the matching result calculated by comparing and a preset user setting parameter; And
A processor implemented to unlock the user device when the matching result satisfies the threshold of the user setting parameter
It includes,
The sound type analysis unit determines that the voice information is a human voice when there is no pattern in the sound information and the human voice frequency band, and if the voice information is not a human voice, the sound information is ignored to unlock the user device. And
The matching result includes information on the number of tokens matched between the converted text and the reference text and information on a matching rate,
The user setting parameter is threshold information for the number of tokens set to determine whether to unlock the user device and threshold information for the matching rate. User device.
삭제delete 제 1항에 있어서,
상기 일치하는 토큰의 수는 상기 변환 텍스트와 상기 참조 텍스트에 포함된 단어 별로 매핑을 수행하여 매핑되는 단어의 개수에 기반하여 산출되고,
일치율은 상기 매핑되는 단어에서 일치하는 음절의 개수에 기반하여 산출되는 것을 특징으로 하는 음성에 기반한 잠금 해제를 수행하는 사용자 장치.
According to claim 1,
The number of matching tokens is calculated based on the number of words mapped by performing mapping for each word included in the converted text and the reference text,
The matching rate is calculated based on the number of syllables that match in the mapped word, and the user device performs unlocking based on speech.
삭제delete 제 1항에 있어서,
상기 개인별 음성 패턴 분석부는 상기 소리 정보를 토큰 단위로 분할하고, 상기 토큰 단위로 분할한 소리 정보를 사용자 음성의 특징 정보를 기반으로 전처리하고, 상기 전처리된 상기 소리 정보를 상기 텍스트로 변환하여 변환 텍스트를 생성하도록 구현되며,
상기 사용자 음성의 특징 정보는 주파수 정보인 것을 특징으로 하는 음성에 기반한 잠금 해제를 수행하는 사용자 장치.
According to claim 1,
The individual voice pattern analysis unit divides the sound information into token units, pre-processes the sound information divided into token units based on feature information of the user's voice, and converts the pre-processed sound information into the text to convert text Is implemented to generate
A user device for unlocking based on voice, characterized in that the feature information of the user voice is frequency information.
삭제delete 삭제delete 사용자 장치로 입력되는 소리 정보가 사람의 음성인지 여부를 판단하는 단계;
상기 소리 정보가 상기 사람의 음성인 경우, 상기 소리 정보를 기반으로 변환 텍스트를 생성하는 단계;
상기 변환 텍스트와 상기 사용자 장치의 잠금 장치를 해제할지 여부를 결정하기 위한 판단 기준이 되는 텍스트 정보인 참조 텍스트를 비교하여 산출된 매칭 결과와 사용자 설정 파라메터를 기반으로 상기 사용자 장치의 잠금을 해제할지 여부를 결정하는 단계; 및
상기 매칭 결과가 상기 사용자 설정 파라메터의 임계값을 만족하는 경우, 상기 사용자 장치의 잠금을 해제하는 단계를 포함하며,
상기 사람의 음성인지 여부를 판단하는 단계는 상기 소리 정보에 패턴이 존재하지 않고 사람의 음성 주파수 대역인 경우 사람의 음성으로 판단하고, 상기 소리 정보가 사람의 음성이 아닌 경우 상기 소리 정보를 무시하여 상기 사용자 장치의 잠금 해제가 이루어지지 않도록 하는 단계를 더 포함하고,
상기 매칭 결과는 상기 변환 텍스트와 상기 참조 텍스트 사이에 일치하는 토큰의 수에 대한 정보 및 매칭율에 대한 정보를 포함하고,
상기 사용자 설정 파라메터는 상기 사용자 장치의 잠금을 해제할지 여부를 결정하기 위해 설정된 상기 토큰의 수에 대한 임계값 정보 및 상기 매칭율에 대한 임계값 정보인 것을 특징으로 하는 사용자 장치의 잠금 해제 방법.
Determining whether sound information input to a user device is a human voice;
If the sound information is the voice of the person, generating converted text based on the sound information;
Whether to unlock the user device based on the matching result calculated by comparing the converted text and the reference text, which is text information that is a judgment criterion for determining whether to unlock the user device, and a user setting parameter. Determining; And
And when the matching result satisfies the threshold of the user setting parameter, unlocking the user device.
The step of determining whether the voice is the human voice is determined by the voice of the human when the pattern does not exist in the voice information and the voice frequency band of the human voice is ignored. Further comprising the step of preventing the user device from being unlocked,
The matching result includes information on the number of tokens matched between the converted text and the reference text and information on a matching rate,
The user setting parameter is threshold information for the number of tokens set to determine whether or not to unlock the user device, and threshold information for the matching rate.
삭제delete 삭제delete 삭제delete
KR1020130115695A 2013-09-27 2013-09-27 Method for unlocking user equipment based on voice, user equipment releasing lock based on voice and computer readable medium having computer program recorded therefor KR102140770B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020130115695A KR102140770B1 (en) 2013-09-27 2013-09-27 Method for unlocking user equipment based on voice, user equipment releasing lock based on voice and computer readable medium having computer program recorded therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130115695A KR102140770B1 (en) 2013-09-27 2013-09-27 Method for unlocking user equipment based on voice, user equipment releasing lock based on voice and computer readable medium having computer program recorded therefor

Publications (2)

Publication Number Publication Date
KR20150035312A KR20150035312A (en) 2015-04-06
KR102140770B1 true KR102140770B1 (en) 2020-08-03

Family

ID=53030316

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130115695A KR102140770B1 (en) 2013-09-27 2013-09-27 Method for unlocking user equipment based on voice, user equipment releasing lock based on voice and computer readable medium having computer program recorded therefor

Country Status (1)

Country Link
KR (1) KR102140770B1 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105096121B (en) 2015-06-25 2017-07-25 百度在线网络技术(北京)有限公司 voiceprint authentication method and device
WO2020141696A1 (en) * 2019-01-04 2020-07-09 주식회사 딥엑스 Trained model creation method for performing specific function for electronic device, learning model for performing same function, exclusive chip and operation method for same, and electronic device and system
KR102227512B1 (en) * 2019-01-04 2021-03-12 주식회사 딥엑스 Learned model generating method for device wakeup, learned model generated for the device wakeup, wakeup exclusive use chip for the device, wakeup exclusive use chip operating method for the device, device having a wakeup function and device wakeup system
KR20220095988A (en) * 2020-12-30 2022-07-07 삼성전자주식회사 Apparatus and method for detecting a voice attack against the voice assistant service

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020057262A (en) 2000-12-30 2002-07-11 송문섭 Method for locking mobile station using voice recognition
US20060293898A1 (en) * 2005-06-22 2006-12-28 Microsoft Corporation Speech recognition system for secure information
KR101771013B1 (en) * 2011-06-09 2017-08-24 삼성전자 주식회사 Information providing method and mobile telecommunication terminal therefor

Also Published As

Publication number Publication date
KR20150035312A (en) 2015-04-06

Similar Documents

Publication Publication Date Title
US10699699B2 (en) Constructing speech decoding network for numeric speech recognition
O’Shaughnessy Automatic speech recognition: History, methods and challenges
EP1701338B1 (en) Speech recognition method
JP6284462B2 (en) Speech recognition method and speech recognition apparatus
CN105210147B (en) Method, apparatus and computer-readable recording medium for improving at least one semantic unit set
KR102607373B1 (en) Apparatus and method for recognizing emotion in speech
CN112581963B (en) Voice intention recognition method and system
Razak et al. Quranic verse recitation recognition module for support in j-QAF learning: A review
Nasereddin et al. Classification techniques for automatic speech recognition (ASR) algorithms used with real time speech translation
KR102140770B1 (en) Method for unlocking user equipment based on voice, user equipment releasing lock based on voice and computer readable medium having computer program recorded therefor
Biagetti et al. Speaker identification in noisy conditions using short sequences of speech frames
Smit et al. Continuous speech recognition with sparse coding
CN107251137B (en) Method, apparatus and computer-readable recording medium for improving collection of at least one semantic unit using voice
Ananthakrishna et al. Kannada word recognition system using HTK
Alex et al. Variational autoencoder for prosody‐based speaker recognition
Sharma et al. Soft-Computational Techniques and Spectro-Temporal Features for Telephonic Speech Recognition: an overview and review of current state of the art
Selvan et al. Speaker recognition system for security applications
Kurian et al. Automated Transcription System for MalayalamLanguage
Khalifa et al. Statistical modeling for speech recognition
KR20210054001A (en) Method and apparatus for providing voice recognition service
Ibiyemi et al. Automatic speech recognition for telephone voice dialling in yorùbá
CN115424604B (en) Training method of voice synthesis model based on countermeasure generation network
KR20180057315A (en) System and method for classifying spontaneous speech
KR100776730B1 (en) Speaker-independent variable-word keyword spotting system including garbage modeling unit using gaussian mixture model and method thereof
KR100677224B1 (en) Speech recognition method using anti-word model

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant