KR102140770B1 - Method for unlocking user equipment based on voice, user equipment releasing lock based on voice and computer readable medium having computer program recorded therefor - Google Patents
Method for unlocking user equipment based on voice, user equipment releasing lock based on voice and computer readable medium having computer program recorded therefor Download PDFInfo
- Publication number
- KR102140770B1 KR102140770B1 KR1020130115695A KR20130115695A KR102140770B1 KR 102140770 B1 KR102140770 B1 KR 102140770B1 KR 1020130115695 A KR1020130115695 A KR 1020130115695A KR 20130115695 A KR20130115695 A KR 20130115695A KR 102140770 B1 KR102140770 B1 KR 102140770B1
- Authority
- KR
- South Korea
- Prior art keywords
- voice
- user
- information
- user device
- text
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000004590 computer program Methods 0.000 title abstract description 14
- 238000004458 analytical method Methods 0.000 claims description 50
- 230000008569 process Effects 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 2
- 239000013598 vector Substances 0.000 description 18
- 238000010586 diagram Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 10
- 238000007781 pre-processing Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 238000013139 quantization Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/66—Substation equipment, e.g. for use by subscribers with means for preventing unauthorised or fraudulent calling
- H04M1/667—Preventing unauthorised calls from a telephone set
- H04M1/67—Preventing unauthorised calls from a telephone set by electronic means
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephone Function (AREA)
Abstract
본 발명은 음성에 기반한 잠금 해제를 수행하는 사용자 장치, 음성에 기반한 사용자 장치의 잠금 해제 방법 및 컴퓨터 프로그램이 기록된 기록매체를 개시한다. 즉, 본 발명은 사용자 장치로 입력되는 소리 정보가 사람의 음성인지 여부를 판단하고 소리 정보가 사람의 음성인 경우, 소리 정보를 기반으로 변환 텍스트를 생성하고 변환 텍스트와 참조 텍스트를 비교하여 사용자 장치의 잠금을 해제할지 여부를 결정할 수 있다. 이러한 방법을 사용함으로써 기존 키 입력 등보다 편리한 사용자 친화적 환경을 제공할 뿐 아니라 보안성을 높일 수 있다.The present invention discloses a user device that performs voice-based unlocking, a method for unlocking a voice-based user device, and a recording medium on which a computer program is recorded. That is, the present invention determines whether the sound information input to the user device is a human voice, and when the sound information is a human voice, generates converted text based on the sound information and compares the converted text and the reference text to the user device You can decide whether to unlock or not. By using this method, it is possible to not only provide a more convenient user-friendly environment such as existing key input, but also increase security.
Description
본 발명은 음성에 기반한 잠금 해제를 수행하는 사용자 장치, 음성에 기반한 사용자 장치의 잠금 해제 방법 및 컴퓨터 프로그램이 기록된 기록매체에 관한 것으로, 특히 사용자 장치에 입력되는 사용자의 음성을 기반으로 잠금을 해제하는 사용자 장치, 사용자 음성을 기반으로 사용자 장치의 잠금을 해제하는 방법 및 컴퓨터 프로그램이 기록된 기록매체에 관한 것이다.The present invention relates to a user device performing unlocking based on voice, a method for unlocking a user device based on voice, and a recording medium on which a computer program is recorded, in particular, unlocking based on the voice of a user input to the user device The present invention relates to a user device, a method for unlocking a user device based on a user voice, and a recording medium on which a computer program is recorded.
최근 들어 자동 통역 시스템 및 음성인식 전화기, 음성인식 컴퓨터, 그리고 음성인식 자동차 등의 제품이 등장하여 음성인식에 대한 일반인들의 관심이 높아지고 있다. 공상 과학 영화에서는 음성인식이 미래 사회의 필수적인 기술로 항상 등장한다. 음성은 대부분의 사람들에게 있어서 가장 자연스럽고 효과적인 정보 교환 수단이기 때문에 음성인식 기술은 활성화된다면 일상 생활에서 보다 편리함을 줄 수 있는 기술이 될 수 있다. 음성인식 기술의 목표는 음성 정보를 받을 수 있고 받은 정보에 따른 적절한 동작 및 대화를 할 수 있는 기계의 구현이다. 음성인식 연구는 인간과 자연스럽게 대화하는 기계 구현을 목표로 오랜 시간 동안 진행되어 왔다. 아직도 임의의 화자의 음성을 주어진 환경하에서 자연스럽게 인식할 수 있는 음성 인식 기술은 완성되지 못했지만 음성인식 기술은 현재에도 다양한 응용 분야에 적용되고 있다.2. Description of the Related Art Recently, products such as an automatic interpretation system, a voice recognition telephone, a voice recognition computer, and a voice recognition vehicle have emerged, and the public's interest in voice recognition is increasing. In science fiction films, voice recognition always appears as an essential skill in the future society. Since voice is the most natural and effective means of information exchange for most people, voice recognition technology can be a technology that can provide more convenience in everyday life if activated. The goal of speech recognition technology is to implement a machine capable of receiving speech information and performing appropriate actions and conversations according to the received information. Speech recognition research has been conducted for a long time with the goal of realizing a machine that naturally communicates with humans. Although speech recognition technology that can naturally recognize the voice of an arbitrary speaker under a given environment has not been completed, speech recognition technology is still being applied to various applications.
예를 들어, 최근 스마트폰 기술의 발전으로 음성을 기반으로 한 서비스들이 선보이고 있다. 이러한 음성 기반의 서비스를 제공하기 위해서는 정확한 음성 인식 기술이 필요하고 서비스의 성격 및 사용자 설정에 따라 음성 인식 기술을 적응적으로 활용하기 위한 방법이 필요하다.For example, recent voice-based services have been introduced due to the development of smart phone technology. In order to provide such a voice-based service, an accurate voice recognition technology is required, and a method for adaptively utilizing the voice recognition technology according to the nature and user setting of the service is required.
본 발명의 목적은 사용자 장치에 대한 제3자의 무단 사용을 방지하기 위해 사용자의 음성 신호를 기반으로 사용자 장치의 잠금 상태를 해제하는 사용자 장치, 사용자 장치의 잠금 해제 방법 및 컴퓨터 프로그램이 기록된 기록매체를 제공하는 데 있다. An object of the present invention is to prevent a third party from unauthorized use of a user device based on a user's voice signal, a user device that unlocks a user device, a method for unlocking the user device, and a recording medium in which a computer program is recorded To provide.
본 발명의 다른 목적은 사용자 장치의 잠금 해제의 편의성을 향상시킬 수 있도록 잠금 해제를 위해 음성 기반의 인터페이스를 활용하는 사용자 장치, 사용자 장치의 잠금 해제 방법 및 컴퓨터 프로그램이 기록된 기록매체를 제공하는 데 있다.Another object of the present invention is to provide a recording medium in which a user device that utilizes a voice-based interface for unlocking, a user device unlocking method, and a computer program are recorded to improve the convenience of unlocking the user device. have.
본 발명의 또 다른 목적은 인식 수준을 결정하는 파라메터 값이 사용자에 의해 설정되도록 하여, 음성 신호에 기반한 사용자 장치의 잠금 해제 여부를 상황에 맞게 적응적으로 설정이 가능하도록 한 사용자 장치, 사용자 장치의 잠금 해제 방법 및 컴퓨터 프로그램이 기록된 기록매체를 제공하는 데 있다.Another object of the present invention is to enable the user device and the user device to adaptively set whether to unlock the user device based on the voice signal by setting the parameter value for determining the recognition level by the user. It is to provide a recording medium in which a method of unlocking and a computer program are recorded.
본 발명의 실시예에 따른 음성에 기반한 잠금 해제를 수행하는 사용자 장치는 사용자 장치로 입력되는 소리 정보가 사람의 음성인지 여부를 판단하도록 구현되는 사운드 유형 분석부; 소리 정보가 사람의 음성인 경우, 소리 정보를 기반으로 변환 텍스트를 생성하고 변환 텍스트와 사용자 장치의 잠금 장치를 해제할지 여부를 결정하기 위한 판단 기준이 되는 텍스트 정보인 참조 텍스트를 비교하여 산출된 매칭 결과와 미리 설정한 사용자 설정 파라메터를 기반으로 사용자 장치의 잠금을 해제할지 여부를 결정하도록 구현되는 개인별 음성 패턴 분석부; 및 매칭 결과가 사용자 설정 파라메터의 임계값을 만족하는 경우, 사용자 장치의 잠금을 해제하도록 구현되는 프로세서를 포함할 수 있다. A user device performing unlocking based on voice according to an embodiment of the present invention includes a sound type analyzer configured to determine whether sound information input to a user device is a human voice; If the sound information is a human voice, the match is calculated by generating converted text based on the sound information and comparing the converted text with reference text, which is text information that is a criterion for determining whether to unlock the user device. An individual voice pattern analysis unit implemented to determine whether to unlock the user device based on a result and a preset user setting parameter; And a processor implemented to unlock the user device when the matching result satisfies the threshold of the user setting parameter.
본 발명과 관련된 일 예로서 매칭 결과는 변환 텍스트와 참조 텍스트 사이에 일치하는 토큰의 수에 대한 정보 및 일치율에 대한 정보를 포함하고, 사용자 설정 파라메터는 사용자 장치의 잠금을 해제할지 여부를 결정하기 위해 설정된 토큰의 수에 대한 임계값 정보 및 일치율에 대한 임계값 정보일 수 있다.As an example related to the present invention, the matching result includes information on the number of tokens matched between the converted text and the reference text, and information on the matching rate, and the user setting parameter is used to determine whether to unlock the user device. It may be threshold information for a set number of tokens and threshold information for a match rate.
본 발명과 관련된 일 예로서 일치하는 토큰의 수는 변환 텍스트와 참조 텍스트에 포함된 단어 별로 매핑을 수행하여 매핑되는 단어의 개수에 기반하여 산출되고, 일치율은 매핑되는 단어에서 일치하는 음절의 개수에 기반하여 산출될 수 있다.As an example related to the present invention, the number of matching tokens is calculated based on the number of words mapped by performing mapping for each word included in the converted text and the reference text, and the matching rate is based on the number of syllables matching in the mapped word. It can be calculated based on.
본 발명과 관련된 일 예로서 음성에 기반한 잠금 해제를 수행하는 사용자 장치는 사용자 설정 파라메터를 설정하기 위해 구현되는 사용자 설정부를 더 포함하고, 사용자 설정 파라메터는 사용자 장치의 보안 요구 정도에 따라 다르게 설정될 수 있다. As an example related to the present invention, the user device performing unlocking based on voice further includes a user setting unit implemented to set user setting parameters, and the user setting parameters may be set differently according to the degree of security requirements of the user device. have.
본 발명과 관련된 일 예로서 개인별 음성 패턴 분석부는 소리 정보를 토큰 단위로 분할하고, 토큰 단위로 분할한 소리 정보를 사용자 음성의 특징 정보를 기반으로 전처리하고, 전처리된 상기 소리 정보를 텍스트로 변환하여 변환 텍스트를 생성하도록 구현될 수 있으며, 사용자 음성의 특징 정보는 주파수 정보일 수 있다. As an example related to the present invention, an individual voice pattern analysis unit divides sound information into token units, pre-processes sound information divided into token units based on feature information of the user's voice, and converts the pre-processed sound information into text. It may be implemented to generate converted text, and the feature information of the user voice may be frequency information.
본 발명과 관련된 일 예로서 변환 텍스트는 사용자 설정 파라메터의 임계값을 만족하는 경우, 참조 텍스트로 설정되어 저장될 수 있다. As an example related to the present invention, the converted text may be set and stored as a reference text when a threshold value of a user-set parameter is satisfied.
본 발명과 관련된 일 예로서 사운드 유형 분석부는 소리 정보에 패턴이 존재하지 않고 사람의 음성 주파수 대역인 경우, 사람의 음성으로 판단하도록 구현될 수 있다.As an example related to the present invention, the sound type analysis unit may be implemented to determine a human voice when a pattern does not exist in the sound information and is a human voice frequency band.
본 발명의 실시예에 따른 사용자 음성 기반 사용자 장치의 잠금 해제 방법은 사용자 장치로 입력되는 소리 정보가 사람의 음성인지 여부를 판단하는 단계; 소리 정보가 상기 사람의 음성인 경우, 소리 정보를 기반으로 변환 텍스트를 생성하는 단계; 변환 텍스트와 사용자 장치의 잠금 장치를 해제할지 여부를 결정하기 위한 판단 기준이 되는 텍스트 정보인 참조 텍스트를 비교하여 산출된 매칭 결과와 사용자 설정 파라메터를 기반으로 사용자 장치의 잠금을 해제할지 여부를 결정하는 단계; 및 매칭 결과가 사용자 설정 파라메터의 임계값을 만족하는 경우, 사용자 장치의 잠금을 해제하는 단계를 포함할 수 있다. According to an embodiment of the present invention, a method for unlocking a user voice-based user device includes determining whether sound information input to the user device is human voice; If the sound information is the human voice, generating converted text based on the sound information; Determining whether to unlock the user device based on the matching result calculated by comparing the converted text and the reference text, which is text information that is a judgment criterion for determining whether to unlock the user device, or a user setting parameter. step; And when the matching result satisfies the threshold of the user setting parameter, unlocking the user device.
본 발명과 관련된 일 예로서 매칭 결과는 변환 텍스트와 참조 텍스트 사이에 일치하는 토큰의 수에 대한 정보 및 일치율에 대한 정보를 포함하고 사용자 설정 파라메터는 사용자 장치의 잠금을 해제할지 여부를 결정하기 위해 설정된 토큰의 수에 대한 임계값 정보 및 일치율에 대한 임계값 정보일 수 있다. As an example related to the present invention, the matching result includes information on the number of tokens matched between the converted text and the reference text and information on the matching rate, and the user setting parameter is set to determine whether to unlock the user device. It may be threshold information on the number of tokens and threshold information on the match rate.
본 발명과 관련된 일 예로서 소리 정보가 사람의 음성인 경우, 소리 정보를 기반으로 변환 텍스트를 생성하는 단계는, 소리 정보에서 피치 정보를 검출하는 단계; 피치 정보를 기반으로 소리 정보에서 특징 벡터를 산출하는 단계; 특징 벡터를 기반으로 소리 정보 중 변환 텍스트로 변환할 소리 정보를 추출하는 단계; 및 어절 및 음절의 언어적인 순서 관계를 기반으로 모델링한 언어 모델을 기반으로 추출된 소리 정보를 변환 텍스트로 생성하는 단계를 포함할 수 있다.As an example related to the present invention, when the sound information is a human voice, generating converted text based on the sound information includes: detecting pitch information from the sound information; Calculating a feature vector from sound information based on the pitch information; Extracting sound information to be converted into converted text among sound information based on the feature vector; And generating extracted sound information as converted text based on a language model modeled based on a linguistic order relationship of words and syllables.
본 발명의 실시예에 따른 컴퓨터 프로그램이 기록된 기록매체에는 상술한 실시예에 따른 방법을 수행하는 컴퓨터 프로그램이 저장될 수 있다.A computer program for performing the method according to the above-described embodiment may be stored in a recording medium on which the computer program according to an embodiment of the present invention is recorded.
본 발명은 사람의 음성을 인식하는 방법을 사용자 장치의 잠금 상태를 해제하기 위해 사용하여 기존 키 입력에 기반한 잠금 해제 방법보다 사용자 친화적 환경을 제공할 뿐 아니라 보안성을 높일 수 있는 효과가 있다. The present invention uses a method of recognizing a human voice to unlock a user device, thereby providing a user-friendly environment as compared to a method of unlocking based on an existing key input and enhancing security.
또한, 본 발명은 음성 기반의 인터페이스를 사용함으로써 아동과 장애인이 사용하는 사용자 장치의 잠금 해제에도 도움이 될 뿐만 아니라 사용자 설정 파라메터의 설정값에 따라 인식 수준을 사용자가 결정하여 사용자 장치의 잠금 해제 여부를 상황에 맞게 적응적으로 설정할 수 있는 효과가 있다.In addition, the present invention not only helps unlocking a user device used by children and persons with disabilities by using a voice-based interface, but also determines whether the user device is unlocked by determining a recognition level according to a setting value of a user setting parameter. There is an effect that can be set adaptively according to the situation.
도 1은 본 발명의 실시예에 따른 음성 인식에 기반한 본인 인증 방법을 나타낸 개념도이다.
도 2는 본 발명의 실시예에 따른 음성 인식에 기반한 사용자 장치의 잠금 해제 방법을 나타낸 개념도이다.
도 3은 본 발명의 실시예에 따른 사용자 설정 파라메터를 결정하고 잠금 장치를 해제할지 여부를 결정하는 방법을 나타낸 순서도이다.
도 4는 본 발명의 실시예에 따른 사용자 입력 음성 분석 방법을 나타낸 개념도이다.
도 5는 본 발명의 실시예에 따른 사용자 입력 음성 분석 방법을 나타낸 순서도이다.
도 6은 본 발명의 실시예에 따른 사용자 입력 음성을 텍스트로 변환하는 방법을 나타낸 개념도이다.
도 7은 본 발명의 실시예에 따른 사용자 장치를 나타낸 개념도이다.1 is a conceptual diagram showing a user authentication method based on speech recognition according to an embodiment of the present invention.
2 is a conceptual diagram illustrating a method for unlocking a user device based on speech recognition according to an embodiment of the present invention.
3 is a flowchart illustrating a method of determining a user setting parameter according to an embodiment of the present invention and determining whether to release the locking device.
4 is a conceptual diagram illustrating a user input voice analysis method according to an embodiment of the present invention.
5 is a flowchart illustrating a user input voice analysis method according to an embodiment of the present invention.
6 is a conceptual diagram illustrating a method of converting a user input voice into text according to an embodiment of the present invention.
7 is a conceptual diagram illustrating a user device according to an embodiment of the present invention.
본 발명에서 사용되는 기술적 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아님을 유의해야 한다. 또한, 본 발명에서 사용되는 기술적 용어는 본 발명에서 특별히 다른 의미로 정의되지 않는 한 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 의미로 해석되어야 하며, 과도하게 포괄적인 의미로 해석되거나 과도하게 축소된 의미로 해석되지 않아야 한다. 또한, 본 발명에서 사용되는 기술적인 용어가 본 발명의 사상을 정확하게 표현하지 못하는 잘못된 기술적 용어일 때에는 당업자가 올바르게 이해할 수 있는 기술적 용어로 대체되어 이해되어야 할 것이다. 또한, 본 발명에서 사용되는 일반적인 용어는 사전에 정의되어 있는 바에 따라 또는 전후 문맥상에 따라 해석되어야 하며, 과도하게 축소된 의미로 해석되지 않아야 한다.It should be noted that the technical terms used in the present invention are only used to describe specific embodiments, and are not intended to limit the present invention. In addition, technical terms used in the present invention should be interpreted as meanings generally understood by a person having ordinary knowledge in the technical field to which the present invention belongs, unless defined otherwise. It should not be interpreted as a meaning or an excessively reduced meaning. In addition, when the technical term used in the present invention is a wrong technical term that does not accurately represent the spirit of the present invention, it should be understood as being replaced by a technical term that can be correctly understood by those skilled in the art. In addition, the general terms used in the present invention should be interpreted as defined in the dictionary or according to context before and after, and should not be interpreted as an excessively reduced meaning.
또한, 본 발명에서 사용되는 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한 복수의 표현을 포함한다. 본 발명에서 "구성된다" 또는 "포함한다" 등의 용어는 발명에 기재된 여러 구성 요소들 또는 여러 단계를 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성 요소들 또는 일부 단계들은 포함되지 않을 수도 있고 또는 추가적인 구성 요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다.In addition, the singular expression used in the present invention includes a plural expression unless the context clearly indicates otherwise. In the present invention, terms such as “consisting of” or “comprising” should not be construed to include all of the various components or steps described in the present invention, and some of the components or some steps may not be included. It should be construed that it may or may further include additional components or steps.
또한, 본 발명에서 사용되는 제 1, 제 2 등과 같이 서수를 포함하는 용어는 구성 요소들을 설명하는데 사용될 수 있지만 구성 요소들은 용어들에 의해 한정되어서는 안 된다. 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제 1 구성 요소는 제 2 구성 요소로 명명될 수 있고, 유사하게 제 2 구성 요소도 제 1 구성 요소로 명명될 수 있다.Further, terms including ordinal numbers such as first and second used in the present invention may be used to describe elements, but the elements should not be limited by terms. The terms are used only to distinguish one component from another component. For example, the first component may be referred to as a second component without departing from the scope of the present invention, and similarly, the second component may be referred to as a first component.
이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성 요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.Hereinafter, preferred embodiments according to the present invention will be described in detail with reference to the accompanying drawings, but the same or similar elements will be given the same reference numbers regardless of the reference numerals, and redundant descriptions thereof will be omitted.
또한, 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 발명의 사상을 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 발명의 사상이 제한되는 것으로 해석되어서는 아니 됨을 유의해야 한다.In addition, in the description of the present invention, when it is determined that detailed descriptions of related known technologies may obscure the subject matter of the present invention, detailed descriptions thereof will be omitted. In addition, it should be noted that the accompanying drawings are only for easy understanding of the spirit of the present invention and should not be interpreted as limiting the spirit of the present invention by the accompanying drawings.
이하, 본 발명의 실시예에서는 음성 인식에 기반한 사용자 장치의 잠금 해제 방법에 대해 개시한다. 설명의 편의상 음성 인식을 기반으로 사용자 장치에 대한 잠금을 해제하는 방법에 대해서 개시하나, 본 발명의 실시예에 따른 음성 인식 방법은 사용자 장치에 대한 잠금 해제뿐만 아니라 사용자 장치에 필요한 다른 본인 인증 절차 또는 장치의 동작을 제어하기 위해 사용될 수도 있다.Hereinafter, an embodiment of the present invention discloses a method for unlocking a user device based on speech recognition. For convenience of description, a method of unlocking a user device based on voice recognition is disclosed, but the voice recognition method according to an embodiment of the present invention not only unlocks a user device, but also other user authentication procedures required for the user device or It can also be used to control the operation of the device.
도 1은 본 발명의 실시예에 따른 음성 인식에 기반한 사용자 장치의 잠금 해제 방법을 나타낸 개념도이다.1 is a conceptual diagram illustrating a method for unlocking a user device based on speech recognition according to an embodiment of the present invention.
이하, 본 발명의 실시예에서 사용자 장치는 다양한 용어로 불릴 수 있다. 예를 들어, 사용자 장치(User Equipment, UE)는 고정되거나 이동성을 가질 수 있으며, MS(mobile station), MT(mobile terminal), UT(user terminal), SS(subscriber station), 무선기기(wireless device), PDA(personal digital assistant), 무선 모뎀(wireless modem), 휴대기기(handheld device), 무선 단말 등 다른 용어로 불릴 수 있다.Hereinafter, in an embodiment of the present invention, a user device may be referred to in various terms. For example, a user equipment (UE) may be fixed or mobile, and a mobile station (MS), a mobile terminal (MT), a user terminal (UT), a subscriber station (SS), and a wireless device ), PDA (personal digital assistant), wireless modem (wireless modem), handheld device (handheld device), may be referred to in other terms such as wireless terminals.
도 1에 도시된 바와 같이, 사용자 장치(100)는 본인 인증을 거쳐 잠금 상태를 해제한 후 사용되도록 구현될 수 있다. 사용자 장치(100)는 사용자의 음성 신호(110)를 입력 받아 본인 인증을 수행할 수 있다. 예를 들어, 사용자는 사용자 장치(100)의 잠금을 해제하기 위해 특정한 단어 또는 문장을 발음하여 음성 신호(110)를 생성할 수 있다. 사용자 장치(100)는 음성 신호(110)를 수신하고, 수신된 음성 신호(110)를 분석하여 잠금 상태(120)를 해제할지 여부에 대해 판단할 수 있다. 본 발명의 실시예에 따르면, 사용자 장치(100)는 수신한 음성 신호(110)와 사용자 장치(100)에 미리 결정된 텍스트를 비교하여 사용자 장치(100)의 잠금 상태(120)를 해제(130)할지 여부를 결정할 수 있다. 미리 결정된 텍스트는 사용자 장치(100)의 잠금 상태(120)를 해제(130)하기 위해 설정된 문장 또는 단어일 수 있다. 이하, 본 발명의 실시예에서는 사용자 장치(100)의 잠금 상태(120)를 해제하기 위해 미리 결정된 텍스트는 참조 텍스트라는 용어로 정의하여 사용할 수 있다. 또한, 사용자가 사용자 장치(100)의 잠금 해제(130)를 위해 사용자 장치(100)로 입력하는 음성 신호(110)는 사용자 입력 음성이라는 용어로 정의하여 사용할 수 있다.As illustrated in FIG. 1, the
본 발명의 실시예에 따르면, 입력되는 음성 신호(110)가 사람의 음성인지 여부를 판단하고, 음성 신호가 사람의 음성인 경우, 사용자 입력 음성을 텍스트로 변경하고, 변경된 텍스트와 참조 텍스트를 특정한 단위로 매칭하여 매칭 정보를 산출할 수 있다. 특정한 단위는 어절, 음절, 어휘, 문장과 같은 언어의 다양한 단위가 될 수 있다. 이하 본 발명의 실시예에서는 매칭을 수행하는 언어의 단위를 토큰이라고 표현한다. According to an embodiment of the present invention, it is determined whether the
사용자 장치(100)의 잠금 상태(120)를 해제할지 여부를 결정하기 위한 매칭 정보는 매칭되는 토큰의 수 및 매칭율일 수 있다. 사용자 장치(100)는 산출된 매칭 정보와 잠금 설정 해제 판단 기준을 비교하여 사용자 장치(100)의 잠금 상태(120)를 해제(130)할지 여부에 대해 결정할 수 있다. Matching information for determining whether to unlock the locked
잠금 상태(120)를 해제(130)할지 여부에 대한 판단 기준은 사용자가 미리 설정한 값으로 사용자 입력 음성과 참조 텍스트 사이에 일치되는 토큰의 수 및 매칭율에 대한 설정일 수 있다. The criterion for determining whether to unlock 130 the locked
이하 본 발명의 실시예에서 사용자 장치(100)가 사용자 입력 음성을 수신하고, 수신된 사용자 입력 음성을 분석하여 사용자 장치(100)의 잠금 설정을 해제할지 여부에 대해 판단하는 방법에 대해 구체적으로 개시한다. Hereinafter, in an embodiment of the present invention, a method for determining whether a
도 2는 본 발명의 실시예에 따른 음성 인식에 기반한 사용자 장치(100)의 잠금 해제 방법을 나타낸 개념도이다.2 is a conceptual diagram illustrating a method of unlocking a
도 2에 도시된 바와 같이, 사용자는 사용자 장치(100)의 잠금 상태를 해제하기 위해 '길동이폰' 이라는 단어를 발음하여 사용자 장치(100)로 입력할 수 있다. 사용자 장치(100)에서는 사운드 유형 분석(200)을 기반으로 입력된 소리가 사람의 목소리인지 여부에 대해 판단할 수 있다.As illustrated in FIG. 2, the user may pronounce the word “gil mobile phone” to release the locked state of the
예를 들어, 사용자 장치(100)는 사운드 유형 분석(200)을 통해 입력되는 소리가 생물의 소리인지, 무생물의 소리인지, 사람의 소리인지, 외부 잡음인지 기계음인지 여부를 판단하여 사람의 목소리인 경우에만 입력된 소리 정보를 분석할 수 있다. 이러한 방법을 사용함으로써 외부에서 입력되는 사람의 음성 외의 소리는 무시하고 사용자 입력 음성에 대해서만 사용자 장치(100)의 잠금을 해제할지 여부에 대해 판단할 수 있다.For example, the
예를 들어, 사용자 장치(100)는 입력된 소리의 사운드 유형 분석(200)을 위해 입력된 소리의 특징 정보를 획득할 수 있다. 사람의 음성은 주파수 및 진폭이 존재하는 불규칙한 신호이다. 따라서, 획득한 소리의 특징 정보가 일정한 패턴이거나 특정 주파수 파장을 넘어서는 경우, 사용자 장치(100)는 입력된 소리가 사람의 음성 신호가 아닌 것으로 판단할 수 있다. 사용자 장치(100)는 입력된 소리가 사람의 음성 신호가 아니라고 판단하는 경우, 추가적인 사용자 음성 분석(220)을 수행하지 않을 수 있다. 반대로 입력된 신호가 사람의 음성이라고 판단되는 경우, 추가적으로 사용자 음성 분석(220)을 수행하여 입력된 음성으로 사용자 장치(100)의 잠금 해제가 가능한지 여부에 대해 판단할 수 있다.For example, the
또 다른 예로, 사용자 장치(100)는 사용자의 전화 목소리 또는 사용자가 별도로 입력한 목소리를 기반으로 사용자 음성의 특징 정보를 획득하여 사용자의 목소리가 맞는지 여부에 대해서도 구체적으로 판단할 수도 있다. As another example, the
예를 들어, 사용자가 전화 통화를 수행 시 사용자의 음성 정보를 획득하여 사용자의 음성 정보에 대한 학습을 수행하여 사용자 음성의 특징을 추출할 수 있다. 사용자 장치(100)는 잠금 해제를 위해 외부에서 입력되는 음성 중 사용자의 음성 특징과 동일한 특징을 가지는 음성에 대해서만 사용자 음성 분석을 수행하여 잠금 장치 해제 여부에 대해 결정할 수 있다.For example, when a user makes a phone call, the user's voice information may be acquired and the user's voice information may be learned to extract characteristics of the user's voice. The
사용자 장치(100)에 입력된 소리가 사운드 유형 분석(200)을 기반으로 사용자 입력 음성(210)으로 판단된 경우, 다음 단계로 사용자 음성 분석(220)을 수행할 수 있다.When it is determined that the sound input to the
사용자 음성 분석(220)은 사용자 입력 음성(210)을 텍스트로 변경하고, 변경된 텍스트를 토큰 단위로 참조 텍스트(230)와 매칭하여 유사성을 추출해낼 수 있다. 사용자 음성 분석(220)은 사용자 입력 음성(210)을 텍스트로 변경하기 위해서 예를 들어, ASR(automatic speech recognition) 또는 TTS(text to speech) 방법과 같은 음성과 텍스트 사이의 변환 방법을 사용할 수 있다. The
예를 들어, 사용자 장치(100)는 '길동이 폰' 이라는 소리가 입력된 경우, ASR을 기반으로 음성 신호를 '길동이 폰' 이라는 텍스트 정보로 변환할 수 있다. 예를 들어, 사용자 장치(100)에서는 사용자 입력 음성을 문장 레벨 또는 단어 레벨과 같은 특정 단위로 분석하여 텍스트로 변환할 수 있다.For example, the
사용자 장치(100)는 사용자 음성 신호가 변환된 텍스트와 미리 저장된 참조 텍스트(230)를 비교하여 사용자 장치(100)의 잠금 상태 해제 여부를 결정할 수 있다. 미리 저장된 참조 텍스트(230)는 사용자에 의해 미리 사용자 장치(100)에 저장된 텍스트로서, 사용자 입력 음성(210)과 비교되어 사용자 장치의 잠금 해제 여부를 결정하기 위한 텍스트일 수 있다. The
또한, 참조 텍스트(230)는 사용자 입력 음성(210) 중 잠금 해제가 가능한 음성을 텍스트화한 정보를 기반으로 업데이트될 수도 있다. Also, the
본 발명의 실시예에 따르면, 텍스트로 변환된 사용자 입력 음성(210)과 참조 텍스트(230)가 사용자 장치(100)의 잠금을 해제할 만큼 유사한지 여부를 사용자 설정에 따라 판단할 수 있다. 텍스트로 변환된 사용자 입력 음성(210)과 참조 텍스트(230)가 사용자 장치의 잠금을 해제할 만큼 유사한지 여부를 판단하기 위한 기준이 되는 파라메터를 사용자 설정 파라메터(240)라고 할 수 있다.According to an embodiment of the present invention, whether the
예를 들어, 사용자 설정 파라메터(240)는 텍스트로 변환된 사용자 입력 음성과 참조 텍스트(230) 사이에 일치하는 토큰의 개수, 매칭율 또는 인식율일 수 있다. 텍스트로 변환된 사용자 입력 음성과 참조 텍스트(230)가 일치하는 정도를 산출하여 사용자 설정에서 설정한 사용자 설정 파라메터(240)의 임계값 이상인 경우, 사용자 장치(100)의 잠금 상태를 해제할 수 있다. 반대로, 사용자 설정 파라메터(240)의 임계값 미만인 경우, 사용자 장치(100)의 잠금 상태를 해제하지 않을 수 있다.For example, the
예를 들어, 사용자 설정 파라메터(240)를 일치하는 토큰의 개수 1개, 매칭률 70%로 설정한 경우를 가정할 수 있다. 이러한 경우, 사용자 장치(100)에서 텍스트로 인식된 '길동이폰'과 참조 텍스트인 '나는 홍길동이다'를 비교하여 일치하는 토큰의 수가 1개 이상인지 및 매칭률이 70% 이상인지 여부에 대해 판단할 수 있다. 판단 결과가 설정된 사용자 설정 파라메터(240)의 임계값을 만족하는 경우, 사용자 장치(100)의 잠금 장치가 해제될 수 있다. 반대로 사용자 입력 음성(210)이 변환된 텍스트가 설정된 사용자 설정 파라메터(240)를 만족하지 않는 경우, 사용자 장치(100)의 잠금 장치가 해제되지 않을 수 있다.For example, it may be assumed that the
본 발명의 실시예에 따르면, 사용자 설정 파라메터(240)에 따라 사용자 장치(100)의 보안 정도가 결정될 수 있다. 즉, 사용자 설정 파라메터(토큰, 매칭율, 인식율 등)(240)의 임계값을 조절하여 사용자 장치(100)의 보안 정도를 결정할 수 있다. 예를 들어, 보안 정도를 높게 설정하기 위해서는 사용자 설정 파라메터(240)의 임계값을 높은 값으로 설정하고, 보안 정도를 낮게 설정하기 위해서는 사용자 설정 파라메터(240)의 임계값을 낮은 값으로 설정할 수 있다.According to an embodiment of the present invention, the security level of the
또한, 사용자 설정은 잠금 장치 해제가 수행된 사용자 입력 음성(210)을 기반으로 참조 텍스트 그룹을 업데이트할 것인지를 '결과 저장' 여부를 선택함으로써 추가적으로 설정할 수 있다. 예를 들어, '길동이 폰'과 같이 사용자 장치(100)의 잠금 상태를 해제한 사용자 입력 음성(210)의 경우, 이를 사용자 장치(100)의 잠금 해제가 가능한 새로운 참조 텍스트(230)로서 추가함으로써 참조 텍스트 그룹이 업데이트될 수 있다.In addition, the user setting may be additionally set by selecting whether or not to'save the result' whether to update the reference text group based on the
도 3은 본 발명의 실시예에 따른 사용자 설정 파라메터(240)를 결정하고 잠금 상태를 해제할지 여부를 결정하는 방법을 나타낸 순서도이다. 3 is a flowchart illustrating a method of determining a
도 3에 도시된 바와 같이, 먼저 사용자 설정 파라메터가 결정된다(단계 S300).As shown in FIG. 3, first, a user setting parameter is determined (step S300).
사용자 설정 파라메터(240)는 텍스트로 변환된 음성 정보와 참조 텍스트(230)를 비교하기 위해 설정된 파라메터로 토큰의 수, 매칭율 등일 수 있다. 사용자 장치(100)의 보안 정도에 따라 잠금 장치 해제를 위한 사용자 파라메터(240)가 적응적으로 설정될 수 있다. The
예를 들어, 사용자 설정 파라메터(240)로 토큰의 수 3개, 일치율 50%로 설정하는 경우, 텍스트로 변환된 음성 정보와 참조 텍스트에서 일치하는 토큰의 수가 3개 이상이고, 매칭율이 50% 이상인 경우 사용자 장치(100)의 잠금 상태가 해제될 수 있다. 사용자 장치(100)의 잠금 상태를 해제하기 위한 사용자 설정 파라메터(240)의 최소값을 사용자 설정 파라메터(240)의 임계값이라고 할 수 있다.For example, if the number of tokens is set to 3 with the
다음으로, 텍스트로 변환된 음성 정보와 참조 텍스트 정보를 기반으로 매칭 정보가 산출된다(단계 S310).Next, matching information is calculated based on the voice information converted into text and the reference text information (step S310).
매칭 정보는 텍스트로 변환된 음성 정보와 참조 텍스트 정보를 비교하여 산출된 값이다. 매칭 정보는 사용자 설정 파라메터(240)의 임계값과 비교하여 사용자 장치(100)의 잠금 상태를 해제할지 여부를 결정하기 위해 산출될 수 있다. 사용자 설정 파라메터(240)가 토큰의 수 및 매칭율인 경우, 매칭 정보도 토큰의 수 및 매칭율일 수 있다.The matching information is a value calculated by comparing voice information converted into text and reference text information. Matching information may be calculated to determine whether to unlock the locked state of the
이후, 매칭 정보가 사용자 설정 파라메터의 임계값을 만족하는지 여부가 판단된다(단계 S320).Thereafter, it is determined whether the matching information satisfies the threshold of the user setting parameter (step S320).
텍스트로 변환된 사용자 입력 음성과 참조 텍스트 정보를 기반으로 매칭 정보를 산출한 결과 사용자 설정 파라메터(240)의 임계값을 만족하는지 여부를 판단할 수 있다. 예를 들어, 매칭 결과 산출된 일치하는 토큰의 수가 사용자 설정 파라메터(240)인 토큰의 수보다 크고, 매칭 결과 산출된 매칭율이 사용자 설정 파라메터(240)의 매칭율보다 큰지 여부를 판단할 수 있다. As a result of matching information based on the user input voice converted into text and reference text information, it may be determined whether the threshold of the
매칭 정보가 사용자 설정 파라메터(240)의 임계값을 만족하는 경우, 사용자 장치의 잠금 상태가 해제된다(단계 S330).If the matching information satisfies the threshold of the
판단 결과 매칭 정보가 사용자 설정 파라메터(240)의 임계값을 만족하는 경우, 사용자 장치(100)의 잠금 상태가 해제될 수 있다. As a result of the determination, when the matching information satisfies the threshold of the
전술한 바와 같이 텍스트로 변환된 사용자 입력 음성은 참조 텍스트로 사용되기 위해 업데이트될 수 있다. 또한, 입력된 사용자 음성은 사용자 음성의 특징 정보를 산출하기 위해 사용될 수도 있다. As described above, the user input voice converted to text may be updated to be used as reference text. Also, the input user voice may be used to calculate characteristic information of the user voice.
매칭 정보가 사용자 설정 파라메터(240)의 임계값을 만족하지 않는 경우, 사용자 장치(100)의 잠금 상태가 해제되지 않고 판단 단계가 종료될 수 있다.If the matching information does not satisfy the threshold value of the
도 4는 본 발명의 실시예에 따른 사용자 입력 음성 분석 방법을 나타낸 개념도이다. 4 is a conceptual diagram illustrating a user input voice analysis method according to an embodiment of the present invention.
도 4를 참조하여, 사운드 유형 분석 결과 사람의 음성으로 판단되는 경우, 사용자 입력 음성의 분석을 통해 사용자 장치(100)의 잠금 장치를 해제할지 여부를 결정하는 방법에 대해 개시한다.Referring to FIG. 4, a method for determining whether to unlock the locking device of the
사용자 입력 음성을 텍스트화하기 위해 사용자 장치(100)는 사용자 입력 음성을 토큰 단위로 분할할 수 있다. In order to text the user input voice, the
또한, 사용자 장치(100)는 개인별 음성 패턴 분석을 통해 어휘의 고유한 주파수 파장을 저장한 후 비교하여 토큰 별로 매칭하는 기능을 제공할 수 있다. 매칭된 마지막 결과는 캐쉬(cache)에 저장될 수 있다. In addition, the
예를 들어, 사용자 입력 음성에서 '길'과 '동'과 같은 개별 음절에 대한 사용자 음성 특징 정보 또는 평균 사용자 음성 특징 정보를 산출할 수 있다. 이러한 사용자 음성 특징 정보는 저장되고, 추후 입력되는 음성이 사용자의 음성인지 다른 사람의 음성인지 여부를 판단하기 위해 사용될 수 있다. 또한, 추후 입력되는 음성을 텍스트화하기 위한 기계 학습을 위해 사용될 수도 있다.For example, user voice feature information or average user voice feature information for individual syllables such as'road' and'dong' may be calculated from the user input voice. The user voice feature information is stored and may be used to determine whether the voice that is subsequently input is the user's voice or the voice of another person. In addition, it may be used for machine learning to textualize the voice input later.
예를 들어, 도 4에 도시된 바와 같이, 사용자 음성의 특징 정보(400)는 아래와 같이 추후 입력되는 사용자 입력 음성을 판단하기 위해 사용될 수 있다. 6 글자의 '스,마,트,폰,오,픈' 이라는 사용자 입력 음성이 입력되는 경우, 사용자 음성의 특징 정보(400)를 기반으로 사용자 음성의 주파수 범위 밖에 있는 글자는 배제할 수 있다. 만약, '오'라는 음절이 사용자 음성의 주파수 범위 밖으로 벗어난 경우, 사용자 입력 음성은 '오'라는 음절을 제외한 '스마트폰픈'으로 인식될 수 있다. 이러한 방법을 통해서 좀 더 정확하게 사용자 입력 음성에 대한 판단을 수행할 수 있다. For example, as illustrated in FIG. 4, the feature information 400 of the user's voice may be used to determine the user's input voice that is subsequently input as follows. When a user input voice of six letters's, mart, phone, open, open' is input, a letter outside the frequency range of the user's voice may be excluded based on the feature information 400 of the user's voice. If the syllable'o' is outside the frequency range of the user's voice, the user input voice may be recognized as'smartphone open' except for the syllable'o'. Through this method, the user input voice can be more accurately determined.
사용자의 음성 특징 정보(400)는 음성의 주파수 정보뿐만 아니라 사용자 음성의 피치 정보일 수 있다. The voice feature information 400 of the user may be pitch information of the user voice as well as frequency information of the voice.
이하에서는 사용자의 음성 특징 정보(400)는 음성의 피치 정보를 기반으로 사용자 입력 음성에서 텍스트를 산출하는 방법에 대해 개시한다.Hereinafter, the voice characteristic information of the user 400 discloses a method of calculating text from the user input voice based on the pitch information of the voice.
도 5는 본 발명의 실시예에 따른 사용자 입력 음성의 분석 방법을 나타낸 순서도이다.5 is a flowchart illustrating a method for analyzing a user input voice according to an embodiment of the present invention.
도 5에서는 참조 텍스트와 비교하기 위해 사용자 음성을 기반으로 텍스트를 산출하는 방법에 대해 개시한다.5 discloses a method of calculating text based on a user's voice for comparison with reference text.
도 5를 참조하면, 사용자 입력 음성에서 피치가 검출된다(단계 S500). Referring to FIG. 5, a pitch is detected in the user input voice (step S500).
사용자 입력 음성에서 피치는 다양한 방법으로 검출될 수 있다. 예를 들어, 사용자 입력 음성의 전체 음성 신호를 짧은 구간으로 나누어 분석할 수 있다. 음성 신호에 대한 짧은 구간 분석은 음성 신호가 짧은 시구간에서는 선형 시불변 시스템이라고 가정하고 한 주기 이상의 피치 주기를 포함할 수 있는 10~30msec 정도의 고정된 분석 길이로 분석 프레임을 구성할 수 있다. The pitch in the user input voice can be detected in various ways. For example, the entire voice signal of the user input voice may be divided into short sections and analyzed. The analysis of the short section of the speech signal can be composed of a fixed analysis length of about 10 to 30 msec that can include a pitch period of one or more periods, assuming that the speech signal is a linear time-invariant system in a short period of time.
또 다른 피치 검출 방법으로 음성 신호의 유사도를 기반으로 피치를 검출할 수 있다. 음성 신호는 유성음 구간에서 준 주기적인 패턴을 유지하기 때문에 인접한 두 피치 주기의 유사한 파형을 가질 수 있다. 준 주기적인 성질을 바탕으로 인접한 두 구간을 선택하여 상호 상관도 값을 계산하고, 두 구간의 음성 신호 사이의 유사도를 조사할 수 있다. 즉, 인접한 두 구간의 길이가 피치 주기인 경우, 상호 상관도는 최대가 될 수 있다. 이외에도 다양한 방법으로 사용자 음성에서 피치를 검출할 수 있다.As another pitch detection method, the pitch can be detected based on the similarity of the voice signal. Since the voice signal maintains a quasi-periodic pattern in the voiced sound section, it may have a similar waveform of two adjacent pitch periods. Based on the quasi-periodic property, two adjacent sections can be selected to calculate a cross-correlation value, and the similarity between speech signals of two sections can be investigated. That is, when the length of two adjacent sections is a pitch period, the cross-correlation may be maximum. In addition, the pitch can be detected from the user's voice in various ways.
사용자 입력 음성에서 특징 벡터가 추출된다(단계 S520).The feature vector is extracted from the user input speech (step S520).
피치를 기반으로 사용자 입력 음성에서 특징 벡터가 추출될 수 있다. 피치에 따라 사용자 입력 음성에서 특징 벡터를 추출하기 위한 분석 프레임의 길이가 가변적으로 변할 수 있다. 따라서, 본 발명의 실시예에 따르면, 각 피치 주기마다 구성되는 분석 프레임의 길이를 산출하고, 고속 푸리에 변환 분석 크기를 결정하여 사용자 입력 음성에서 특징 벡터를 추출할 수 있다. 사용자 입력 음성에서 특징 벡터를 추출하는 방법으로 다양한 방법이 사용될 수 있다. 사용자 입력 음성에서 산출된 특징 벡터는 학습되어 입력된 소리 정보 중에서 사용자 입력 음성만을 추출하기 위해 사용될 수 있다. Feature vectors may be extracted from the user input speech based on the pitch. The length of the analysis frame for extracting the feature vector from the user input speech may vary depending on the pitch. Accordingly, according to an embodiment of the present invention, the length of an analysis frame composed of each pitch period may be calculated, and a fast Fourier transform analysis size may be determined to extract a feature vector from the user input speech. Various methods can be used as a method of extracting a feature vector from a user input speech. The feature vector calculated from the user input voice may be used to extract only the user input voice from the learned and input sound information.
사용자 음성의 특징 정보를 기반으로 사용자 입력 장치로 입력된 소리 중 사용자 입력 음성이 추출된다(단계 S540).Based on the feature information of the user voice, a user input voice is extracted from sounds input to the user input device (step S540).
사용자 음성의 특징 정보는 음성 피치 정보, 특징 벡터, 주파수 정보 등과 같은 사용자 음성인지 여부를 판단하기 위한 정보일 수 있다. 단계 S500 및 단계 S520을 기반으로 산출된 음성 피치 정보 및 특징 벡터를 기반으로 사용자 장치(100)로 입력된 소리 정보 중 텍스트로 생성할 사용자 입력 음성을 추출할 수 있다. The feature information of the user voice may be information for determining whether it is a user voice, such as voice pitch information, feature vectors, frequency information, and the like. The user input voice to be generated as text may be extracted from the sound information input to the
추출된 사용자 입력 음성이 텍스트로 변환된다(단계 S560).The extracted user input voice is converted into text (step S560).
추출된 사용자 입력 음성을 텍스트로 변환하기 위해 다양한 방법을 사용할 수 있다. 본 발명의 실시예에서는 설명의 편의상 단어 레벨의 매칭 및 문장 레벨의 매칭을 기반으로 입력 음성을 텍스트로 변환하는 방법에 대해 개시한다.Various methods can be used to convert the extracted user input speech into text. For convenience of description, an embodiment of the present invention discloses a method of converting an input voice into text based on word-level matching and sentence-level matching.
도 6은 본 발명의 실시예에 따른 사용자 입력 음성을 텍스트로 변환하는 방법을 나타낸 개념도이다. 6 is a conceptual diagram illustrating a method of converting a user input voice into text according to an embodiment of the present invention.
도 6에 도시된 바와 같이, 사용자 장치(100)로 입력되는 소리 정보는 전처리 단계(600)를 통해 전처리된 후 텍스트로 분석될 수 있다. 예를 들어, 전처리 단계(600)는 전술한 피치 정보 및 특징 벡터를 기반으로 텍스트화를 수행할 사용자 입력 음성을 추출하는 과정일 수 있다. As shown in FIG. 6, sound information input to the
전처리 단계(600)를 거친 사용자 입력 음성은 단어 레벨 또는 문장 레벨의 매칭(630)을 통해 텍스트(640)로 변경될 수 있다. 단어 레벨 및 문장 레벨의 매칭(630)을 통해 텍스트(640)로 변경하기 위해서는 음성의 신호적인 특성을 모델링하여 비교하는 음향 모델(Acoustic Model)(610)과 인식 어휘에 해당하는 단어나 음절 등의 언어적인 순서 관계를 모델링하는 언어 모델(Language Model)(620)이 사용될 수 있다.The user input voice after the
음향 모델(610)은 인식 대상을 특징 벡터 모델로 설정하고 이를 입력 신호의 특징 벡터와 비교하는 직접 비교 방법 또는 인식 대상의 특징 벡터를 통계적으로 처리하여 이용하는 통계 방법을 사용할 수 있다. The
직접 비교 방법은 인식 대상이 되는 단어, 음소 등의 단위를 특징 벡터 모델로 설정하고 입력 음성이 이와 얼마나 유사한가 비교하는 방법이다. 직접 비교 방법 중 하나로 벡터 양자화(Vector Quantization) 방법이 사용될 수 있다. 벡터 양자화 방법은 앞서 구한 특징 벡터 또는 계수들을 기존 모델인 코드북(Codebook)과 매칭시켜 대표값으로 부호화하고, 부호화된 값들을 서로 비교하는 방법이다. The direct comparison method is a method of setting units of words, phonemes, and the like to be recognized as a feature vector model and comparing how similar the input speech is. A vector quantization method may be used as one of the direct comparison methods. The vector quantization method is a method of matching the feature vectors or coefficients obtained above with a codebook, which is an existing model, to encode the representative values, and comparing the coded values with each other.
통계적 모델 방법은 인식 대상에 대한 단위를 상태 열(State Sequence)로 구성하고 상태 열 간의 관계를 이용하는 방법이다. 상태 열은 복잡한 모델을 표시할 수 있어 간단한 단어 인식을 제외하고는 대부분의 음성 인식이 이 기술을 이용한다. 상태 열 간의 관계를 이용하는 방법은 다시 DTW(Dynamic Time Warping)과 같이 시간적 배열 관계를 이용하는 방법, HMM(hidden markov model)과 같이 확률값, 평균, 그리고 분산을 비교 대상으로 하는 통계적 방법, 그리고 인공 신경망을 이용하는 방법이 있다.The statistical model method is a method of constructing a unit for a recognition object into a state sequence and using the relationship between the state columns. The status column can display complex models, so most speech recognition uses this technique except simple word recognition. The method of using the relationship between the status columns is a method of using a temporal array relationship such as Dynamic Time Warping (DTW), a statistical method of comparing probability values, means, and variances such as the hidden markov model (HMM), and artificial neural networks. There is a way to use it.
DTW는 같은 사람이 같은 발음을 해도 신호의 길이가 시간에 따라 달라지는 음성의 동적 특성을 고려해 기존 모델과 비교할 때 시간축에서의 차이를 보상하는 방법이다. DTW is a method of compensating for a difference in the time axis when compared with the existing model considering the dynamic characteristics of the voice whose signal length varies with time even if the same person pronounces the same.
HMM은 음성을 상태 천이 확률 및 각 상태에서의 출력 심볼의 관찰 확률을 갖는 마르코프 프로세스로 가정한 후에 학습 데이터를 통해 상태 천이 확률 및 출력 심볼의 관찰 확률을 추정하고, 추정된 모델에서 입력된 음성이 발생할 확률을 계산하는 인식 방법이다.HMM estimates the state transition probability and the observation probability of the output symbol through the training data after assuming that the speech is a Markov process having the state transition probability and the observation probability of the output symbol in each state, and the voice input from the estimated model It is a recognition method that calculates the probability of occurrence.
한편, 단어나 음절 등의 언어적인 순서 관계를 모델링하는 언어 모델(620)은 언어를 구성하는 단위들 간의 순서 관계를 음성 인식에서 얻어진 단위들에 적용함으로써 음향적인 모호성을 줄이고 인식의 오류를 줄일 수 있다. 일반적으로 대용량 어휘를 대상으로 하는 연속 음성 인식의 경우 입력 음성에 내재한 언어적인 지식에 크게 의존하기 때문에 언어 모델(620)의 형태로 언어적인 지식을 결합하는 것이 중요하다. On the other hand, the
언어 모델(620)로는 통계적 언어 모델과 유한 상태 네트워크(Finite State Automata, FSA)에 기반한 모델이 있다. 통계적 언어모델에는 구체적으로는 Unigram, Bigram, Trigram 등 단어의 연쇄 확률이 이용될 수 있다. 유한 상태 네트워크에 기반한 경우는 인식 대상 영역이 크지 않고, 발성되는 문자의 형태가 패턴화 되어 있는 경우에 주로 사용된다. 로봇을 제어하거나 컴퓨터 상의 데스크톱에서 응용 프로그램의 수행이나 간단한 명령어 등을 수행하는 경우에 활용될 수 있다.The
본 발명의 실시예에 따르면 추출된 사용자 입력 음성은 음향 모델 또는 언어 모델에 기반하여 단어 레벨 매칭 및 문장 레벨 매칭(630)을 거친 후 텍스트(640)로 산출될 수 있다. 산출된 텍스트(640)는 전술한 바와 같이 참조 텍스트와 비교되어 사용자 설정에 따라 토큰 단위의 매칭을 통해 사용자 장치의 잠금 해제 여부에 대해 결정할 수 있다. According to an embodiment of the present invention, the extracted user input voice may be calculated as text 640 after performing word level matching and sentence level matching 630 based on an acoustic model or a language model. The calculated text 640 may be compared with the reference text as described above to determine whether to unlock the user device through token matching according to a user setting.
도 7은 본 발명의 실시예에 따른 사용자 장치를 나타낸 개념도이다. 7 is a conceptual diagram illustrating a user device according to an embodiment of the present invention.
도 7을 참조하면, 사용자 장치는 SPU(sound process unit)를 포함할 수 있다. Referring to FIG. 7, the user device may include a sound process unit (SPU).
사용자 장치(100)에 포함되는 SPU는 사운드 유형 분석부(710), 어휘 분석부(720), 개인별 음성 패턴 분석부(730), 사용자 설정부(740) 및 프로세서(750)를 포함할 수 있다. The SPU included in the
사운드 유형 분석부(710)는 입력되는 소리가 사람의 음성인지 여부에 대해 판단할 수 있다. 예를 들어, 사운드 유형 분석부(710)는 입력되는 소리가 생물의 소리인지 무생물의 소리인지 여부를 판단하고, 생물인 경우, 사람인지 동물인지 여부를 판단할 수 있다. 사운드 유형 분석부(710)는 입력되는 소리의 특성(주파수, 진폭 등)을 기반으로 입력되는 소리가 사람의 음성인지 여부를 판단할 수 있다. 사운드 유형 분석부(710)는 좀 더 구체적으로 입력되는 음성이 사용자의 음성인지 여부에 대해 추가적으로 판단할 수도 있다. The sound
예를 들어, 사용자가 이전에 입력한 음성 또는 사용자의 전화 통화 시 음성을 기반으로 사용자 음성 정보의 특성을 추출할 수 있다. 추출된 사용자 음성 정보의 특성은 사운드 유형 분석부(710)에서 사용자의 음성인지 여부를 판별하기 위해 사용될 수 있다.For example, characteristics of user voice information may be extracted based on voice previously input by the user or voice when the user makes a phone call. The characteristics of the extracted user voice information may be used by the sound
어휘 분석부(720)는 입력된 사용자의 음성을 특정한 단위로 분류할 수 있다. 예를 들어, 어휘 분석부(720)는 토큰 단위로 입력된 사용자 음성을 분리할 수 있다.The
개인별 음성 패턴 분석부(730)는 음성을 텍스트로 변경하고, 변경된 텍스트를 토큰 단위(예를 들어, 음절, 어절) 별로 매칭하여 유사성을 추출할 수 있다. 사용자 음성은 도 5 및 도 6에서 전술한 기술을 기반으로 텍스트로 변경될 수 있다. 개인별 음성 패턴 분석부(730)는 음성을 텍스트로 변경 시 사용자 음성의 특징을 고려하여 유효한 범위 내의 음성만을 텍스트로 변경할 수 있다. 예를 들어, 기존에 입력된 사용자의 음성 특성을 고려하여 입력되는 음성 중 사용자의 음성 특성을 벋어나는 경우, 해당 정보는 제외할 수 있다.The voice
또한, 개인별 음성 패턴 분석부(730)는 텍스트로 분석된 사용자 음성 신호와 참조 텍스트를 사용자 설정부에서 설정된 사용자 설정 파라메터(240)를 기반으로 비교할 수 있다. 분석된 결과가 사용자 설정 파라메터(240)를 만족하는지 여부에 대해 판단할 수 있다. 예를 들어, 사용자 설정 파라메터는 참조 텍스트와 텍스트로 변화된 사용자 음성 사이의 동일한 토큰의 개수, 매칭율, 인식률 등 일 수 있다. In addition, the individual voice
사용자 설정부(740)는 텍스트로 변환한 사용자 음성과 참조 텍스트를 비교하여 입력된 음성으로 사용자 장치의 잠금 해제가 가능하게 하기 위한 사용자 설정 파라메터를 결정할 수 있다. 예를 들어, 사용자 설정 파라메터는 참조 텍스트와 텍스트로 변화된 사용자 음성을 비교하기 위한 토큰의 개수, 매칭율, 인식률일 수 있다.The
프로세서(750)는 사운드 유형 분석부(710), 어휘 분석부(730720), 개인별 음성 패턴 분석부(750730), 사용자 설정부(740)의 동작을 제어하기 위해 구현될 수 있다. 또한, 프로세서(750)는 개인별 음성 패턴 분석부의 분석 결과 입력된 소리 신호가 사용자 장치의 잠금 상태를 해제할 수 있는 경우, 사용자 장치의 잠금 상태를 해제하도록 구현될 수 있다. 반대로 프로세서(750)는 개인별 음성 패턴 분석부(750730)의 분석 결과 입력된 소리 신호가 사용자 장치(100)의 잠금 상태를 해제할 수 없는 경우, 사용자 장치(100)의 잠금 상태를 해제하지 않고 추가로 다시 한번 사용자 음성을 입력할 것을 명령하도록 구현될 수 있다.The
이러한 생체 인식 기술인 사람의 음성을 인식하는 방법을 사용하여 기존 키 입력 등보다 편리한 사용자 친화적 환경을 제공할 뿐 아니라 보안성을 높일 수 있다. 또한, 음성 기반의 인터페이스를 사용함으로써 아동과 장애인에게도 도움이 된다. 또한, 사용자 설정 파라메터(240)의 설정값에 따라 인식 수준을 사용자가 결정하여 탄력적으로, 상황에 맞게 사용할 수 있다. By using the method of recognizing the human voice, which is the biometric technology, it is possible to provide a more convenient user-friendly environment such as existing key input and to increase security. It also helps children and people with disabilities by using a voice-based interface. In addition, the user can determine the recognition level according to the setting value of the
본 발명의 실시예에 따른 음성 인식 방법은 다양한 장치의 잠금 해제를 위해 사용될 수 있을 뿐만 아니라, 잠금 장치가 아닌 다른 서비스에서 음성 인식 기반의 본인 인증 및 정보 입력을 위해 사용될 수 있다.The voice recognition method according to an embodiment of the present invention can be used not only for unlocking various devices, but also for voice recognition based personal authentication and information input in services other than the lock device.
본 발명의 실시예에 따른 음성에 기반한 사용자 장치의 잠금 해제 방법은 컴퓨터 프로그램으로 작성 가능하며, 컴퓨터 프로그램을 구성하는 코드들 및 코드 세그먼트들은 당해 분야의 컴퓨터 프로그래머에 의하여 용이하게 추론될 수 있다. 또한, 해당 컴퓨터 프로그램은 컴퓨터가 읽을 수 있는 정보저장매체(computer readable media)에 저장되고, 컴퓨터나 본 발명의 실시예에 따른 사용자 장치 등에 의하여 읽혀지고 실행됨으로써 사용자 장치의 잠금 상태 해제 방법을 구현할 수 있다. A method for unlocking a user device based on voice according to an embodiment of the present invention can be written in a computer program, and codes and code segments constituting the computer program can be easily deduced by a computer programmer in the art. In addition, the computer program is stored in a computer-readable information storage medium (computer readable media), and is read and executed by a computer or a user device according to an embodiment of the present invention to implement a method for unlocking a user device. have.
정보저장매체는 자기 기록매체, 광 기록매체 및 캐리어 웨이브 매체를 포함한다. 본 발명의 실시예에 따른 사용자 장치의 잠금 상태 해제 방법을 구현하는 컴퓨터 프로그램은 사용자 장치 등의 내장 메모리에 저장 및 설치될 수 있다. 또는, 본 발명의 실시예에 따른 사용자 장치의 잠금 상태 해제 방법을 구현하는 컴퓨터 프로그램을 저장 및 설치한 스마트 카드 등의 외장 메모리가 인터페이스를 통해 단말 등에 장착될 수도 있다.The information storage medium includes a magnetic recording medium, an optical recording medium and a carrier wave medium. A computer program that implements a method for releasing a locked state of a user device according to an embodiment of the present invention may be stored and installed in an internal memory such as a user device. Alternatively, an external memory such as a smart card that stores and installs a computer program that implements a method for releasing a locked state of a user device according to an embodiment of the present invention may be mounted on a terminal or the like through an interface.
전술된 내용은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.The above-described contents may be modified and modified without departing from the essential characteristics of the present invention by those skilled in the art to which the present invention pertains. Therefore, the embodiments disclosed in the present invention are not intended to limit the technical spirit of the present invention, but to explain, and the scope of the technical spirit of the present invention is not limited by these embodiments. The scope of protection of the present invention should be interpreted by the claims below, and all technical spirits within the scope equivalent thereto should be interpreted as being included in the scope of the present invention.
본 발명은 사용자 장치로 입력되는 소리 정보가 사람의 음성인지 여부를 판단하고 소리 정보가 사람의 음성인 경우, 소리 정보를 기반으로 변환 텍스트를 생성하고 변환 텍스트와 참조 텍스트를 비교하여 사용자 장치의 잠금을 해제할지 여부를 결정할 수 있다. 이러한 방법은 기존 키 입력 등보다 편리한 사용자 친화적 환경을 제공하고 사용자 장치의 보안성을 높이기 위해 사용자 장치에 활용되어질 수 있다. 또한, 본 발명은 사용자 장치의 잠금 해제에 음성 기반의 인터페이스를 사용하고 있으므로, 아동과 장애인이 사용하는 사용자 장치에 적용될 수 있다. 나아가, 사용자 설정 파라메터의 설정값에 따라 인식 수준을 사용자가 결정하여 사용자 장치의 잠금 해제 여부를 상황에 맞게 적응적으로 설정할 수 있도록 사용자 장치에 적용될 수 있다.The present invention determines whether the sound information input to the user device is human voice, and when the sound information is human voice, generates converted text based on the sound information and compares the converted text with the reference text to lock the user device You can decide whether to release it. This method can be utilized in a user device to provide a more convenient user-friendly environment such as existing key input and to increase the security of the user device. In addition, since the present invention uses a voice-based interface for unlocking a user device, it can be applied to a user device used by children and people with disabilities. Furthermore, the recognition level may be applied to the user device to adaptively set whether or not the user device is unlocked by determining the recognition level according to the setting value of the user setting parameter.
100: 사용자 장치 110: 음성 신호
120: 잠금 상태 130: 해제 상태
200: 사운드 유형 분석 210: 사용자 입력 음성
220: 사용자 음성 분석 230: 참조 텍스트
240: 사용자 설정 파라메터 400: 사용자 음성의 특징 정보
600: 전처리 단계 610: 음향 모델
620: 언어 모델 630: 단어 레벨 매칭 및 문장 레벨 매칭
640: 텍스트 700: SPU
710: 사운드 유형 분석부 720: 어휘 분석부
730: 개인별 음성 패턴 분석부 740: 사용자 설정부
750: 프로세서100: user device 110: voice signal
120: locked state 130: unlocked state
200: sound type analysis 210: user input voice
220: user voice analysis 230: reference text
240: User setting parameter 400: User voice feature information
600: pre-processing step 610: acoustic model
620: Language model 630: Word level matching and sentence level matching
640: text 700: SPU
710: sound type analysis unit 720: vocabulary analysis unit
730: personal voice pattern analysis unit 740: user setting unit
750: processor
Claims (11)
상기 소리 정보가 상기 사람의 음성인 경우, 상기 소리 정보를 기반으로 변환 텍스트를 생성하고, 상기 변환 텍스트와 상기 사용자 장치의 잠금 장치를 해제할지 여부를 결정하기 위한 판단 기준이 되는 텍스트 정보인 참조 텍스트를 비교하여 산출된 매칭 결과와 미리 설정한 사용자 설정 파라메터를 기반으로 상기 사용자 장치의 잠금을 해제할지 여부를 결정하도록 구현되는 개인별 음성 패턴 분석부; 및
상기 매칭 결과가 상기 사용자 설정 파라메터의 임계값을 만족하는 경우, 상기 사용자 장치의 잠금을 해제하도록 구현되는 프로세서
를 포함하며,
상기 사운드 유형 분석부는 상기 소리 정보에 패턴이 존재하지 않고 사람의 음성 주파수 대역인 경우 사람의 음성으로 판단하고, 사람의 음성이 아닌 경우 상기 소리 정보를 무시하여 상기 사용자 장치의 잠금 해제가 이루어지지 않도록 하며,
상기 매칭 결과는 상기 변환 텍스트와 상기 참조 텍스트 사이에 일치하는 토큰의 수에 대한 정보 및 매칭율에 대한 정보를 포함하고,
상기 사용자 설정 파라메터는 상기 사용자 장치의 잠금을 해제할지 여부를 결정하기 위해 설정된 상기 토큰의 수에 대한 임계값 정보 및 상기 매칭율에 대한 임계값 정보인 것을 특징으로 하는 음성에 기반한 잠금 해제를 수행하는 사용자 장치.A sound type analyzer configured to determine whether sound information input to the user device is a human voice;
When the sound information is the voice of the person, reference text that is text information that is a criterion for determining whether to generate a converted text based on the sound information and determine whether to unlock the locked device of the user device with the converted text A voice pattern analysis unit that is implemented to determine whether to unlock the user device based on the matching result calculated by comparing and a preset user setting parameter; And
A processor implemented to unlock the user device when the matching result satisfies the threshold of the user setting parameter
It includes,
The sound type analysis unit determines that the voice information is a human voice when there is no pattern in the sound information and the human voice frequency band, and if the voice information is not a human voice, the sound information is ignored to unlock the user device. And
The matching result includes information on the number of tokens matched between the converted text and the reference text and information on a matching rate,
The user setting parameter is threshold information for the number of tokens set to determine whether to unlock the user device and threshold information for the matching rate. User device.
상기 일치하는 토큰의 수는 상기 변환 텍스트와 상기 참조 텍스트에 포함된 단어 별로 매핑을 수행하여 매핑되는 단어의 개수에 기반하여 산출되고,
일치율은 상기 매핑되는 단어에서 일치하는 음절의 개수에 기반하여 산출되는 것을 특징으로 하는 음성에 기반한 잠금 해제를 수행하는 사용자 장치.According to claim 1,
The number of matching tokens is calculated based on the number of words mapped by performing mapping for each word included in the converted text and the reference text,
The matching rate is calculated based on the number of syllables that match in the mapped word, and the user device performs unlocking based on speech.
상기 개인별 음성 패턴 분석부는 상기 소리 정보를 토큰 단위로 분할하고, 상기 토큰 단위로 분할한 소리 정보를 사용자 음성의 특징 정보를 기반으로 전처리하고, 상기 전처리된 상기 소리 정보를 상기 텍스트로 변환하여 변환 텍스트를 생성하도록 구현되며,
상기 사용자 음성의 특징 정보는 주파수 정보인 것을 특징으로 하는 음성에 기반한 잠금 해제를 수행하는 사용자 장치.According to claim 1,
The individual voice pattern analysis unit divides the sound information into token units, pre-processes the sound information divided into token units based on feature information of the user's voice, and converts the pre-processed sound information into the text to convert text Is implemented to generate
A user device for unlocking based on voice, characterized in that the feature information of the user voice is frequency information.
상기 소리 정보가 상기 사람의 음성인 경우, 상기 소리 정보를 기반으로 변환 텍스트를 생성하는 단계;
상기 변환 텍스트와 상기 사용자 장치의 잠금 장치를 해제할지 여부를 결정하기 위한 판단 기준이 되는 텍스트 정보인 참조 텍스트를 비교하여 산출된 매칭 결과와 사용자 설정 파라메터를 기반으로 상기 사용자 장치의 잠금을 해제할지 여부를 결정하는 단계; 및
상기 매칭 결과가 상기 사용자 설정 파라메터의 임계값을 만족하는 경우, 상기 사용자 장치의 잠금을 해제하는 단계를 포함하며,
상기 사람의 음성인지 여부를 판단하는 단계는 상기 소리 정보에 패턴이 존재하지 않고 사람의 음성 주파수 대역인 경우 사람의 음성으로 판단하고, 상기 소리 정보가 사람의 음성이 아닌 경우 상기 소리 정보를 무시하여 상기 사용자 장치의 잠금 해제가 이루어지지 않도록 하는 단계를 더 포함하고,
상기 매칭 결과는 상기 변환 텍스트와 상기 참조 텍스트 사이에 일치하는 토큰의 수에 대한 정보 및 매칭율에 대한 정보를 포함하고,
상기 사용자 설정 파라메터는 상기 사용자 장치의 잠금을 해제할지 여부를 결정하기 위해 설정된 상기 토큰의 수에 대한 임계값 정보 및 상기 매칭율에 대한 임계값 정보인 것을 특징으로 하는 사용자 장치의 잠금 해제 방법.Determining whether sound information input to a user device is a human voice;
If the sound information is the voice of the person, generating converted text based on the sound information;
Whether to unlock the user device based on the matching result calculated by comparing the converted text and the reference text, which is text information that is a judgment criterion for determining whether to unlock the user device, and a user setting parameter. Determining; And
And when the matching result satisfies the threshold of the user setting parameter, unlocking the user device.
The step of determining whether the voice is the human voice is determined by the voice of the human when the pattern does not exist in the voice information and the voice frequency band of the human voice is ignored. Further comprising the step of preventing the user device from being unlocked,
The matching result includes information on the number of tokens matched between the converted text and the reference text and information on a matching rate,
The user setting parameter is threshold information for the number of tokens set to determine whether or not to unlock the user device, and threshold information for the matching rate.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020130115695A KR102140770B1 (en) | 2013-09-27 | 2013-09-27 | Method for unlocking user equipment based on voice, user equipment releasing lock based on voice and computer readable medium having computer program recorded therefor |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020130115695A KR102140770B1 (en) | 2013-09-27 | 2013-09-27 | Method for unlocking user equipment based on voice, user equipment releasing lock based on voice and computer readable medium having computer program recorded therefor |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20150035312A KR20150035312A (en) | 2015-04-06 |
KR102140770B1 true KR102140770B1 (en) | 2020-08-03 |
Family
ID=53030316
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020130115695A KR102140770B1 (en) | 2013-09-27 | 2013-09-27 | Method for unlocking user equipment based on voice, user equipment releasing lock based on voice and computer readable medium having computer program recorded therefor |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102140770B1 (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105096121B (en) | 2015-06-25 | 2017-07-25 | 百度在线网络技术(北京)有限公司 | voiceprint authentication method and device |
WO2020141696A1 (en) * | 2019-01-04 | 2020-07-09 | 주식회사 딥엑스 | Trained model creation method for performing specific function for electronic device, learning model for performing same function, exclusive chip and operation method for same, and electronic device and system |
KR102227512B1 (en) * | 2019-01-04 | 2021-03-12 | 주식회사 딥엑스 | Learned model generating method for device wakeup, learned model generated for the device wakeup, wakeup exclusive use chip for the device, wakeup exclusive use chip operating method for the device, device having a wakeup function and device wakeup system |
KR20220095988A (en) * | 2020-12-30 | 2022-07-07 | 삼성전자주식회사 | Apparatus and method for detecting a voice attack against the voice assistant service |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20020057262A (en) | 2000-12-30 | 2002-07-11 | 송문섭 | Method for locking mobile station using voice recognition |
US20060293898A1 (en) * | 2005-06-22 | 2006-12-28 | Microsoft Corporation | Speech recognition system for secure information |
KR101771013B1 (en) * | 2011-06-09 | 2017-08-24 | 삼성전자 주식회사 | Information providing method and mobile telecommunication terminal therefor |
-
2013
- 2013-09-27 KR KR1020130115695A patent/KR102140770B1/en active IP Right Grant
Also Published As
Publication number | Publication date |
---|---|
KR20150035312A (en) | 2015-04-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10699699B2 (en) | Constructing speech decoding network for numeric speech recognition | |
O’Shaughnessy | Automatic speech recognition: History, methods and challenges | |
EP1701338B1 (en) | Speech recognition method | |
JP6284462B2 (en) | Speech recognition method and speech recognition apparatus | |
CN105210147B (en) | Method, apparatus and computer-readable recording medium for improving at least one semantic unit set | |
KR102607373B1 (en) | Apparatus and method for recognizing emotion in speech | |
CN112581963B (en) | Voice intention recognition method and system | |
Razak et al. | Quranic verse recitation recognition module for support in j-QAF learning: A review | |
Nasereddin et al. | Classification techniques for automatic speech recognition (ASR) algorithms used with real time speech translation | |
KR102140770B1 (en) | Method for unlocking user equipment based on voice, user equipment releasing lock based on voice and computer readable medium having computer program recorded therefor | |
Biagetti et al. | Speaker identification in noisy conditions using short sequences of speech frames | |
Smit et al. | Continuous speech recognition with sparse coding | |
CN107251137B (en) | Method, apparatus and computer-readable recording medium for improving collection of at least one semantic unit using voice | |
Ananthakrishna et al. | Kannada word recognition system using HTK | |
Alex et al. | Variational autoencoder for prosody‐based speaker recognition | |
Sharma et al. | Soft-Computational Techniques and Spectro-Temporal Features for Telephonic Speech Recognition: an overview and review of current state of the art | |
Selvan et al. | Speaker recognition system for security applications | |
Kurian et al. | Automated Transcription System for MalayalamLanguage | |
Khalifa et al. | Statistical modeling for speech recognition | |
KR20210054001A (en) | Method and apparatus for providing voice recognition service | |
Ibiyemi et al. | Automatic speech recognition for telephone voice dialling in yorùbá | |
CN115424604B (en) | Training method of voice synthesis model based on countermeasure generation network | |
KR20180057315A (en) | System and method for classifying spontaneous speech | |
KR100776730B1 (en) | Speaker-independent variable-word keyword spotting system including garbage modeling unit using gaussian mixture model and method thereof | |
KR100677224B1 (en) | Speech recognition method using anti-word model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |