KR101480668B1 - Mobile Terminal Having Emotion Recognition Application using Voice and Method for Controlling thereof - Google Patents
Mobile Terminal Having Emotion Recognition Application using Voice and Method for Controlling thereof Download PDFInfo
- Publication number
- KR101480668B1 KR101480668B1 KR20140033566A KR20140033566A KR101480668B1 KR 101480668 B1 KR101480668 B1 KR 101480668B1 KR 20140033566 A KR20140033566 A KR 20140033566A KR 20140033566 A KR20140033566 A KR 20140033566A KR 101480668 B1 KR101480668 B1 KR 101480668B1
- Authority
- KR
- South Korea
- Prior art keywords
- user
- voice
- emotion
- unit
- terminal
- Prior art date
Links
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 63
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000008451 emotion Effects 0.000 claims abstract description 115
- 230000004044 response Effects 0.000 claims abstract description 11
- 230000007935 neutral effect Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 239000002304 perfume Substances 0.000 claims description 4
- 238000001228 spectrum Methods 0.000 claims description 4
- 230000002996 emotional effect Effects 0.000 abstract description 8
- 230000009118 appropriate response Effects 0.000 abstract description 5
- 230000000007 visual effect Effects 0.000 abstract description 3
- 239000003205 fragrance Substances 0.000 abstract description 2
- 238000004891 communication Methods 0.000 description 20
- 230000008569 process Effects 0.000 description 18
- 230000006870 function Effects 0.000 description 11
- 230000000694 effects Effects 0.000 description 10
- 238000006243 chemical reaction Methods 0.000 description 7
- 210000003811 finger Anatomy 0.000 description 7
- 239000004973 liquid crystal related substance Substances 0.000 description 7
- 238000010295 mobile communication Methods 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 5
- 230000004888 barrier function Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000008921 facial expression Effects 0.000 description 2
- 230000035807 sensation Effects 0.000 description 2
- 229910001220 stainless steel Inorganic materials 0.000 description 2
- 239000010935 stainless steel Substances 0.000 description 2
- 239000010936 titanium Substances 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- RTAQQCXQSZGOHL-UHFFFAOYSA-N Titanium Chemical compound [Ti] RTAQQCXQSZGOHL-UHFFFAOYSA-N 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000009849 deactivation Effects 0.000 description 1
- 230000005684 electric field Effects 0.000 description 1
- 230000005672 electromagnetic field Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000010408 film Substances 0.000 description 1
- 230000004886 head movement Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 238000001746 injection moulding Methods 0.000 description 1
- 239000007769 metal material Substances 0.000 description 1
- 230000003387 muscular Effects 0.000 description 1
- 230000010355 oscillation Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000002250 progressing effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000015541 sensory perception of touch Effects 0.000 description 1
- 239000000243 solution Substances 0.000 description 1
- 238000005507 spraying Methods 0.000 description 1
- 229920003002 synthetic resin Polymers 0.000 description 1
- 239000000057 synthetic resin Substances 0.000 description 1
- 239000010409 thin film Substances 0.000 description 1
- 210000003813 thumb Anatomy 0.000 description 1
- 229910052719 titanium Inorganic materials 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/016—Input arrangements with force or tactile feedback as computer generated output to the user
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72403—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2250/00—Details of telephonic subscriber devices
- H04M2250/74—Details of telephonic subscriber devices with voice recognition means
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Child & Adolescent Psychology (AREA)
- Probability & Statistics with Applications (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- General Physics & Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- User Interface Of Digital Computer (AREA)
- Telephone Function (AREA)
Abstract
Description
본 발명은 감정 인식 어플리케이션이 구비된 단말기 및 그 제어방법에 관한 것으로서, 보다 상세하게는 사용자의 음성을 이용하여 사용자의 감정을 인식하고, 사용자의 감정 상태에 따른 적절한 반응을 출력할 수 있는 단말기 및 그 제어방법에 관한 것이다.The present invention relates to a terminal equipped with an emotion recognition application and a control method thereof. More particularly, the present invention relates to a terminal capable of recognizing a feeling of a user using a voice of a user and outputting an appropriate response according to a feeling state of the user, And a control method thereof.
멀티모달 감정 인식(multimodal emotion recognition)은 facial expression, speech, gesture, gaze, head movement, context 등의 여러 가지 정보를 이용해서 감정을 파악하는 것을 의미하고, 멀티모달 인터페이스를 통한 멀티 모달 정보가 입력되면 각각의 모달리티에서 입력된 정보가 융합되어 분석될 수 있다. 또한, 멀티 모달리티에서 입력된 정보의 특징을 추출하고 분류하기 위해서는 다양한 학습 알고리즘이 사용될 수 있다. 이때, 어떠한 학습 알고리즘이 적용되는지 여부에 따라 결과를 분석하여 인식하는 에러율이 달라질 수 있다.Multimodal emotion recognition means grasping emotions using various kinds of information such as facial expression, speech, gesture, gaze, head movement, context, etc. When multimodal information through a multimodal interface is input The information input in each of the modalities can be fused and analyzed. In addition, various learning algorithms can be used to extract and classify the characteristics of the information input in the multi-modality. At this time, depending on which learning algorithm is applied, the error rate to be recognized can be changed by analyzing the result.
사용자의 감정을 인식할 수 있는 기능은 지능형 인터페이스의 중요 요소인데, 이를 위하여 사용자의 얼굴 표정, 음성 등의 특징을 이용한 감정인식 기술이 시도되고 있다. The ability to recognize the user 's emotions is an important element of the intelligent interface. For this purpose, emotion recognition technology using characteristics of the user' s facial expression and voice has been attempted.
그러나, 음성에 기반한 감정인식 기술의 경우 대부분 그 인식률이 만족할 만한 수준에 도달하지 못하는 문제점이 있었다.However, most of the emotion recognition technology based on voice has a problem that the recognition rate can not reach a satisfactory level.
또한, 자연스러운 감정을 유발하여 객체반응을 측정하지 않고, 인위적인 감정상태의 객체반응 데이터를 사용함으로써, 실제 이벤트와 매칭되지 않는 경우가 빈번하게 발생 된다는 문제점도 있었다.In addition, there has been a problem that frequent cases of not matching with actual events occur frequently by using object reaction data of an artificial emotional state without inducing natural emotions and measuring object reactions.
이에 따라, 사용자의 음성을 이용하여 사용자의 감정을 보다 정확하게 인식할 수 있으며, 상기 사용자의 감정상태를 고려하여 적절한 피드백을 제공할 수 있는 감정 인식 어플리케이션이 구비된 단말기의 개발이 요구되고 있는 실정이다.Accordingly, there is a need to develop a terminal equipped with an emotion recognition application that can recognize a user's emotion more accurately by using a user's voice and can provide appropriate feedback in consideration of the emotion state of the user .
본 발명은 상기와 같은 종래의 문제점을 해결하기 위하여 안출된 것으로서, 사용자의 음성을 이용하여 사용자의 감정을 인식하고, 사용자의 감정 상태에 따른 적절한 반응을 출력할 수 있는 단말기 및 그 제어방법을 사용자에게 제공하는 데 그 목적이 있다.Disclosure of Invention Technical Problem [8] The present invention has been made to solve the above problems, and it is an object of the present invention to provide a terminal capable of recognizing a user's emotions using a voice of a user and outputting an appropriate response according to a user's emotional state, To provide it to the public.
구체적으로, 본 발명은 사용자가 느끼는 복수의 감정에 따른 음성의 특징 파라미터를 활용하여 사용자의 감정을 보다 정확하게 인식할 수 있는 단말기 및 그 제어방법을 사용자에게 제공하는 데 그 목적이 있다.Specifically, the present invention provides a terminal and a control method thereof that can more accurately recognize a user's emotions by utilizing feature parameters of a voice corresponding to a plurality of emotions felt by a user.
또한, 본 발명은 사용자가 느끼는 감정에 대응하는 피드백을 단말기를 이용하여 출력하여 사용자의 감정상태를 고려한 피드백의 제공이 가능한 단말기 및 그 제어방법을 사용자에게 제공하는 데 그 목적이 있다.It is another object of the present invention to provide a terminal capable of providing feedback corresponding to emotion felt by a user by using a terminal and considering the emotional state of a user, and a control method thereof.
한편, 본 발명에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.It is to be understood that both the foregoing general description and the following detailed description of the present invention are exemplary and explanatory and are not intended to limit the invention to the precise form disclosed. It can be understood.
사용자의 음성을 이용하여 기 설정된 기준에 따라 분류된 복수의 감정을 인식할 수 있는 단말기에 있어서, 상술한 과제를 실현하기 위한 본 발명의 일례와 관련된 단말기는, 상기 사용자의 음성을 포함하는 제 1 음성을 획득하기 위한 마이크, 상기 복수의 감정과 관련된 음향 모델 데이터를 저장하는 메모리, 상기 제 1 음성을 수신받고 상기 음향 모델 데이터와 상기 제 1 음성을 이용하여 상기 복수의 감정 중 상기 사용자의 감정을 인식할 수 있는 감정 인식 수단, 시각정보를 표시하는 디스플레이부, 청각정보를 출력하는 음향 출력 모듈, 진동을 발생시키는 햅틱 모듈 및 후각정보를 발생시키는 방향부로 구성된 출력부 및 상기 사용자로부터 상기 단말기에 내장 설치된 감정 인식 어플리케이션의 동작에 관한 명령을 입력받기 위한 입력부를 포함하되, 상기 음향 모델 데이터는 상기 복수의 감정 각각에 대응하는 상기 음성의 특징 파라미터에 대한 정보이고, 상기 사용자가 상기 입력부를 이용하여 상기 감정 인식 어플리케이션의 실행 명령을 입력하는 경우, 상기 감정 인식 수단과 관련된 소정의 실행창이 상기 디스플레이부에 표시되어 상기 제 1 음성의 녹음을 유도하고, 상기 출력부는 상기 제 1 음성에 기초하여 인식된 상기 사용자의 감정에 대응하는 반응을 출력할 수 있다.There is provided a terminal capable of recognizing a plurality of emotions classified according to a preset reference using a user's voice, the terminal relating to an example of the present invention for realizing the above-mentioned problem, A memory for storing acoustic model data related to the plurality of emotions; a memory for storing the acoustic model data related to the plurality of emotions; and a processor for receiving the first voice and receiving the emotion of the user among the plurality of emotions using the acoustic model data and the first voice A display unit for displaying visual information, an acoustic output module for outputting auditory information, a haptic module for generating vibration, and an orientation unit for generating smell information, And an input unit for receiving a command related to the operation of the installed emotion recognition application, Wherein when the user inputs an execution command of the emotion recognition application by using the input unit, the acoustic model data is information on a feature parameter of the voice corresponding to each of the plurality of emotion, An execution window of the first voice may be displayed on the display unit to induce the recording of the first voice and the output unit may output a response corresponding to the emotion of the user recognized based on the first voice.
또한, 상기 반응은, 상기 디스플레이부에서의 제 1 자료 표시, 상기 음향 출력 모듈에서의 음향 출력, 상기 햅틱 모듈에서 소정 세기와 패턴을 갖는 진동의 발생 및 상기 방향부에서 발생되는 향기 중 적어도 하나를 포함할 수 있고, 상기 제 1 자료는 기 설정된 텍스트, 배경화면 및 이모티콘 중 적어도 하나이다.The reaction may include at least one of a first data display in the display unit, an acoustic output in the acoustic output module, a generation of vibration having a predetermined intensity and pattern in the haptic module, and a perfume generated in the direction unit And the first data is at least one of predetermined text, background, and emoticon.
또한, 상기 실행창은 상기 사용자로부터 녹음 정보를 입력받아 상기 제 1 음성의 녹음에 이용하고, 상기 녹음 정보는, 상기 사용자의 성별, 상기 제 1 음성의 녹음 시작 시점 및 상기 제 1 음성이 녹음되는 시간 중 적어도 하나에 대한 정보를 포함할 수 있다.The execution window receives the recording information from the user and uses the recording information to record the first voice. The recording information includes at least one of a sex of the user, a recording start point of the first voice, And / or < / RTI > time.
또한, 상기 메모리에는, 상기 성별에 따라 서로 다른 음향 모델 데이터가 저장될 수 있다.In the memory, acoustic model data different from each other according to the gender may be stored.
또한, 상기 감정 인식 수단은, 상기 제 1 음성의 신호 에너지(signal energy)에 기초하여 상기 제 1 음성에 녹음된 상기 사용자의 음성을 감지하는 감지부, 상기 감지된 상기 사용자의 음성에서 제 1 특징 파라미터를 추출하는 추출부 및 상기 제 1 특징 파라미터를 상기 음향 모델 데이터와 비교하여 상기 사용자의 감정을 판단하는 인식부를 더 포함할 수 있다.The emotion recognizing means may include a sensing unit for sensing the voice of the user recorded in the first voice based on the signal energy of the first voice, An extraction unit for extracting a parameter and a recognition unit for comparing the first characteristic parameter with the acoustic model data to determine the emotion of the user.
또한, 상기 추출부에 의하여 추출된 상기 특징 파라미터는 MFCC(Mel-Frequency Cepstral Coefficient) 및 로그 에너지(Log-energy)를 포함할 수 있다.In addition, the feature parameter extracted by the extracting unit may include a Mel-Frequency Cepstral Coefficient (MFCC) and a log energy.
또한, 상기 MFCC는, 상기 감지부에 의하여 감지된 사용자의 음성에 FFT(Fast Fourier Transform)을 적용하고, 상기 FFT가 적용된 결과에 Mel-scale의 필터 뱅크를 적용하여 파워스펙트럼을 구하며, 상기 파워스펙트럼에 로그(log)를 취하고, 상기 로그를 취한 결과에 DCT(Discrete Cosine Transform)를 적용하여 얻어질 수 있다.In addition, the MFCC applies a Fast Fourier Transform (FFT) to the user's voice sensed by the sensing unit, obtains a power spectrum by applying a Mel-scale filter bank to the result of applying the FFT, , And applying DCT (Discrete Cosine Transform) to the result of taking the log.
또한, 상기 인식부는, 상기 메모리에 저장된 상기 음향 모델 데이터와 상기 제 1 특징 파라미터의 관측 확률값을 계산하고, 상기 계산된 관측 확률값 중 가장 높은 관측 확률값을 갖는 음향 모델 데이터에 대응하는 감정을 상기 사용자의 감정으로 판단할 수 있다. The recognition unit may calculate the observation probability value of the acoustic model data and the first feature parameter stored in the memory and may further include an emotion corresponding to the acoustic model data having the highest observation probability value among the calculated observation probability values, It can be judged by emotion.
또한, 상기 메모리에 저장된 음향 모델 데이터는, 은닉 마르코프 모델(Hidden Markov Model)에 기초하여 생성될 수 있다.Also, the acoustic model data stored in the memory may be generated based on a hidden Markov model.
또한, 상기 사용자가 상기 입력부를 이용하여 상기 실행창에 표시된 업데이트 실행 명령을 입력하는 경우, 상기 사용자에 대한 음향 모델 데이터가 상기 은닉 마르코프 모델에 기초하여 생성되어 상기 메모리에 추가적으로 저장될 수 있다.Also, when the user inputs the update execution command displayed in the execution window using the input unit, acoustic model data for the user may be generated based on the hidden Markov model and additionally stored in the memory.
또한, 상기 기 설정된 기준에 따라 분류된 복수의 감정은, 중립, 기쁨, 분노 및 슬픔 중 적어도 하나를 포함할 수 있다.In addition, the plurality of emotions classified according to the predetermined criteria may include at least one of neutral, joy, anger, and grief.
또한, 상기 사용자가 상기 단말기를 이용하여 상대방과 통화 중인 경우, 상기 단말기는 상기 감정 인식 수단을 이용하여 상기 상대방의 감정을 인식하고, 상기 출력부는 상기 인식된 상대방의 감정에 대응하여 반응을 출력할 수 있다.In addition, when the user is in communication with the other party using the terminal, the terminal recognizes the emotion of the other party using the emotion recognition unit, and the output unit outputs a response corresponding to the emotion of the recognized party .
사용자의 음성을 이용하여 기 설정된 기준에 따라 분류된 복수의 감정을 인식할 수 있는 단말기를 제어하는 방법에 있어서, 상술한 과제를 실현하기 위한 본 발명의 일례와 관련된 단말기의 제어방법은, 상기 사용자로부터 상기 단말기에 내장 설치된 감정 인식 어플리케이션의 실행 명령을 입력받는 제 1 단계, 감정 인식 수단과 관련된 소정의 실행창이 디스플레이부에 표시되는 제 2 단계, 상기 사용자가 상기 사용자의 음성을 포함하는 제 1 음성에 대한 녹음 정보를 입력하는 제 3 단계, 상기 제 1 음성이 녹음되는 제 4 단계, 상기 감정 인식 수단으로 상기 제 1 음성이 전송되는 제 5 단계, 상기 감정 인식 수단이 음향 모델 데이터와 상기 제 1 음성을 이용하여 상기 복수의 감정 중 상기 사용자의 감정을 인식하는 제 6 단계 및 출력부가 상기 제 1 음성에 기초하여 인식된 상기 사용자의 감정에 대응하는 반응을 출력하는 제 7 단계를 포함하되, 상기 음향 모델 데이터는 상기 복수의 감정 각각에 대응하는 상기 음성의 특징 파라미터에 대한 정보이고, 상기 출력부는 시각정보를 표시하는 상기 디스플레이부, 청각정보를 출력하는 음향 출력 모듈, 진동을 발생시키는 햅틱 모듈 및 후각정보를 발생시키는 방향부로 구성될 수 있다.There is provided a method of controlling a terminal capable of recognizing a plurality of emotions classified according to a predetermined reference by using a user's voice, A second step of displaying a predetermined execution window associated with the emotion recognition means on the display unit, and a second step of displaying a first execution result of the first voice A fourth step in which the first voice is recorded, a fifth step in which the first voice is transmitted to the emotion recognition means, the third step in which the emotion recognition means acquires the acoustic model data and the first A sixth step of recognizing the emotion of the user among the plurality of emotions by using a voice, And a seventh step of outputting a response corresponding to the user's emotion recognized on the basis of the plurality of emotions, wherein the acoustic model data is information on a feature parameter of the voice corresponding to each of the plurality of emotions, A sound output module for outputting auditory information, a haptic module for generating vibration, and a direction portion for generating smell information.
또한, 상기 반응은, 상기 디스플레이부에서의 제 1 자료 표시, 상기 음향 출력 모듈에서의 음향 출력, 상기 햅틱 모듈에서 소정 세기와 패턴을 갖는 진동의 발생 및 상기 방향부에서 발생되는 향기 중 적어도 하나를 포함할 수 있고, 상기 제 1 자료는 기 설정된 텍스트, 배경화면 및 이모티콘 중 적어도 하나이다.The reaction may include at least one of a first data display in the display unit, an acoustic output in the acoustic output module, a generation of vibration having a predetermined intensity and pattern in the haptic module, and a perfume generated in the direction unit And the first data is at least one of predetermined text, background, and emoticon.
또한, 상기 제 6 단계는, 상기 제 1 음성의 신호 에너지(signal energy)에 기초하여 상기 제 1 음성에 녹음된 상기 사용자의 음성을 감지하는 단계, 상기 감지된 상기 사용자의 음성에서 제 1 특징 파라미터를 추출하는 단계 및 상기 제 1 특징 파라미터를 상기 음향 모델 데이터와 비교하여 상기 사용자의 감정을 판단하는 단계를 더 포함할 수 있다.The sixth step may include detecting a voice of the user recorded on the first voice based on a signal energy of the first voice, And comparing the first feature parameter with the acoustic model data to determine an emotion of the user.
또한, 상기 기 설정된 기준에 따라 분류된 복수의 감정은, 중립, 기쁨, 분노 및 슬픔 중 적어도 하나를 포함할 수 있다.In addition, the plurality of emotions classified according to the predetermined criteria may include at least one of neutral, joy, anger, and grief.
본 발명은 사용자의 음성을 이용하여 사용자의 감정을 인식하고, 사용자의 감정 상태에 따른 적절한 반응을 출력할 수 있는 단말기 및 그 제어방법을 사용자에게 제공할 수 있다.The present invention can provide a user with a terminal capable of recognizing a user's emotion using a user's voice and outputting an appropriate response according to a user's emotional state and a control method thereof.
구체적으로, 본 발명은 사용자가 느끼는 복수의 감정에 따른 음성의 특징 파라미터를 활용하여 사용자의 감정을 보다 정확하게 인식할 수 있는 단말기 및 그 제어방법을 사용자에게 제공할 수 있다.Specifically, the present invention can provide a user with a terminal and a control method thereof that can more accurately recognize a user's emotions by utilizing characteristic parameters of a voice according to a plurality of emotions felt by the user.
또한, 본 발명은 사용자가 느끼는 감정에 대응하는 피드백을 단말기를 이용하여 출력하여 사용자의 감정상태를 고려한 피드백의 제공이 가능한 단말기 및 그 제어방법을 사용자에게 제공할 수 있다.In addition, the present invention can provide a user with a terminal capable of providing feedback in consideration of a user's emotional state by outputting feedback corresponding to emotion felt by the user using the terminal and a control method thereof.
한편, 본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.It should be understood, however, that the effects obtained by the present invention are not limited to the above-mentioned effects, and other effects not mentioned may be clearly understood by those skilled in the art to which the present invention belongs It will be possible.
본 명세서에 첨부되는 다음의 도면들은 본 발명의 바람직한 일 실시례를 예시하는 것이며, 발명의 상세한 설명과 함께 본 발명의 기술적 사상을 더욱 이해시키는 역할을 하는 것이므로, 본 발명은 그러한 도면에 기재된 사항에만 한정되어 해석되어서는 아니 된다.
도 1은 본 발명의 감정 인식 어플리케이션이 구비된 단말기의 블록 구성도의 일례를 나타낸 것이다.
도 2a 및 도 2b는 본 발명과 관련된 단말기의 전면 사시도 및 후면 사시도의 일례를 나타낸다.
도 3은 본 발명과 관련된 단말기의 일 작동 상태를 설명하기 위한 단말기의 정면도이다.
도 4는 본 발명에 따른 감정 인식 어플리케이션의 실행에 의한 실행창의 일 실시례를 나타낸다.
도 5a 및 도 5b는 감정 인식 수단의 추출부가 특징 파라미터를 추출하는 과정의 일 실시례를 개략적으로 나타낸 것이다.
도 6a 및 도 6b는 감정 인식 수단의 인식부가 감정을 훈련 및 인식하는 과정의 일 실시례를 개략적으로 나타낸 것이다.
도 7은 본 발명의 감정 인식 수단에 따른 인식률 및 인식시간에 대한 실험 결과를 나타낸다.
도 8은 본 발명의 감정 인식 수단이 사용자의 감정을 인식하는 과정을 개략적으로 나타낸 것이다.BRIEF DESCRIPTION OF THE DRAWINGS The accompanying drawings, which are incorporated in and constitute a part of the specification, illustrate a preferred embodiment of the invention and, together with the description, serve to provide a further understanding of the technical idea of the invention, It should not be construed as limited.
1 shows an example of a block diagram of a terminal equipped with an emotion recognition application of the present invention.
2A and 2B illustrate a front perspective view and a rear perspective view of a terminal related to the present invention.
3 is a front view of a terminal for explaining an operation state of a terminal related to the present invention.
4 shows an embodiment of an execution window by execution of the emotion recognition application according to the present invention.
5A and 5B schematically show an embodiment of a process of extracting a feature parameter of an extracting section of the emotion recognition means.
6A and 6B schematically illustrate an embodiment of a process of recognizing and training the emotion of the emotion recognition means.
FIG. 7 shows experimental results on recognition rate and recognition time according to the emotion recognition means of the present invention.
8 is a schematic view illustrating a process of recognizing a user's emotion by the emotion recognition means of the present invention.
이하, 도면을 참조하여 본 발명의 바람직한 일 실시례에 대해서 설명한다. 또한, 이하에 설명하는 일 실시례는 특허청구범위에 기재된 본 발명의 내용을 부당하게 한정하지 않으며, 본 실시 형태에서 설명되는 구성 전체가 본 발명의 해결 수단으로서 필수적이라고는 할 수 없다.Hereinafter, a preferred embodiment of the present invention will be described with reference to the drawings. In addition, the embodiment described below does not unduly limit the contents of the present invention described in the claims, and the entire configuration described in this embodiment is not necessarily essential as the solution means of the present invention.
이하에서는, 본 발명이 제안하고자 하는 음성을 이용한 감정 인식 어플리케이션이 구비된 단말기를 구체적으로 설명한다.Hereinafter, a terminal equipped with an emotion recognition application using voice to be proposed by the present invention will be described in detail.
본 명세서에서 설명되는 이동 단말기, 이동단말, 단말 또는 휴대 단말기에는 휴대폰, 스마트 폰(smart phone), 노트북 컴퓨터(laptop computer), 디지털방송용 단말기, PDA(Personal Digital Assistants), PMP(Portable Multimedia Player), 네비게이션 등이 포함될 수 있다. 그러나, 본 명세서에 기재된 실시례에 따른 구성은 휴대 단말기에만 적용 가능한 경우를 제외하면, 디지털 TV, 데스크탑 컴퓨터 등과 같은 고정 단말기에도 적용될 수도 있음을 본 기술분야의 당업자라면 쉽게 알 수 있을 것이다.A mobile phone, a smart phone, a laptop computer, a digital broadcasting terminal, a PDA (Personal Digital Assistants), a PMP (Portable Multimedia Player), a PDA Navigation, and the like. However, it will be apparent to those skilled in the art that the configuration according to the embodiments described herein may be applied to a fixed terminal such as a digital TV, a desktop computer, and the like, unless the configuration is applicable only to a portable terminal.
도 1은 본 발명의 감정 인식 어플리케이션이 구비된 단말기의 블록 구성도의 일례를 나타낸 것이다.1 shows an example of a block diagram of a terminal equipped with an emotion recognition application of the present invention.
상기 단말기(1100)는 무선 통신부(1110), A/V(Audio/Video) 입력부(1120), 입력부(1130), 센싱부(1140), 출력부(1150), 메모리(1160), 인터페이스부(1170), 제어부(1180) 및 전원 공급부(1190) 등을 포함할 수 있다. 도 1에 도시된 구성요소들이 필수적인 것은 아니어서, 그보다 많은 구성요소들을 갖거나 그보다 적은 구성요소들을 갖는 단말기가 구현될 수도 있다.The
이하, 상기 구성요소들에 대해 차례로 살펴본다.Hereinafter, the components will be described in order.
무선 통신부(1110)는 단말기(1100)와 무선 통신 시스템 사이 또는 단말기(1100)와 단말기(1100)가 위치한 네트워크 사이의 무선 통신을 가능하게 하는 하나 이상의 모듈을 포함할 수 있다. 예를 들어, 무선 통신부(1110)는 방송 수신 모듈(111), 이동통신 모듈(1112), 무선 인터넷 모듈(1113), 근거리 통신 모듈(1114) 및 위치정보 모듈(1115) 등을 포함할 수 있다.The
방송 수신 모듈(1111)은 방송 채널을 통하여 외부의 방송 관리 서버로부터 방송 신호 및/또는 방송 관련된 정보를 수신한다. The
상기 방송 채널은 위성 채널, 지상파 채널을 포함할 수 있다. 상기 방송 관리 서버는, 방송 신호 및/또는 방송 관련 정보를 생성하여 송신하는 서버 또는 기 생성된 방송 신호 및/또는 방송 관련 정보를 제공받아 단말기에 송신하는 서버를 의미할 수 있다. 상기 방송 신호는, TV 방송 신호, 라디오 방송 신호, 데이터 방송 신호를 포함할 뿐만 아니라, TV 방송 신호 또는 라디오 방송 신호에 데이터 방송 신호가 결합한 형태의 방송 신호도 포함할 수 있다. The broadcast channel may include a satellite channel and a terrestrial channel. The broadcast management server may refer to a server for generating and transmitting broadcast signals and / or broadcast related information, or a server for receiving broadcast signals and / or broadcast related information generated by the broadcast management server and transmitting the generated broadcast signals and / or broadcast related information. The broadcast signal may include a TV broadcast signal, a radio broadcast signal, a data broadcast signal, and a broadcast signal in which a data broadcast signal is combined with a TV broadcast signal or a radio broadcast signal.
상기 방송 관련 정보는, 방송 채널, 방송 프로그램 또는 방송 서비스 제공자에 관련한 정보를 의미할 수 있다. 상기 방송 관련 정보는, 이동통신망을 통하여도 제공될 수 있다. 이러한 경우에는 상기 이동통신 모듈(1112)에 의해 수신될 수 있다.The broadcast-related information may refer to a broadcast channel, a broadcast program, or information related to a broadcast service provider. The broadcast-related information may also be provided through a mobile communication network. In this case, it may be received by the mobile communication module 1112.
상기 방송 관련 정보는 다양한 형태로 존재할 수 있다. 예를 들어, DMB(Digital Multimedia Broadcasting)의 EPG(Electronic Program Guide) 또는 DVB-H(Digital Video Broadcast-Handheld)의 ESG(Electronic Service Guide) 등의 형태로 존재할 수 있다.The broadcast-related information may exist in various forms. For example, an EPG (Electronic Program Guide) of DMB (Digital Multimedia Broadcasting) or an ESG (Electronic Service Guide) of Digital Video Broadcast-Handheld (DVB-H).
상기 방송 수신 모듈(1111)은, 예를 들어, DMB-T(Digital Multimedia Broadcasting-Terrestrial), DMB-S(Digital Multimedia Broadcasting-Satellite), MediaFLO(Media Forward Link Only), DVB-H(Digital Video Broadcast-Handheld), DVB-CBMS, OMA-BCAST, ISDB-T(Integrated Services Digital Broadcast-Terrestrial) 등의 디지털 방송 시스템을 이용하여 디지털 방송 신호를 수신할 수 있다. 물론, 상기 방송 수신 모듈(1111)은, 상술한 디지털 방송 시스템뿐만 아니라 다른 방송 시스템에 적합하도록 구성될 수도 있다.For example, the
방송 수신 모듈(1111)을 통해 수신된 방송 신호 및/또는 방송 관련 정보는 메모리(1160)에 저장될 수 있다.The broadcast signal and / or broadcast related information received through the
이동통신 모듈(1112)은, 이동 통신망 상에서 기지국, 외부의 단말, 서버 중 적어도 하나와 무선 신호를 송수신한다. 상기 무선 신호는, 음성 호 신호, 화상 통화 호 신호 또는 문자/멀티미디어 메시지 송수신에 따른 다양한 형태의 데이터를 포함할 수 있다. The mobile communication module 1112 transmits and receives radio signals to at least one of a base station, an external terminal, and a server on a mobile communication network. The wireless signal may include various types of data depending on a voice call signal, a video call signal or a text / multimedia message transmission / reception.
무선 인터넷 모듈(1113)은 무선 인터넷 접속을 위한 모듈을 말하는 것으로, 단말기(1100)에 내장되거나 외장될 수 있다.The
상기 무선 인터넷의 기술로는 WLAN(Wireless LAN)(Wi-Fi), Wibro(Wireless broadband), Wimax(World Interoperability for Microwave Access), HSDPA(High Speed Downlink Packet Access) 등이 이용될 수 있다.WLAN (Wi-Fi), Wibro (Wireless broadband), Wimax (World Interoperability for Microwave Access), HSDPA (High Speed Downlink Packet Access) and the like can be used as the technology of the wireless Internet.
근거리 통신 모듈(1114)은 근거리 통신을 위한 모듈을 말한다. 상기 근거리 통신(short range communication)의 기술로는 블루투스(Bluetooth), RFID(Radio Frequency Identification), 적외선 통신(IrDA, infrared Data Association), UWB(Ultra Wideband), ZigBee 등이 이용될 수 있다.The short-
위치 정보 모듈(1115)은 단말기(1100)의 위치를 획득하기 위한 모듈로서, 그의 대표적인 예로는 GPS(Global Position System) 모듈이 있다. 현재 기술에 의하면, 상기 GPS모듈(1115)은 3개 이상의 위성으로부터 떨어진 거리 정보와 정확한 시간 정보를 산출한 다음 상기 산출된 정보에 삼각법을 적용함으로써, 위도, 경도, 및 고도에 따른 3차원의 현 위치 정보를 정확히 산출할 수 있다. 현재, 3개의 위성을 이용하여 위치 및 시간 정보를 산출하고, 또 다른 1개의 위성을 이용하여 상기 산출된 위치 및 시간 정보의 오차를 수정하는 방법이 널리 사용되고 있다. 또한, GPS 모듈(1115)은 현 위치를 실시간으로 계속 산출함으로써 속도 정보를 산출할 수 있다. The position information module 1115 is a module for obtaining the position of the terminal 1100, and a representative example thereof is a Global Position System (GPS) module. According to the current technology, the GPS module 1115 calculates distance information and accurate time information from three or more satellites, and then applies a trigonometric method to the calculated information to generate a three-dimensional string of latitude, longitude, The location information can be accurately calculated. At present, a method of calculating position and time information using three satellites and correcting an error of the calculated position and time information using another satellite is widely used. In addition, the GPS module 1115 can calculate speed information by continuously calculating the current position in real time.
도 1를 참조하면, A/V(Audio/Video) 입력부(1120)는 오디오 신호 또는 비디오 신호 입력을 위한 것으로, 이에는 카메라 모듈(1121)과 마이크(1122) 등이 포함될 수 있다. 카메라 모듈(1121)은 화상 통화모드 또는 촬영 모드에서 이미지 센서에 의해 얻어지는 정지영상 또는 동영상 등의 화상 프레임을 처리한다. 처리된 화상 프레임은 디스플레이부(1151)에 표시될 수 있다.1, an A / V (Audio / Video)
카메라 모듈(1121)에서 처리된 화상 프레임은 메모리(1160)에 저장되거나 무선 통신부(1110)를 통하여 외부로 전송될 수 있다. The image frame processed by the
카메라 모듈(1121)은 사용 환경에 따라 2개 이상이 구비될 수도 있다.At least two
일례로, 상기 카메라 모듈(1121)은 단말기(1100)의 디스플레이부(1151)가 구비된 반대면에 3D 영상 촬영을 위한 제1 및 제2 카메라(1121a, 1121b)가 구비될 수 있고, 상기 단말기(1100)의 디스플레이부(1151)가 구비된 면의 일부 영역에 사용자의 셀프 촬영을 위한 제3 카메라(1121c)가 구비될 수 있다.For example, the
이때, 제1 카메라(1121a)는 3D 영상의 소스 영상인 좌안 영상 촬영을 위한 것이고, 제2 카메라(1121b)는 우안 영상 촬영을 위한 것이 될 수 있다.In this case, the
마이크(1122)는 통화모드 또는 녹음모드, 음성 인식 모드 등에서 마이크로폰(Microphone)에 의해 외부의 음향 신호를 입력받아 전기적인 음성 데이터로 처리한다. 처리된 음성 데이터는 통화 모드인 경우 이동통신 모듈(1112)을 통하여 이동통신 기지국으로 송신 가능한 형태로 변환되어 출력될 수 있다. 마이크(1122)에는 외부의 음향 신호를 입력받는 과정에서 발생되는 잡음(noise)을 제거하기 위한 다양한 잡음 제거 알고리즘이 구현될 수 있다.The
특히, 마이크(1122)는 상기 음성 인식 모드에서 본 발명의 단말기를 사용하는 사용자의 음성을 녹음하기 위하여 사용될 수 있다. 마이크(1122)에 의하여 녹음된 음성은 제어부(1180)의 감정 인식 수단에 의하여 사용자의 감정 인식에 사용될 수 있다.In particular, the
입력부(1130)는 사용자가 단말기의 동작 제어를 위한 입력 데이터를 발생시킬 수 있으며, 본 발명의 단말기(1100)에 내장 설치되어 있는 감정 인식 어플리케이션의 전반적인 동작과 관련된 명령을 발생시킬 수 있다. The
예를 들어, 사용자가 입력부(1130)를 이용하여 감정 인식 어플리케이션의 실행 명령을 입력하는 경우, 감정 인식 수단의 감정 인식을 위한 일련의 프로세스의 진행을 위하여 디스플레이부(1151)에 소정의 실행창을 표시시킬 수 있다.For example, when the user inputs an execution command of the emotion recognition application using the
입력부(1130)는 본 발명에 따라 표시되는 컨텐트들 중 두 개 이상의 컨텐트를 지정하는 신호를 사용자로부터 수신할 수 있다. 그리고, 두 개 이상의 컨텐트를 지정하는 신호는, 터치입력을 통하여 수신되거나, 하드키 및 소프트 키입력을 통하여 수신될 수 있다. The
입력부(1130)는 상기 하나 또는 둘 이상의 컨텐트들을 선택하는 입력을 사용자로부터 수신할 수 있다. 또한, 사용자로부터 단말기(1100)가 수행할 수 있는 기능과 관련된 아이콘을 생성하는 입력을 수신할 수 있다.The
상기와 같은, 입력부(1130)는 방향키, 키 패드(key pad), 돔 스위치 (dome switch), 터치 패드(정압/정전), 조그 휠, 조그 스위치 등으로 구성될 수 있다. The
센싱부(1140)는 단말기(1100)의 개폐 상태, 단말기(1100)의 위치, 사용자 접촉 유무, 단말기(1100)의 방위, 단말기(1100)의 가속/감속 등과 같이 단말기(1100)의 현 상태를 감지하여 단말기(1100)의 동작을 제어하기 위한 센싱 신호를 발생시킨다. 예를 들어 단말기(1100)가 슬라이드 폰 형태인 경우 슬라이드 폰의 개폐 여부를 센싱할 수 있다. 또한, 배터리의 전원 공급 여부, 인터페이스부(1170)의 외부 기기 결합 여부 등을 센싱할 수도 있다. 한편, 상기 센싱부(1140)는 근접 센서(1141)를 포함할 수 있다. 상기 근접 센서(1141)에 대해서는 나중에 터치스크린과 관련되어 후술된다.The
출력부(1150)는 시각, 청각 또는 촉각 등과 관련된 출력을 발생시키기 위한 것으로, 이에는 디스플레이부(1151), 음향 출력 모듈(1152), 알람부(1153), 햅틱 모듈(154) 및 프로젝터 모듈(1155) 등이 포함될 수 있다.The
디스플레이부(1151)는 단말기(1100)에서 처리되는 정보를 표시(출력)한다. 예를 들어, 단말기가 통화 모드인 경우 통화와 관련된 UI(User Interface) 또는 GUI(Graphic User Interface)를 표시한다. 단말기(1100)가 화상 통화 모드 또는 촬영 모드인 경우에는 촬영 또는/및 수신된 영상 또는 UI, GUI를 표시한다. The
또한, 본 발명에 따른 디스플레이부(1151)는 2D 및 3D 표시 모드를 지원한다.In addition, the
즉, 본 발명에 따른 디스플레이부(1151)는 이하의 도 1에 도시된 바와 같이, 일반적인 디스플레이 장치(1151a)에 스위치 액정(1151b)을 조합하는 구성을 가질 수 있다. 그리고, 스위치 액정(1151b)을 이용하여 광학 시차 장벽을 작동시켜 광의 진행 방향을 제어하여 좌우의 눈에 각기 다른 광이 도달하도록 분리할 수 있다. 때문에 우안용 영상과 좌안용 영상이 조합된 영상이 디스플레이 장치(1151a)에 표시되는 경우 사용자의 입장에서는 각각의 눈에 대응한 화상이 보여 마치 입체로 표시된 것처럼 느끼게 된다.That is, the
즉, 디스플레이부(1151)는 제어부(1180)의 제어에 따라, 2D 표시 모드인 상태에서는 상기 스위치 액정(1151b) 및 광학 시차 장벽을 구동시키지 않고, 상기 디스플레이 장치(1151a)만을 구동시켜 일반적인 2D 표시 동작을 수행한다.That is, under the control of the
또한, 디스플레이부(1151)는 제어부(1180)의 제어에 따라, 3D 표시 모드인 상태에서는 상기 스위치 액정(1151b)과, 광학 시차 장벽 및 디스플레이 장치(1151a)를 구동시켜 3D 표시 동작을 수행한다.Under the control of the
한편, 상기와 같은 디스플레이부(1151)는 액정 디스플레이(liquid crystal display, LCD), 박막 트랜지스터 액정 디스플레이(thin film transistor-liquid crystal display, TFT LCD), 유기 발광 다이오드(organic light-emitting diode, OLED), 플렉시블 디스플레이(flexible display), 3차원 디스플레이(3D display) 중에서 적어도 하나를 포함할 수 있다. The
이들 중 일부 디스플레이는 그를 통해 외부를 볼 수 있도록 투명형 또는 광투과형으로 구성될 수 있다. 이는 투명 디스플레이라 호칭될 수 있는데, 상기 투명 디스플레이의 대표적인 예로는 TOLED(Transparant OLED) 등이 있다. 디스플레이부(1151)의 후방 구조 또한 광 투과형 구조로 구성될 수 있다. 이러한 구조에 의하여, 사용자는 단말기 바디의 디스플레이부(1151)가 차지하는 영역을 통해 단말기 바디의 후방에 위치한 사물을 볼 수 있다.Some of these displays may be transparent or light transmissive so that they can be seen through. This can be referred to as a transparent display, and a typical example of the transparent display is TOLED (Transparent OLED) and the like. The rear structure of the
단말기(1100)의 구현 형태에 따라 디스플레이부(1151)가 2개 이상 존재할 수 있다. 예를 들어, 단말기(1100)에는 복수의 디스플레이부들이 하나의 면에 이격되거나 일체로 배치될 수 있고, 또한 서로 다른 면에 각각 배치될 수도 있다. There may be two or
디스플레이부(1151)와 터치 동작을 감지하는 센서(이하, '터치 센서'라 함)가 상호 레이어 구조를 이루는 경우(이하, '터치 스크린'이라 함)에, 디스플레이부(1151)는 출력 장치 이외에 입력 장치로도 사용될 수 있다. 터치 센서는, 예를 들어, 터치 필름, 터치 시트, 터치 패드 등의 형태를 가질 수 있다.(Hereinafter, referred to as a 'touch screen') in which a
터치 센서는 디스플레이부(1151)의 특정 부위에 가해진 압력 또는 디스플레이부(1151)의 특정 부위에 발생하는 정전 용량 등의 변화를 전기적인 입력신호로 변환하도록 구성될 수 있다. 터치 센서는 터치 되는 위치 및 면적뿐만 아니라, 터치 시의 압력까지도 검출할 수 있도록 구성될 수 있다. The touch sensor may be configured to convert a change in a pressure applied to a specific portion of the
터치 센서에 대한 터치 입력이 있는 경우, 그에 대응하는 신호(들)는 터치 제어기(미도시)로 보내진다. 터치 제어기는 그 신호(들)를 처리한 다음 대응하는 데이터를 제어부(1180)로 전송한다. 이로써, 제어부(1180)는 디스플레이부(1151)의 어느 영역이 터치 되었는지 여부 등을 알 수 있게 된다.If there is a touch input to the touch sensor, the corresponding signal (s) is sent to the touch controller (not shown). The touch controller processes the signal (s) and transmits corresponding data to
상기 근접 센서(1141)는 상기 터치스크린에 의해 감싸지는 단말기(1100)의 내부 영역 또는 상기 터치 스크린의 근처에 배치될 수 있다. 상기 근접 센서는 소정의 검출면에 접근하는 물체, 혹은 근방에 존재하는 물체의 유무를 전자계의 힘 또는 적외선을 이용하여 기계적 접촉이 없이 검출하는 센서를 말한다. 근접 센서는 접촉식 센서보다는 그 수명이 길며 그 활용도 또한 높다. The
상기 근접 센서의 예로는 투과형 광전 센서, 직접 반사형 광전 센서, 미러 반사형 광전 센서, 고주파 발진형 근접 센서, 정전용량형 근접 센서, 자기형 근접 센서, 적외선 근접 센서 등이 있다. 상기 터치스크린이 정전식인 경우에는 상기 포인터의 근접에 따른 전계의 변화로 상기 포인터의 근접을 검출하도록 구성된다. 이 경우 상기 터치 스크린(터치 센서)은 근접 센서로 분류될 수도 있다.Examples of the proximity sensor include a transmission type photoelectric sensor, a direct reflection type photoelectric sensor, a mirror reflection type photoelectric sensor, a high frequency oscillation type proximity sensor, a capacitive proximity sensor, a magnetic proximity sensor, and an infrared proximity sensor. And to detect the proximity of the pointer by the change of the electric field along the proximity of the pointer when the touch screen is electrostatic. In this case, the touch screen (touch sensor) may be classified as a proximity sensor.
이하에서는 설명의 편의를 위해, 상기 터치스크린 상에 포인터가 접촉되지 않으면서 근접되어 상기 포인터가 상기 터치스크린 상에 위치함이 인식되도록 하는 행위를 "근접 터치(proximity touch)"라고 칭하고, 상기 터치스크린 상에 포인터가 실제로 접촉되는 행위를 "접촉 터치(contact touch)"라고 칭한다. 상기 터치스크린 상에서 포인터로 근접 터치가 되는 위치라 함은, 상기 포인터가 근접 터치될 때 상기 포인터가 상기 터치스크린에 대해 수직으로 대응되는 위치를 의미한다.Hereinafter, for convenience of explanation, the act of recognizing that the pointer is positioned on the touch screen while the pointer is not in contact with the touch screen is referred to as "proximity touch & The act of actually touching the pointer on the screen is called "contact touch. &Quot; The position where the pointer is proximately touched on the touch screen means a position where the pointer is vertically corresponding to the touch screen when the pointer is touched.
상기 근접센서는, 근접 터치와, 근접 터치 패턴(예를 들어, 근접 터치 거리, 근접 터치 방향, 근접 터치 속도, 근접 터치 시간, 근접 터치 위치, 근접 터치 이동 상태 등)을 감지한다. 상기 감지된 근접 터치 동작 및 근접 터치 패턴에 상응하는 정보는 터치 스크린상에 출력될 수 있다. The proximity sensor detects a proximity touch and a proximity touch pattern (e.g., a proximity touch distance, a proximity touch direction, a proximity touch speed, a proximity touch time, a proximity touch position, a proximity touch movement state, and the like). Information corresponding to the detected proximity touch operation and the proximity touch pattern may be output on the touch screen.
음향 출력 모듈(1152)은 호신호 수신, 통화모드 또는 녹음 모드, 음성인식 모드, 방송수신 모드 등에서 무선 통신부(1110)로부터 수신되거나 메모리(1160)에 저장된 오디오 데이터를 출력할 수 있다. 음향 출력 모듈(1152)은 단말기(1100)에서 수행되는 기능(예를 들어, 호신호 수신음, 메시지 수신음 등)과 관련된 음향 신호를 출력하기도 한다. 이러한 음향 출력 모듈(1152)에는 리시버(Receiver), 스피커(speaker), 버저(Buzzer) 등이 포함될 수 있다.The
알람부(1153)는 단말기(1100)의 이벤트 발생을 알리기 위한 신호를 출력한다. 단말기(1100)에서 발생 되는 이벤트의 예로는 호 신호 수신, 메시지 수신, 키 신호 입력, 터치 입력 등이 있다. 알람부(1153)는 비디오 신호나 오디오 신호 이외에 다른 형태, 예를 들어 진동으로 이벤트 발생을 알리기 위한 신호를 출력할 수도 있다. 상기 비디오 신호나 오디오 신호는 디스플레이부(1151)나 음성 출력 모듈(1152)을 통해서도 출력될 수 있으므로, 이 경우 상기 디스플레이부(1151) 및 음향 출력 모듈(1152)은 알람부(1153)의 일종으로 분류될 수도 있다.The
햅틱 모듈(haptic module)(1154)은 사용자가 느낄 수 있는 다양한 촉각 효과를 발생시킨다. 햅틱 모듈(1154)이 발생시키는 촉각 효과의 대표적인 예로는 진동이 있다. 햅택 모듈(1154)이 발생하는 진동의 세기와 패턴 등은 제어가능하다. 예를 들어, 서로 다른 진동을 합성하여 출력하거나 순차적으로 출력할 수도 있다. The
햅틱 모듈(1154)은, 진동 외에도, 접촉 피부면에 대해 수직 운동하는 핀 배열, 분사구나 흡입구를 통한 공기의 분사력이나 흡입력, 피부 표면에 대한 스침, 전극(eletrode)의 접촉, 정전기력 등의 자극에 의한 효과와, 흡열이나 발열 가능한 소자를 이용한 냉온감 재현에 의한 효과 등 다양한 촉각 효과를 발생시킬 수 있다. In addition to vibration, the
햅틱 모듈(1154)은 직접적인 접촉을 통해 촉각 효과의 전달할 수 있을 뿐만 아니라, 사용자가 손가락이나 팔 등의 근 감각을 통해 촉각 효과를 느낄 수 있도록 구현할 수도 있다. 햅틱 모듈(1154)은 단말기(1100)의 구성 태양에 따라 2개 이상이 구비될 수 있다. The
프로젝터 모듈(1155)은, 단말기(1100)를 이용하여 이미지 프로젝트(project) 기능을 수행하기 위한 구성요소로서, 제어부(1180)의 제어 신호에 따라 디스플레이부(1151)상에 디스플레이되는 영상과 동일하거나 적어도 일부가 다른 영상을 외부 스크린 또는 벽에 디스플레이할 수 있다.The projector module 1155 is an element for performing an image project function using the
구체적으로, 프로젝터 모듈(1155)은, 영상을 외부로 출력하기 위한 빛(일 예로서, 레이저 광)을 발생시키는 광원(미도시), 광원에 의해 발생한 빛을 이용하여 외부로 출력할 영상을 생성하기 위한 영상 생성 수단 (미도시), 및 영상을 일정 초점 거리에서 외부로 확대 출력하기 위한 렌즈(미도시)를 포함할 수 있다. 또한, 프로젝터 모듈(1155)은, 렌즈 또는 모듈 전체를 기계적으로 움직여 영상 투사 방향을 조절할 수 있는 장치(미도시)를 포함할 수 있다.Specifically, the projector module 1155 includes a light source (not shown) that generates light (for example, laser light) for outputting an image to the outside, a light source And a lens (not shown) for enlarging and outputting the image at a predetermined focal distance to the outside. Further, the projector module 1155 may include a device (not shown) capable of mechanically moving the lens or the entire module to adjust the image projection direction.
프로젝터 모듈(1155)은 디스플레이 수단의 소자 종류에 따라 CRT(Cathode Ray Tube) 모듈, LCD(Liquid Crystal Display) 모듈 및 DLP(Digital Light Processing) 모듈 등으로 나뉠 수 있다. 특히, DLP 모듈은, 광원에서 발생한 빛이 DMD(Digital Micromirror Device) 칩에 반사됨으로써 생성된 영상을 확대 투사하는 방식으로 프로젝터 모듈(1155)의 소형화에 유리할 수 있다.The projector module 1155 can be divided into a CRT (Cathode Ray Tube) module, an LCD (Liquid Crystal Display) module and a DLP (Digital Light Processing) module according to the type of the display means. In particular, the DLP module may be advantageous in downsizing the projector module 1155 by enlarging and projecting an image generated by reflecting light generated by the light source on a DMD (Digital Micromirror Device) chip.
바람직하게, 프로젝터 모듈(1155)은, 단말기(1100)의 측면, 정면 또는 배면에 길이 방향으로 구비될 수 있다. 물론, 프로젝터 모듈(1155)은, 필요에 따라 단말기(1100)의 어느 위치에라도 구비될 수 있음은 당연하다.Preferably, the projector module 1155 may be provided longitudinally on the side, front or back side of the
또한, 출력부(1150)는 후각정보를 발생시킬 수 있는 방향부를 더 포함할 수 있다. 방향부는 단말기(1100) 외부로 소정의 향기나 냄새를 발생시킬 수 있다.In addition, the
메모리(1160)는 제어부(1180)의 처리 및 제어를 위한 프로그램이 저장될 수도 있고, 입/출력되는 데이터들(예를 들어, 전화번호부, 메시지, 오디오, 정지영상, 전자도서, 동영상, 송수신 메시지 히스토리 등)의 임시 저장을 위한 기능을 수행할 수도 있다. 상기 메모리(1160)에는 상기 데이터들 각각에 대한 사용 빈도(예를 들면, 각 전화번호, 각 메시지, 각 멀티미디어에 대한 사용빈도)도 함께 저장될 수 있다. 또한, 상기 메모리(1160)에는 상기 터치스크린 상의 터치 입력시 출력되는 다양한 패턴의 진동 및 음향에 관한 데이터를 저장할 수 있다.The
또한, 메모리(1160)는 복수의 감정에 대한 각 감정별 음성 데이터로부터 훈련된 은닉 마르코프 모델(Hidden Markov Model)과 같은 음향 모델 데이터를 저장할 수 있다. 이 같은 음향 모델 데이터는 감정 인식 수단에 의하여 사용자의 감정을 판단하는 데 사용된다.The
또한, 메모리(1160)에는 사용자의 음성에 대한 특징 파라미터를 추가적으로 저장함으로써 음향 모델 데이터를 업데이트하는 데 사용할 수 있다. 특징 파라미터는 멜 주파수 켑스트럼 계수(Mel-Frequency Cepstral Coefficient) 등의 음향 파라미터를 나타낸다.The
상기와 같은 메모리(1160)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(Random Access Memory, RAM), SRAM(Static Random Access Memory), 롬(Read-Only Memory, ROM), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다. 단말기(1100)는 인터넷(internet)상에서 상기 메모리(1160)의 저장 기능을 수행하는 웹 스토리지(web storage)와 관련되어 동작할 수도 있다.The
인터페이스부(1170)는 단말기(1100)에 연결되는 모든 외부기기와의 통로 역할을 한다. 인터페이스부(1170)는 외부 기기로부터 데이터를 전송받거나, 전원을 공급받아 단말기(1100) 내부의 각 구성 요소에 전달하거나, 단말기(1100) 내부의 데이터가 외부 기기로 전송되도록 한다. 예를 들어, 유/무선 헤드셋 포트, 외부 충전기 포트, 유/무선 데이터 포트, 메모리 카드(memory card) 포트, 식별 모듈이 구비된 장치를 연결하는 포트, 오디오 I/O(Input/Output) 포트, 비디오 I/O(Input/Output) 포트, 이어폰 포트 등이 인터페이스부(1170)에 포함될 수 있다. The
식별 모듈은 단말기(1100)의 사용 권한을 인증하기 위한 각종 정보를 저장한 칩으로서, 사용자 인증 모듈(User Identify Module, UIM), 가입자 인증 모듈(Subscriber Identify Module, SIM), 범용 사용자 인증 모듈(Universal Subscriber Identity Module, USIM) 등을 포함할 수 있다. 식별 모듈이 구비된 장치(이하 '식별 장치')는, 스마트 카드(smart card) 형식으로 제작될 수 있다. 따라서 식별 장치는 포트를 통하여 단말기(1100)와 연결될 수 있다.The identification module is a chip for storing various information for authenticating the usage right of the terminal 1100 and includes a user identification module (UIM), a subscriber identity module (SIM), a universal user authentication module A Subscriber Identity Module (USIM), and the like. Devices with identification modules (hereinafter referred to as "identification devices") can be manufactured in a smart card format. Accordingly, the identification device can be connected to the terminal 1100 through the port.
상기 인터페이스부(1170)는 단말기(1100)가 외부 크래들(cradle)과 연결될 때 상기 크래들로부터의 전원이 상기 단말기(1100)에 공급되는 통로가 되거나, 사용자에 의해 상기 크래들에서 입력되는 각종 명령 신호가 상기 단말기(1100)로 전달되는 통로가 될 수 있다. 상기 크래들로부터 입력되는 각종 명령 신호 또는 상기 전원은 상기 단말기(1100)가 상기 크래들에 정확히 장착되었음을 인지하기 위한 신호로 동작될 수도 있다.When the terminal 1100 is connected to an external cradle, the
제어부(controller)(1180)는 통상적으로 단말기(1100)의 전반적인 동작을 제어한다. 예를 들어 음성 통화, 데이터 통신, 화상 통화 등을 위한 관련된 제어 및 처리를 수행한다. 제어부(1180)는 멀티 미디어 재생을 위한 멀티미디어 모듈(1181)을 구비할 수도 있다. 멀티미디어 모듈(1181)은 제어부(1180) 내에 구현될 수도 있고, 제어부(1180)와 별도로 구현될 수도 있다.A
상기 제어부(1180)는 상기 터치스크린 상에서 행해지는 필기 입력 또는 그림 그리기 입력을 각각 문자 및 이미지로 인식할 수 있는 패턴 인식 처리를 행할 수 있다. The
특히, 제어부(1180)는 본 발명의 단말기(1100)가 사용자의 음성을 이용하여 감정을 인식하기 위한 감정 인식 수단을 포함할 수 있다. 상기 감정 인식 수단은 신호 에너지(signal energy) 기반의 voice activity detection으로서 사용자의 음성을 감지하는 감지부, 특징 파라미터를 추출하는 추출부 및 사용자의 감정을 판단하는 인식부 등으로 구성될 수 있다.In particular, the
한편, 제어부(1180)는 상기 디스플레이부(1151)가 유기 발광 다이오드(organic light-emitting diode, OLED) 또는 TOLED(Transparant OLED)로 구비될 경우, 본 발명에 따라, 카메라(1121)를 통해 입력된 프리뷰 영상이 상기 유기 발광 다이오드(organic light-emitting diode, OLED) 또는 TOLED(Transparant OLED)의 화면 상에 풀업 표시된 상태에서, 사용자에 조작에 따라 상기 프리뷰 영상의 크기가 조절되면, 상기 화면 상에서 상기 크기가 조절된 프리뷰 영상이 표시된 제1 영역을 제외한 나머지 제2 영역 내의 화소들의 구동을 오프시킴으로써, 전원 공급부(1190)에서 상기 디스플레이부(1151)로 공급되는 전원의 소모량을 줄일 수 있다.When the
전원 공급부(1190)는 제어부(1180)의 제어에 의해 외부의 전원, 내부의 전원을 인가받아 각 구성요소들의 동작에 필요한 전원을 공급한다.The
여기에 설명되는 다양한 실시례는 예를 들어, 소프트웨어, 하드웨어 또는 이들의 조합된 것을 이용하여 컴퓨터 또는 이와 유사한 장치로 읽을 수 있는 기록매체 내에서 구현될 수 있다.The various embodiments described herein may be implemented in a recording medium readable by a computer or similar device using, for example, software, hardware, or a combination thereof.
하드웨어적인 구현에 의하면, 여기에 설명되는 실시예는 ASICs (application specific integrated circuits), DSPs (digital signal processors), DSPDs (digital signal processing devices), PLDs (programmable logic devices), FPGAs (field programmable gate arrays, 프로세서(processors), 제어기(controllers), 마이크로 컨트롤러(micro-controllers), 마이크로 프로세서(microprocessors), 기타 기능 수행을 위한 전기적인 유닛 중 적어도 하나를 이용하여 구현될 수 있다. 일부의 경우에 본 명세서에서 설명되는 실시예들이 제어부(1180) 자체로 구현될 수 있다.According to a hardware implementation, the embodiments described herein may be implemented as application specific integrated circuits (ASICs), digital signal processors (DSPs), digital signal processing devices (DSPDs), programmable logic devices (PLDs), field programmable gate arrays May be implemented using at least one of a processor, controllers, micro-controllers, microprocessors, and other electronic units for performing other functions. In some cases, The embodiments described may be implemented by the
소프트웨어적인 구현에 의하면, 본 명세서에서 설명되는 절차 및 기능과 같은 실시예들은 별도의 소프트웨어 모듈들로 구현될 수 있다. 상기 소프트웨어 모듈들 각각은 본 명세서에서 설명되는 하나 이상의 기능 및 작동을 수행할 수 있다. 적절한 프로그램 언어로 쓰여진 소프트웨어 어플리케이션으로 소프트웨어 코드가 구현될 수 있다. 상기 소프트웨어 코드는 메모리(1160)에 저장되고, 제어부(1180)에 의해 실행될 수 있다.According to a software implementation, embodiments such as the procedures and functions described herein may be implemented with separate software modules. Each of the software modules may perform one or more of the functions and operations described herein. Software code can be implemented in a software application written in a suitable programming language. The software code is stored in the
도 2a 및 도 2b는 본 발명과 관련된 단말기의 전면 사시도 및 후면 사시도의 일례를 나타낸다.2A and 2B illustrate a front perspective view and a rear perspective view of a terminal related to the present invention.
도 2a를 참조하면, 개시된 단말기(1100)는 바 형태의 본체를 구비하고 있다. 다만, 본 발명은 여기에 한정되지 않고, 2 이상의 바디들이 상대 이동 가능하게 결합되는 슬라이드 타입, 폴더 타입, 스윙 타입, 스위블 타입 등 다양한 구조에 적용이 가능하다. Referring to FIG. 2A, the disclosed terminal 1100 includes a bar-shaped body. However, the present invention is not limited thereto, and can be applied to various structures such as a slide type, a folder type, a swing type, and a swivel type in which two or more bodies are relatively movably coupled.
바디는 외관을 이루는 케이스(케이싱, 하우징, 커버 등)를 포함한다. 본 실시예에서, 케이스는 프론트 케이스(1101)와 리어 케이스(1102)로 구분될 수 있다. 프론트 케이스(1101)와 리어 케이스(1102)의 사이에 형성된 공간에는 각종 전자부품들이 내장된다. 프론트 케이스(1101)와 리어 케이스(1102) 사이에는 적어도 하나의 중간 케이스가 추가로 배치될 수도 있다.The body includes a case (a casing, a housing, a cover, and the like) which forms an appearance. In this embodiment, the case may be divided into a
케이스들은 합성수지를 사출하여 형성되거나 금속 재질, 예를 들어 스테인레스 스틸(STS) 또는 티타늄(Ti) 등과 같은 금속 재질을 갖도록 형성될 수도 있다.The cases may be formed by injection molding a synthetic resin, or may be formed to have a metal material such as stainless steel (STS) or titanium (Ti) or the like.
단말기 바디, 주로 프론트 케이스(1101)에는 디스플레이부(1151), 음향 출력 모듈(1152), 제3 카메라(1121c), 입력부(1130,1131,1132), 마이크(1122), 인터페이스부(1170) 등이 배치될 수 있다.The
디스플레이부(1151)는 프론트 케이스(1101)의 주면의 대부분을 차지한다. 디스플레이부(1151)의 양단부 중 일 단부에 인접한 영역에는 음향 출력 모듈(1151)과 카메라 모듈(1121)이 배치되고, 다른 단부에 인접한 영역에는 입력부(1131)와 마이크(1122)가 배치된다. 입력부(1132)와 인터페이스부(1170) 등은 프론트 케이스(1101) 및 리어 케이스(1102)의 측면들에 배치될 수 있다.The
제3 카메라(1121c)는 제1 및 제2 카메라(1121a, 1121b)와 실질적으로 반대되는 촬영 방향을 가지며, 제1 및 제2 카메라(1121a, 1121b)와 같거나 서로 다른 화소를 가지는 카메라일 수 있다. The
제3 카메라(1121c)에 인접하게는 플래쉬와 거울이 추가로 배치될 수 있다. 플래쉬는 제3 카메라(1121c)로 피사체를 촬영하는 경우에 피사체를 향해 빛을 비추게 된다. 거울은 사용자가 제3 카메라(1121c)를 이용하여 자신을 촬영(셀프 촬영)하고자 하는 경우에, 사용자 자신의 얼굴 등을 비춰볼 수 있게 한다.A flash and a mirror may be additionally disposed adjacent to the
입력부(1130)는 단말기(1100)의 동작을 제어하기 위한 명령을 입력받기 위해 조작되는 것으로서, 복수의 조작 유닛들(1131,1132)을 포함할 수 있다. 조작 유닛들(1131,1132)은 조작부(manipulating portion)로도 통칭 될 수 있다.The
제1 또는 제2 조작 유닛들(1131, 1132)에 의하여 입력되는 내용은 다양하게 설정될 수 있다. 예를 들어, 제1 조작 유닛(1131)은 시작, 종료, 스크롤 등과 같은 명령을 입력받고, 제2 조작 유닛(1132)은 음향 출력 모듈(1152)에서 출력되는 음향의 크기 조절 또는 디스플레이부(1151)의 터치 인식 모드 활성화/비활성화 등과 같은 명령을 입력받을 수 있다.Contents input by the first or
마이크(1122)는 외부의 음향 신호를 입력받아 전기적인 음성 데이터로 처리는 구성으로서, 특히 사용자의 음성을 녹음하기 위하여 사용될 수 있으며, 이는 본 발명에 적용될 수 있는 사용자의 감정 인식에 이용될 수 있다.The
도 2b를 참조하면, 단말기 바디의 후면, 다시 말해서 리어 케이스(1102)에는 제3 카메라(1121c)와 반대 방향을 촬영하는 제1 및 제2 카메라(1121a, 1121b)가 추가로 장착될 수 있다. Referring to FIG. 2B, first and
단말기 바디의 후면에는 음향 출력 모듈(1152')이 추가로 배치될 수도 있다. 음향 출력부(1152')는 음향 출력 모듈(1152, 도 2a 참조)과 함께 스테레오 기능을 구현할 수 있으며, 통화시 스피커폰 모드의 구현을 위하여 사용될 수도 있다.An acoustic output module 1152 'may be additionally disposed on the rear surface of the terminal body. The sound output unit 1152 'may implement the stereo function together with the sound output module 1152 (see FIG. 2A) and may be used for the implementation of the speakerphone mode during the call.
통화 등을 위한 안테나 외에 방송신호 수신용 안테나(1116)가 휴대 단말기 바디의 측면에 추가적으로 배치될 수 있다. 방송 수신부(1111, 도 1 참조)의 일부를 이루는 안테나(1116)는 단말기 바디에서 인출 가능하게 설치될 수 있다.In addition to the antenna for communication, a broadcast
단말기 바디에는 단말기(1100)에 전원을 공급하기 위한 전원 공급부(1190)가 장착된다. 전원 공급부(1190)는 단말기 바디에 내장되거나, 단말기 바디의 외부에서 직접 탈착될 수 있게 구성될 수 있다.A
리어 케이스(1102)에는 터치를 감지하기 위한 터치 패드가 추가로 장착될 수 있다. 터치 패드는 디스플레이부(1151)를 위해 광 투과형으로 구성될 수도 있다. 이 경우에, 디스플레이부가 양면에서(즉, 이동단말기의 전면 및 후면 둘 다의 방향으로) 시각 정보를 출력하도록 구성된다면, 터치 패드를 통해서도 상기 시각 정보를 인지할 수 있게 된다. 상기 양면에 출력되는 정보는 상기 터치 패드에 의해 모두 제어될 수도 있다. The
한편, 터치 패드 전용 디스플레이가 별도로 장착됨으로써, 리어 케이스(1102)에도 터치 스크린이 배치될 수도 있다.Meanwhile, the touch screen may be disposed in the
터치 패드는 프론트 케이스(1101)의 디스플레이부(1151)와 상호 관련되어 작동한다. 터치 패드는 디스플레이부(1151)의 후방에 평행하게 배치될 수 있다. 이러한 터치 패드는 디스플레이부(1151)와 동일하거나 작은 크기를 가질 수 있다.The touch pad operates in correlation with the
이하, 도 3을 참조하여 디스플레이부(1151)와 터치 패드의 서로 연관된 작동 방식에 대하여 살펴본다. 도 3은 본 발명과 관련된 단말기의 일 작동 상태를 설명하기 위한 단말기의 정면도이다.Hereinafter, a related operation of the
디스플레이부(1151)에는 다양한 종류의 시각 정보들이 표시될 수 있다. 이들 정보들은 문자, 숫자, 기호, 그래픽, 또는 아이콘 등의 형태로 표시될 수 있다.Various types of time information can be displayed on the
이러한 정보의 입력을 위하여 상기 문자, 숫자, 기호, 그래픽 또는 아이콘 들 중 적어도 하나는 일정한 배열을 이루어 표시됨으로써 키패드의 형태로 구현될 수 있다. 이러한 키패드는 소위 '가상 키패드'(virtual keypad)라 불릴 수 있다. At least one of the letters, numbers, symbols, graphics, or icons may be displayed in a predetermined arrangement for inputting such information, thereby being implemented as a keypad. Such a keypad may be referred to as a so-called " virtual keypad ".
도 3은 단말기 바디의 전면을 통해 가상 키패드에 가해진 터치를 입력받는 것을 나타내고 있다. 3 illustrates inputting of a touch applied to the virtual keypad through the front surface of the terminal body.
디스플레이부(1151)는 전체 영역으로 작동되거나, 복수의 영역들로 나뉘어져 작동될 수 있다. 후자의 경우, 상기 복수의 영역들은 서로 연관되게 작동되도록 구성될 수 있다.The
예를 들어, 디스플레이부(1151)의 상부와 하부에는 출력창(1151a)과 입력창(1151b)이 각각 표시된다. 출력창(1151a)과 입력창(1151b)은 각각 정보의 출력 또는 입력을 위해 할당되는 영역이다. 입력창(1151b)에는 전화 번호 등의 입력을 위한 숫자가 표시된 가상 키패드(1151c)가 출력된다. 가상 키패드(1151c)가 터치되면, 터치된 가상 키패드에 대응되는 숫자 등이 출력창(1151a)에 표시된다. 제1조작 유닛(1131)이 조작되면 출력창(1151a)에 표시된 전화번호에 대한 호 연결이 시도된다.For example, an
이상의 실시례들에 개시된 입력 방식뿐만 아니라, 디스플레이부(1151) 또는 터치 패드는 스크롤(scroll)에 의해 터치 입력받도록 구성될 수 있다. 사용자는 디스플레이부(1151) 또는 터치 패드를 스크롤 함으로써 디스플레이부(1151)에 표시된 객체, 예를 들어 아이콘 등에 위치한 커서 또는 포인터를 이동시킬 수 있다. 나아가, 손가락을 디스플레이부(1151) 또는 터치 패드 상에서 이동시키는 경우, 손가락이 움직이는 경로가 디스플레이부(1151)에 시각적으로 표시될 수도 있다. 이는 디스플레이부(1151)에 표시되는 이미지를 편집함에 유용할 것이다.In addition to the input method described in the above embodiments, the
디스플레이부(1151)(터치 스크린) 및 터치 패드가 일정 시간 범위 내에서 함께 터치되는 경우에 대응하여, 단말기의 일 기능이 실행될 수도 있다. 함께 터치되는 경우로는, 사용자가 엄지 및 검지를 이용하여 단말기 바디를 집는(clamping) 경우가 있을 수 있다. 상기 일 기능은, 예를 들어, 디스플레이부(1151) 또는 터치 패드에 대한 활성화 또는 비활성화 등이 있을 수 있다.One function of the terminal may be executed in response to a case where the display portion 1151 (touch screen) and the touch pad are touched together within a predetermined time range. In the case of being touched together, there may be a case where the user clamps the terminal body using the thumb and index finger. The one function may be, for example, activation or deactivation of the
한편, 디스플레이부(1151)에서 특정 오브젝트를 가리키거나 메뉴를 선택하기 위한 화살표 또는 손가락 형태의 그래픽은 포인터(pointer) 또는 커서(cursor)로 호칭된다. 그러나, 포인터의 경우 터치 조작 등을 위한 손가락이나 스타일러스 펜 등을 의미하는 것으로 혼용되는 경우가 많다. 따라서 본 명세서에서는 이 둘을 명확히 구분하기 위하여 디스플레이부에 표시되는 그래픽을 커서라 칭하고, 손가락이나 스타일러스 펜과 같이 터치, 근접터치, 제스쳐(gesture)를 수행할 수 있는 물리적 수단을 포인터라 칭한다.On the other hand, an arrow or finger graphic for pointing a specific object or selecting a menu in the
본 발명에 따른 음성을 이용한 감정 인식 수단은 감정을 인식하고자 하는 객체, 즉 대상 객체의 음성을 감지하여 대상 객체가 느끼는 4가지 감정(예를 들어, 중립, 기쁨, 분노 및 슬픔)을 분류하여 인식할 수 있다. 단, 분류된 상기 4가지의 감정은 본 발명이 적용되기 위한 단순한 일례에 불과하고 다른 기준에 의해 감정은 복수로 분류되는 것도 가능하다.The emotion recognizing means using speech according to the present invention classifies four emotions (for example, neutral, joy, anger and sadness) felt by a target object by sensing an object to be emotionally recognized, that is, can do. However, the four types of emotions classified are merely examples for application of the present invention, and emotions can be classified into a plurality of emotions by different criteria.
본 발명에 적용될 수 있는 감정 인식 수단은 제시된 자극에 대응하여 반응하는 객체의 객체정보를 입력받아 객체의 음성을 인식할 수 있다. 이때 객체는 감정을 인식하고자 하는 대상체이다. 대상체는 사람이 될 수 있으며, 특정 동물의 감정을 인식하기 위해서는 감정을 인식하고자 하는 동물이 될 수도 있다.The emotion recognizing means that can be applied to the present invention can recognize the voice of the object by receiving the object information of the object responding to the presented stimulus. At this time, the object is the object to which the emotion is to be recognized. An object may be a person, or it may be an animal that wants to recognize emotion in order to recognize the emotion of a particular animal.
객체정보는 피측정 대상체의 정보로서 주로 피측정 대상체의 음성을 녹음한 데이터이다.The object information is data of a subject to be measured, which is mainly recorded with the voice of the subject to be measured.
객체정보의 일실시례로서 마이크를 통해 대상체의 음성을 녹음한 경우 이로부터 생성된 디지털 데이터가 객체정보일 수 있다.In one embodiment of the object information, when the voice of the object is recorded through the microphone, the digital data generated from the object may be the object information.
또한, 감정 인식 수단은 대상체의 음성을 이용하여 대상체의 음성에 대한 특징 파라미터를 추출하며, 감정 각각에 대응하는 음성의 특징 파라미터에 대한 정보를 이용하여 대상체의 감정을 판단할 수 있다.In addition, the emotion recognition means can extract the feature parameter of the speech of the object using the speech of the object, and can determine the emotion of the object by using the information about the feature parameter of the speech corresponding to each emotion.
이하에서는, 본 발명에 적용되는 감정 인식 어플리케이션에 대해 구체적으로 서술한다. 도 4는 본 발명에 따른 감정 인식 어플리케이션의 실행에 의한 실행창의 일 실시례를 나타낸다.Hereinafter, the emotion recognition application applied to the present invention will be described in detail. 4 shows an embodiment of an execution window by execution of the emotion recognition application according to the present invention.
단말기(1100)의 사용자가 입력부(1130)를 이용하여 상기 감정 인식 어플리케이션의 실행 명령을 입력하는 경우, 감정 인식 수단과 관련된 소정의 실행창이 디스플레이부(1151)에 표시된다.When a user of the terminal 1100 inputs an execution command of the emotion recognition application using the
도 4를 참조하면, 실행창의 상단에는 "OnlineEmotionRecognition"이라는 어플리케이션의 명칭이 나타난다. 4, the name of the application called "OnlineEmotion Recognition" appears at the top of the execution window.
"Start Record" 버튼은 사용자의 음성 녹음을 시작하기 위한 버튼이다. "Start Record" 버튼을 누르면 음성 녹음이 시작되고, 묵음(비음성)이 감지되면 그때까지 입력된 음성에 기초하여 인식된 사용자의 감정이 화면상에 출력된다.The "Start Record" button is a button for starting user's voice recording. When the "Start Record" button is pressed, voice recording is started. When a silent (non-voice) is detected, the recognized emotion of the user is displayed on the screen based on the voice inputted until then.
"Play Sound" 버튼은 현재까지 녹음된 음성을 재생하기 위한 버튼이다. "Play Sound" 버튼을 누르면 녹음된 음성의 목록이 나타나며, 상기 목록 중 사용자가 선택한 음성이 재생된다.The "Play Sound" button is a button for playing back the recorded voice so far. When the "Play Sound" button is pressed, a list of the recorded voice is displayed, and the voice selected by the user is played back.
"Male", "Female"은 음성을 입력하는 사용자의 성별을 선택하기 위한 수단이다. 본 발명은 남녀에 따른 감정인식 특성이 다르므로 감정 인식의 성능을 향상시키기 위하여 성별 감정 모델을 사용한다. 즉, "Male"이 선택된 상태에서 녹음된 음성은 남성 감정 모델을 이용하여 감정이 인식되고, "Female"이 선택된 상태에서 녹음된 음성은 여성 감정 모델을 이용하여 감정이 인식된다."Male" and "Female" are means for selecting the gender of a user who inputs a voice. The present invention uses a gender emotion model to improve the performance of emotion recognition because emotional recognition characteristics are different between men and women. That is, the emotion is recognized using the male emotion model while the voice recorded while the "Male" is selected, and the voice recorded while the "Female" is selected is recognized using the female emotion model.
감정 인식 어플리케이션에 의한 실행창에는 상기 버튼 이외에도 음성의 녹음 시작 시점이나 음성 녹음되는 시간을 설정할 수 있는 선택사항이 별도로 구비될 수 있다. 또한, 실행창에는 업데이트 명령을 위한 버튼이 있어 사용자에 대한 음성 데이터가 메모리(1160)에 추가될 수 있다.The execution window of the emotion recognition application may additionally include an option to set the start point of the voice recording and the voice recording time in addition to the buttons. In addition, the execution window has a button for an update command, so that voice data for the user can be added to the
이하에서는, 전술한 감정 인식 수단을 통해 객체의 음성을 이용하여 감정을 인식하는 방법에 대해 구체적으로 서술한다.Hereinafter, a method of recognizing an emotion using the voice of an object through the emotion recognition means will be described in detail.
상술한 바와 같이, 감정 인식 수단은 감지부, 추출부 및 인식부 등으로 구성될 수 있다.As described above, the emotion recognition means may be constituted by a sensing unit, an extracting unit, and a recognizing unit.
감지부는 신호 에너지(signal energy) 기반의 voice activity detection을 수행하며, 사용자로부터 녹음된 제 1 음성으로부터 사용자의 음성을 감지할 수 있다.The sensing unit performs voice activity detection based on signal energy and can detect the user's voice from the first voice recorded by the user.
도 5a 및 도 5b는 감정 인식 수단의 추출부가 특징 파라미터를 추출하는 과정의 일 실시례를 개략적으로 나타낸 것이다.5A and 5B schematically show an embodiment of a process of extracting a feature parameter of an extracting section of the emotion recognition means.
도 5a 및 도 5b를 참조하면, 추출부는 마이크(1122)에 의하여 녹음된 사용자의 음성이 포함된 음원으로부터 특징 파라미터를 추출하며, 상기 특징 파라미터는 MFCC(Mel-Frequency Cepstral Coefficient)와 Log-energy를 기반으로 한다.5A and 5B, the extracting unit extracts a feature parameter from a sound source including a user's voice recorded by the
도 5a를 참조하면, MFCC는 Hamming Window를 거친 사용자의 음성에 FFT(Fast Fourier Transform)을 적용하고, 상기 FFT가 적용된 결과에 Mel-scale의 필터 뱅크를 적용하여 파워스펙트럼을 구하며, 상기 파워스펙트럼에 로그(log)를 취하고, 상기 로그를 취한 결과에 DCT(Discrete Cosine Transform)를 적용하여 얻어질 수 있다.Referring to FIG. 5A, the MFCC applies Fast Fourier Transform (FFT) to a voice of a user through a Hamming Window, applies a Mel-scale filter bank to the result of applying the FFT to obtain a power spectrum, Can be obtained by taking a log and applying DCT (Discrete Cosine Transform) to the result of taking the log.
도 5b를 참조하면, 특징 파라미터는 녹음된 음성의 매 프레임마다 39차의 실수열을 추출하여 얻어진다. 여기서 프레임의 길이는 30ms로 설정될 수 있다. Referring to FIG. 5B, the feature parameter is obtained by extracting a 39-th real number column for every frame of the recorded voice. Here, the length of the frame may be set to 30 ms.
39차의 실수열은 3개의 13차 실수열로 구성된다. 첫번째 13차 실수열은 현재 프레임에서 추출한 MFCC(12차)와 Log-energe(1차)를 이용하여 얻어지고, 두번째 13차 실수열은 현재 프레임과 1차 이전 프레임과의 요소별 차분을 이용하여 얻어지며, 세번재 13차 실수열은 현재 프레임과 2차 이전 프레임과의 요소별 차분을 이용하여 얻어진다.The real column of 39th column consists of three 13th real columns. The first 13th real number sequence is obtained by using MFCC (12th order) and Log-energe (1st order) extracted from the current frame, and the second 13th real number sequence is obtained by using the element-specific difference between the current frame and the first- And the 13th real number sequence in the third round is obtained using the element-by-element difference between the current frame and the second previous frame.
도 6a 및 도 6b는 감정 인식 수단의 인식부가 감정을 훈련 및 인식하는 과정의 일 실시례를 개략적으로 나타낸 것이고, 도 7은 본 발명의 감정 인식 수단에 따른 인식률 및 인식시간에 대한 실험 결과를 나타낸다.6A and 6B schematically illustrate an embodiment of the process of training and recognizing emotions by the recognition unit of the emotion recognition means, and FIG. 7 shows experimental results of recognition rate and recognition time according to the emotion recognition means of the present invention .
도 6a를 참조하면, 감정 인식 수단의 훈련과정에서는 추출부에 의하여 추출된 특징 파라미터를 이용하여 감정 모델을 구축한다. 이렇게 복수의 감정에 따른 음향 모델을 구축할 수 있으며, 이는 메모리(1160)에 저장되어 사용자의 감정 판단에 사용될 수 있다. 이러한 감정 모델은 다수의 실험 참여자가 특정 상황을 간접 체험하는 동안 자연적으로 표출되는 감정을 이용한다. Referring to FIG. 6A, in the training process of the emotion recognition means, an emotion model is constructed using the feature parameters extracted by the extraction unit. In this way, an acoustic model based on a plurality of emotions can be constructed, which can be stored in the
본 발명에 따른 감정 모델의 구축은 실제 상황에서 자연스럽게 표출되는 음성과 유사한 음성을 사용하기 때문에 실용화에 유용하며, 화자 수가 많아 일반화에 유리하다. 이러한 본 발명에 따른 감정 인식 수단의 인식률 및 인식시간에 대한 실험 결과는 도 7과 같다. 도 7에서 볼 수 있듯이, 본 발명의 감정 인식 어플리케이션이 구비된 단말기는 매우 높은 감정 인식률을 나타낸다.The construction of the emotion model according to the present invention is useful for practical use because it uses a voice similar to a voice that is naturally expressed in a real situation, and is advantageous for generalization because of a large number of speakers. Experimental results of the recognition rate and the recognition time of the emotion recognition means according to the present invention are shown in FIG. As shown in FIG. 7, the terminal equipped with the emotion recognition application of the present invention shows a very high emotion recognition rate.
도 6b를 참조하면, 감정 인식 수단의 인식과정에서는 추출부에 의하여 추출된 특징 파라미터를 이용한다. 인식부는 입력 음성으로부터 추출한 특징 파라미터를 메모리(1160)에 저장된 감정별 음향 모델과의 비교를 통해 관측 확률값을 계산하며, 가장 높은 확률값을 나타내는 음향 모델에 대응하는 감정을 사용자의 감정으로 판단한다.Referring to FIG. 6B, in the recognition process of the emotion recognition unit, the feature parameters extracted by the extraction unit are used. The recognition unit compares the feature parameter extracted from the input speech with the acoustic model of each emotion stored in the
한편, 도 8은 본 발명의 감정 인식 수단이 사용자의 감정을 인식하는 과정을 개략적으로 나타낸 것이다.Meanwhile, FIG. 8 schematically shows a process in which the emotion recognition means of the present invention recognizes a user's emotion.
도 8을 참조하면, 감정 인식 수단은 원음성으로부터 사용자의 음성을 감지하며, 상기 사용자 음성의 감지 과정에서는 신호 에너지가 이용될 수 있다. 사용자의 음성을 감지한 후, 특징 추출부는 MFCC와 Log-energy를 포함하는 특징 파라미터를 추출한다. 사용자 음성의 특징 파라미터는 메모리(1160)에 저장된 감정 별 음향 모델과 비교되며, 이 과정에서 획득한 인식 결과에 의하여 사용자의 감정을 정확하게 판단할 수 있다.Referring to FIG. 8, the emotion recognizing means senses the user's voice from the original voice, and the signal energy can be used in the process of sensing the user's voice. After detecting the user's voice, the feature extraction unit extracts feature parameters including MFCC and Log-energy. The feature parameter of the user voice is compared with the acoustic model of each emotion stored in the
여기서 분류된 복수의 감정은 전술한 것과 같이, 중립, 기쁨, 분노, 슬픔 등이 될 수 있다. 단, 본 발명의 내용이 이에 한정되는 것은 아니고, 다른 기준에 따라 복수의 감정(예를 들어, 놀람, 혐오, 공포 등)으로 분류되는 것도 가능하다.The plurality of emotions classified here may be neutral, joyful, anger, sad, etc., as described above. However, the contents of the present invention are not limited thereto, and it is possible to classify them into a plurality of emotions (for example, surprise, disgust, fear, etc.) according to other criteria.
본 발명의 감정 인식 어플리케이션이 구비된 단말기는 사용자로부터 단말기(1100)에 내장 설치된 감정 인식 어플리케이션의 실행 명령을 입력받게 되면, 감정 인식 수단과 관련된 소정의 실행창이 디스플레이부(1151)에 표시된다. 상기 실행창은 디스플레이부(1151)에 팝업으로 나타날 수 있다. 사용자는 실행창을 통하여 사용자의 음성의 녹음과 관련된 녹음 정보를 입력하고, 마이크(1122)을 이용하여 사용자의 음성을 포함하는 제 1 음성을 녹음한다.When a terminal equipped with the emotion recognition application of the present invention receives an execution command of an emotion recognition application built in the terminal 1100 from a user, a predetermined execution window associated with the emotion recognition means is displayed on the
제 1 음성이 녹음되면, 감정 인식 수단으로 상기 제 1 음성이 전송되며, 감정 인식 수단은 메모리(1160)에 저장된 음향 모델 데이터와와 상기 제 1 음성을 이용하여 복수의 감정 중 사용자가 느끼고 있는 감정을 판단한다.When the first voice is recorded, the first voice is transmitted to the emotion recognizing means, and the emotion recognizing means recognizes the emotion recognized by the user among the plurality of emotions using the acoustic model data stored in the
이러한 감정 인식 수단의 감정 인식 과정은, 상기 제 1 음성의 신호 에너지(signal energy)에 기초하여 상기 제 1 음성에 녹음된 상기 사용자의 음성을 감지하고, 상기 감지된 상기 사용자의 음성에서 제 1 특징 파라미터를 추출하며, 상기 제 1 특징 파라미터를 상기 음향 모델 데이터와 비교함으로써 수행될 수 있다.The emotion recognizing process of the emotion recognizing means includes sensing the voice of the user recorded on the first voice based on the signal energy of the first voice, Extracting the parameter, and comparing the first characteristic parameter with the acoustic model data.
이후, 출력부(1150)는 상기 제 1 음성에 기초하여 인식된 사용자의 감정에 대응하는 반응을 출력한다. 상기 반응은 디스플레이부(1151), 음향 출력 모듈(1152), 햅틱 모듈(1155), 방향부 등을 사용하여 이루어질 수 있다. 상기 디스플레이부(1151), 음향 출력 모듈(1152), 햅틱 모듈(1155) 등에 따른 출력은 메모리(1160)에 미리 저장된 특정한 패턴을 갖는 반응이다.Then, the
상기 출력부(1150)의 반응은 디스플레이부(1151)에서의 텍스트, 배경화면 또는 이모티콘 표시, 음향 출력 모듈(1152)에서의 설정된 음향 출력, 햅틱 모듈(1155)에서 소정 세기와 패턴을 갖는 진동의 발생, 방향부에서 발생되는 향기 등이 있다.The response of the
또한, 사용자가 본 발명에 따른 단말기(1100)를 이용하여 상대방과 통화 중인 경우에, 상기 단말기(1100)는 사용자의 감정을 인식할 수 있을 뿐만 아니라 상기 상대방의 감정을 인식할 수도 있다. 이 경우, 단말기(1100)의 출력부(1150)는 상기 인식된 상대방의 감정에 대응하여 적절한 반응을 출력할 수 있으며, 이에 따라 사용자는 통화 상대방의 감정을 더욱 잘 이해할 수 있다. 물론, 사용자는 자신의 감정상태에 따른 반응을 제공받을 수도 있으며, 이에 따라 사용자 자신의 감정의 완화에 도움을 받을 수도 있다.Also, when the user is talking with the other party using the terminal 1100 according to the present invention, the terminal 1100 can not only recognize the emotion of the user but also recognize the emotion of the other party. In this case, the
한편, 본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의해 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한, 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분상방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행할 수 있다. 그리고, 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있다.The present invention can also be embodied as computer-readable codes on a computer-readable recording medium. A computer-readable recording medium includes all kinds of recording apparatuses in which data that can be read by a computer system is stored. Examples of the computer-readable recording medium include a ROM, a RAM, a CD-ROM, a magnetic tape, a floppy disk, an optical data storage device, and the like, and may be implemented in the form of a carrier wave (for example, transmission via the Internet) . The computer readable recording medium may also be distributed over a networked computer system so that computer readable code can be stored and executed in a distributed manner. In addition, functional programs, codes, and code segments for implementing the present invention can be easily inferred by programmers of the technical field to which the present invention belongs.
또한, 상기와 같이 설명된 장치 및 방법은 상기 설명된 실시례들의 구성과 방법이 한정되게 적용될 수 있는 것이 아니라, 상기 실시례들은 다양한 변형이 이루어질 수 있도록 각 실시례들의 전부 또는 일부가 선택적으로 조합되어 구성될 수도 있다.It should be understood that the above-described apparatus and method are not limited to the configuration and method of the embodiments described above, but the embodiments may be modified so that all or some of the embodiments are selectively combined .
Claims (16)
상기 사용자의 음성을 포함하는 제 1 음성을 획득하기 위한 마이크;
상기 복수의 감정과 관련된 음향 모델 데이터를 저장하는 메모리;
상기 제 1 음성을 수신받고, 상기 음향 모델 데이터와 상기 제 1 음성을 이용하여 상기 복수의 감정 중 상기 사용자의 감정을 인식할 수 있는 감정 인식 수단;
시각정보를 표시하는 디스플레이부, 청각정보를 출력하는 음향 출력 모듈, 진동을 발생시키는 햅틱 모듈 및 후각정보를 발생시키는 방향부로 구성된 출력부; 및
상기 사용자로부터 상기 단말기에 내장 설치된 감정 인식 어플리케이션의 동작에 관한 명령을 입력받기 위한 입력부;를 포함하되,
상기 음향 모델 데이터는 상기 복수의 감정 각각에 대응하는 상기 음성의 특징 파라미터에 대한 정보이고,
상기 사용자가 상기 입력부를 이용하여 상기 감정 인식 어플리케이션의 실행 명령을 입력하는 경우, 상기 감정 인식 수단과 관련된 소정의 실행창이 상기 디스플레이부에 표시되어 상기 제 1 음성의 녹음을 유도하고, 상기 출력부는 상기 제 1 음성에 기초하여 인식된 상기 사용자의 감정에 대응하는 반응을 출력하며,
상기 감정 인식 수단은,
상기 제 1 음성의 신호 에너지(signal energy)에 기초하여 상기 제 1 음성에 녹음된 상기 사용자의 음성을 감지하는 감지부;
상기 감지된 상기 사용자의 음성에서 제 1 특징 파라미터를 추출하는 추출부; 및
상기 제 1 특징 파라미터를 상기 음향 모델 데이터와 비교하여 상기 사용자의 감정을 판단하는 인식부;를 더 포함하고,
상기 인식부는, 상기 메모리에 저장된 상기 음향 모델 데이터와 상기 제 1 특징 파라미터의 관측 확률값을 계산하고, 상기 계산된 관측 확률값 중 가장 높은 관측 확률값을 갖는 음향 모델 데이터에 대응하는 감정을 상기 사용자의 감정으로 판단하며,
상기 메모리에 저장된 음향 모델 데이터는, 은닉 마르코프 모델(Hidden Markov Model)에 기초하여 생성되고,
상기 사용자가 상기 입력부를 이용하여 상기 실행창에 표시된 업데이트 실행 명령을 입력하는 경우, 상기 사용자에 대한 음향 모델 데이터가 상기 은닉 마르코프 모델에 기초하여 생성되어 상기 메모리에 추가적으로 저장되는 것을 특징으로 하는 단말기.A terminal capable of recognizing a plurality of emotions classified according to a preset reference using a user's voice,
A microphone for acquiring a first voice including the voice of the user;
A memory for storing acoustic model data related to the plurality of emotions;
Emotion recognition means for receiving the first voice and recognizing the emotion of the user among the plurality of emotions using the acoustic model data and the first voice;
An output unit including a display unit for displaying time information, an acoustic output module for outputting auditory information, a haptic module for generating vibration, and an orientation unit for generating smell information; And
And an input unit for receiving a command related to an operation of an emotion recognition application installed in the terminal from the user,
Wherein the acoustic model data is information on a feature parameter of the speech corresponding to each of the plurality of emotions,
When the user inputs an execution command of the emotion recognition application using the input unit, a predetermined execution window associated with the emotion recognition unit is displayed on the display unit to induce the recording of the first sound, Outputting a response corresponding to the emotion of the user recognized based on the first voice,
Wherein the emotion recognition means comprises:
A sensing unit for sensing a voice of the user recorded on the first voice based on a signal energy of the first voice;
An extracting unit for extracting a first feature parameter from the detected voice of the user; And
And a recognition unit for comparing the first characteristic parameter with the acoustic model data to determine an emotion of the user,
Wherein the recognition unit calculates an observation probability value of the acoustic model data and the first characteristic parameter stored in the memory and stores the emotion corresponding to the acoustic model data having the highest observation probability value among the calculated observation probability values in the emotion of the user However,
The acoustic model data stored in the memory is generated based on a hidden Markov model,
Wherein acoustic model data for the user is generated based on the hidden Markov model and is additionally stored in the memory when the user inputs the update execution command displayed in the execution window using the input unit.
상기 반응은,
상기 디스플레이부에서의 제 1 자료 표시, 상기 음향 출력 모듈에서의 음향 출력, 상기 햅틱 모듈에서 소정 세기와 패턴을 갖는 진동의 발생 및 상기 방향부에서 발생되는 향기 중 적어도 하나를 포함하고,
상기 제 1 자료는 기 설정된 텍스트, 배경화면 및 이모티콘 중 적어도 하나인 것을 특징으로 하는 단말기.The method according to claim 1,
The above-
A first data display in the display unit, an acoustic output in the acoustic output module, a generation of vibration having a predetermined intensity and pattern in the haptic module, and a perfume generated in the direction unit,
Wherein the first data is at least one of preset text, a backdrop, and an emoticon.
상기 실행창은 상기 사용자로부터 녹음 정보를 입력받아 상기 제 1 음성의 녹음에 이용하고,
상기 녹음 정보는, 상기 사용자의 성별, 상기 제 1 음성의 녹음 시작 시점 및 상기 제 1 음성이 녹음되는 시간 중 적어도 하나에 대한 정보를 포함하는 것을 특징으로 하는 단말기.The method according to claim 1,
Wherein the execution window receives recording information from the user and uses the recording information to record the first audio,
Wherein the recording information includes at least one of a gender of the user, a recording start time of the first audio, and a time of recording the first audio.
상기 메모리에는,
상기 성별에 따라 서로 다른 음향 모델 데이터가 저장된 것을 특징으로 하는 단말기.The method of claim 3,
In the memory,
Wherein different acoustic model data are stored according to the gender.
상기 추출부에 의하여 추출된 상기 특징 파라미터는 MFCC(Mel-Frequency Cepstral Coefficient) 및 로그 에너지(Log-energy)를 포함하는 것을 특징으로 하는 단말기.The method according to claim 1,
Wherein the feature parameter extracted by the extraction unit includes a Mel-Frequency Cepstral Coefficient (MFCC) and a log energy.
상기 MFCC는,
상기 감지부에 의하여 감지된 사용자의 음성에 FFT(Fast Fourier Transform)을 적용하고, 상기 FFT가 적용된 결과에 Mel-scale의 필터 뱅크를 적용하여 파워스펙트럼을 구하며, 상기 파워스펙트럼에 로그(log)를 취하고, 상기 로그를 취한 결과에 DCT(Discrete Cosine Transform)를 적용하여 얻어지는 것을 특징으로 하는 단말기.The method according to claim 6,
The MFCC,
A Fast Fourier Transform (FFT) is applied to the user's voice sensed by the sensing unit, a power spectrum is obtained by applying a Mel-scale filter bank to the FFT applied result, and a log is input to the power spectrum , And applying DCT (Discrete Cosine Transform) to the result of taking the log.
상기 기 설정된 기준에 따라 분류된 복수의 감정은,
중립, 기쁨, 분노 및 슬픔 중 적어도 하나를 포함하는 것을 특징으로 하는 단말기.The method according to claim 1,
Wherein the plurality of emotions classified in accordance with the preset criteria include:
Neutral, joy, anger and grief. ≪ Desc / Clms Page number 13 >
상기 사용자가 상기 단말기를 이용하여 상대방과 통화 중인 경우,
상기 단말기는 상기 감정 인식 수단을 이용하여 상기 상대방의 감정을 인식하고,
상기 출력부는 상기 인식된 상대방의 감정에 대응하여 반응을 출력하는 것을 특징으로 하는 단말기.The method according to claim 1,
When the user is in a call with the other party using the terminal,
The terminal recognizes the emotion of the other party using the emotion recognition means,
Wherein the output unit outputs the response in response to the emotion of the recognized other party.
상기 사용자로부터 상기 단말기에 내장 설치된 감정 인식 어플리케이션의 실행 명령을 입력받는 제 1 단계;
감정 인식 수단과 관련된 소정의 실행창이 디스플레이부에 표시되는 제 2 단계;
상기 사용자가 상기 사용자의 음성을 포함하는 제 1 음성에 대한 녹음 정보를 입력하는 제 3 단계;
상기 제 1 음성이 녹음되는 제 4 단계;
상기 감정 인식 수단으로 상기 제 1 음성이 전송되는 제 5 단계;
상기 감정 인식 수단이 메모리에 저장된 음향 모델 데이터와 상기 제 1 음성을 이용하여 상기 복수의 감정 중 상기 사용자의 감정을 인식하는 제 6 단계; 및
출력부가 상기 제 1 음성에 기초하여 인식된 상기 사용자의 감정에 대응하는 반응을 출력하는 제 7 단계;를 포함하되,
상기 음향 모델 데이터는 상기 복수의 감정 각각에 대응하는 상기 음성의 특징 파라미터에 대한 정보이고,
상기 출력부는 시각정보를 표시하는 상기 디스플레이부, 청각정보를 출력하는 음향 출력 모듈, 진동을 발생시키는 햅틱 모듈 및 후각정보를 발생시키는 방향부로 구성되며,
상기 제 6 단계는,
상기 제 1 음성의 신호 에너지(signal energy)에 기초하여 상기 제 1 음성에 녹음된 상기 사용자의 음성을 감지하는 제 6-1 단계;
상기 감지된 상기 사용자의 음성에서 제 1 특징 파라미터를 추출하는 제 6-2 단계; 및
상기 제 1 특징 파라미터를 상기 음향 모델 데이터와 비교하여 상기 사용자의 감정을 판단하는 제 6-3 단계;를 더 포함하고,
상기 제 6-3 단계에서는, 상기 메모리에 저장된 상기 음향 모델 데이터와 상기 제 1 특징 파라미터의 관측 확률값을 계산하고, 상기 계산된 관측 확률값 중 가장 높은 관측 확률값을 갖는 음향 모델 데이터에 대응하는 감정을 상기 사용자의 감정으로 판단하며,
상기 메모리에 저장된 음향 모델 데이터는, 은닉 마르코프 모델(Hidden Markov Model)에 기초하여 생성되고,
상기 사용자가 상기 입력부를 이용하여 상기 실행창에 표시된 업데이트 실행 명령을 입력하는 경우, 상기 사용자에 대한 음향 모델 데이터가 상기 은닉 마르코프 모델에 기초하여 생성되어 상기 메모리에 추가적으로 저장되는 것을 특징으로 하는 단말기의 제어방법.A method of controlling a terminal capable of recognizing a plurality of emotions classified according to a predetermined reference using a user's voice,
A first step of receiving an execution command of an emotion recognition application installed in the terminal from the user;
A second step of displaying a predetermined execution window associated with the emotion recognition means on the display unit;
A third step of the user inputting the recording information of the first voice including the voice of the user;
A fourth step of recording the first voice;
A fifth step of transmitting the first voice to the emotion recognizing means;
A sixth step of recognizing the emotion of the user among the plurality of emotions using the acoustic model data stored in the memory and the first voice; And
And an output unit outputting a response corresponding to the user's emotion recognized based on the first voice,
Wherein the acoustic model data is information on a feature parameter of the speech corresponding to each of the plurality of emotions,
Wherein the output unit comprises a display unit for displaying time information, an acoustic output module for outputting auditory information, a haptic module for generating vibration, and a direction unit for generating smell information,
In the sixth step,
Detecting a user's voice recorded on the first voice based on a signal energy of the first voice;
A sixth step of extracting a first feature parameter from the detected voice of the user; And
And (6-3) comparing the first characteristic parameter with the acoustic model data to determine the emotion of the user,
In step 6-3, the acoustic model data stored in the memory and the observation probability value of the first characteristic parameter are calculated, and the emotion corresponding to the acoustic model data having the highest observation probability value among the calculated observation probability values is stored in the memory Judging the user's emotions,
The acoustic model data stored in the memory is generated based on a hidden Markov model,
Wherein when the user inputs the update execution command displayed in the execution window using the input unit, acoustic model data for the user is generated based on the hidden Markov model and is additionally stored in the memory. Control method.
상기 반응은,
상기 디스플레이부에서의 제 1 자료 표시, 상기 음향 출력 모듈에서의 음향 출력, 상기 햅틱 모듈에서 소정 세기와 패턴을 갖는 진동의 발생 및 상기 방향부에서 발생되는 향기 중 적어도 하나를 포함하고,
상기 제 1 자료는 기 설정된 텍스트, 배경화면 및 이모티콘 중 적어도 하나인 것을 특징으로 하는 단말기의 제어방법.14. The method of claim 13,
The above-
A first data display in the display unit, an acoustic output in the acoustic output module, a generation of vibration having a predetermined intensity and pattern in the haptic module, and a perfume generated in the direction unit,
Wherein the first data is at least one of preset text, a backdrop, and an emoticon.
상기 기 설정된 기준에 따라 분류된 복수의 감정은,
중립, 기쁨, 분노 및 슬픔 중 적어도 하나를 포함하는 것을 특징으로 하는 단말기의 제어방법.14. The method of claim 13,
Wherein the plurality of emotions classified in accordance with the preset criteria include:
Wherein the at least one of the at least one of the plurality of terminals comprises at least one of a neutral, joy, anger, and sadness.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20140033566A KR101480668B1 (en) | 2014-03-21 | 2014-03-21 | Mobile Terminal Having Emotion Recognition Application using Voice and Method for Controlling thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20140033566A KR101480668B1 (en) | 2014-03-21 | 2014-03-21 | Mobile Terminal Having Emotion Recognition Application using Voice and Method for Controlling thereof |
Publications (1)
Publication Number | Publication Date |
---|---|
KR101480668B1 true KR101480668B1 (en) | 2015-01-26 |
Family
ID=52592081
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR20140033566A KR101480668B1 (en) | 2014-03-21 | 2014-03-21 | Mobile Terminal Having Emotion Recognition Application using Voice and Method for Controlling thereof |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101480668B1 (en) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108564942A (en) * | 2018-04-04 | 2018-09-21 | 南京师范大学 | One kind being based on the adjustable speech-emotion recognition method of susceptibility and system |
CN109672937A (en) * | 2018-12-28 | 2019-04-23 | 深圳Tcl数字技术有限公司 | TV applications method for switching theme, TV, readable storage medium storing program for executing and system |
KR20190103810A (en) * | 2018-02-28 | 2019-09-05 | 세종대학교산학협력단 | Apparatus and method for speech emotion recongnition using a reasoning process |
CN110619894A (en) * | 2019-09-30 | 2019-12-27 | 北京淇瑀信息科技有限公司 | Emotion recognition method, device and system based on voice oscillogram |
KR20200102136A (en) * | 2019-02-21 | 2020-08-31 | 주식회사 에스디아이컴퍼니 | Breathable and waterproof fabrics with varying brightness and color depending on the wearer's condition |
CN112016367A (en) * | 2019-05-31 | 2020-12-01 | 沈阳新松机器人自动化股份有限公司 | Emotion recognition system and method and electronic equipment |
WO2022245174A1 (en) * | 2021-05-21 | 2022-11-24 | 삼성전자 주식회사 | Electronic device and video call method based on reaction service |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006106711A (en) | 2004-09-10 | 2006-04-20 | Matsushita Electric Ind Co Ltd | Information processing terminal |
-
2014
- 2014-03-21 KR KR20140033566A patent/KR101480668B1/en active IP Right Grant
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006106711A (en) | 2004-09-10 | 2006-04-20 | Matsushita Electric Ind Co Ltd | Information processing terminal |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190103810A (en) * | 2018-02-28 | 2019-09-05 | 세종대학교산학협력단 | Apparatus and method for speech emotion recongnition using a reasoning process |
KR102031954B1 (en) * | 2018-02-28 | 2019-10-14 | 세종대학교산학협력단 | Apparatus and method for speech emotion recongnition using a reasoning process |
CN108564942A (en) * | 2018-04-04 | 2018-09-21 | 南京师范大学 | One kind being based on the adjustable speech-emotion recognition method of susceptibility and system |
CN108564942B (en) * | 2018-04-04 | 2021-01-26 | 南京师范大学 | Voice emotion recognition method and system based on adjustable sensitivity |
CN109672937A (en) * | 2018-12-28 | 2019-04-23 | 深圳Tcl数字技术有限公司 | TV applications method for switching theme, TV, readable storage medium storing program for executing and system |
KR20200102136A (en) * | 2019-02-21 | 2020-08-31 | 주식회사 에스디아이컴퍼니 | Breathable and waterproof fabrics with varying brightness and color depending on the wearer's condition |
KR102235091B1 (en) | 2019-02-21 | 2021-04-02 | 주식회사 에스디아이컴퍼니 | Fabrics |
CN112016367A (en) * | 2019-05-31 | 2020-12-01 | 沈阳新松机器人自动化股份有限公司 | Emotion recognition system and method and electronic equipment |
CN110619894A (en) * | 2019-09-30 | 2019-12-27 | 北京淇瑀信息科技有限公司 | Emotion recognition method, device and system based on voice oscillogram |
CN110619894B (en) * | 2019-09-30 | 2023-06-27 | 北京淇瑀信息科技有限公司 | Emotion recognition method, device and system based on voice waveform diagram |
WO2022245174A1 (en) * | 2021-05-21 | 2022-11-24 | 삼성전자 주식회사 | Electronic device and video call method based on reaction service |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101480669B1 (en) | Mobile Terminal Having Emotion Recognition Application using Facial Expression and Method for Controlling thereof | |
KR101480668B1 (en) | Mobile Terminal Having Emotion Recognition Application using Voice and Method for Controlling thereof | |
KR101990036B1 (en) | Mobile terminal and control method thereof | |
KR101952179B1 (en) | Mobile terminal and control method for the mobile terminal | |
KR101887453B1 (en) | Mobile terminal and control method thereof | |
KR101990037B1 (en) | Mobile terminal and control method thereof | |
KR20150032055A (en) | Mobile terminal and control method for the mobile terminal | |
KR20150086032A (en) | Mobile terminal and method for controlling the same | |
KR20130122334A (en) | Mobile terminal and control method thereof | |
KR101552164B1 (en) | Mobile terminal and method of position displaying on map thereof | |
KR20140049881A (en) | Mobile terminal and method of controlling the same | |
KR20150002177A (en) | Mobile terminal and method for controlling the same | |
CN108766427B (en) | Voice control method and device | |
KR101526575B1 (en) | INPUT SYSTEM and CONTROL METHOD OF THE SAME | |
KR101539466B1 (en) | Method for dispalying menual in mobile terminal and mobile terminal using the same | |
KR101958781B1 (en) | Terminal and method for controlling the same | |
KR101513635B1 (en) | Terminal and method for controlling the same | |
KR101727082B1 (en) | Method and program for playing game by mobile device | |
KR101984179B1 (en) | Mobile terminal and control method thereof | |
KR101529927B1 (en) | Terminal and method for controlling the same | |
KR101586086B1 (en) | Method for processing touch signal in mobile terminal and mobile terminal using the same | |
KR101781860B1 (en) | Mobile terminal and method for controlling the same | |
KR101727081B1 (en) | Method and program for playing game by mobile device | |
KR101581468B1 (en) | The method for displaying map data in mobile terminal and mobile terminal thereof | |
KR101714691B1 (en) | Method and program for playing game by mobile device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20191231 Year of fee payment: 6 |