KR102500255B1 - Machine learning database construction system using voice privacy protection technology - Google Patents

Machine learning database construction system using voice privacy protection technology Download PDF

Info

Publication number
KR102500255B1
KR102500255B1 KR1020220027477A KR20220027477A KR102500255B1 KR 102500255 B1 KR102500255 B1 KR 102500255B1 KR 1020220027477 A KR1020220027477 A KR 1020220027477A KR 20220027477 A KR20220027477 A KR 20220027477A KR 102500255 B1 KR102500255 B1 KR 102500255B1
Authority
KR
South Korea
Prior art keywords
voice
feature vector
user
user voice
machine learning
Prior art date
Application number
KR1020220027477A
Other languages
Korean (ko)
Inventor
채정훈
Original Assignee
(주)에이아이매틱스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)에이아이매틱스 filed Critical (주)에이아이매틱스
Priority to KR1020220027477A priority Critical patent/KR102500255B1/en
Application granted granted Critical
Publication of KR102500255B1 publication Critical patent/KR102500255B1/en
Priority to PCT/KR2023/002591 priority patent/WO2023167466A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Databases & Information Systems (AREA)

Abstract

The present invention relates to a machine learning database construction system using voice privacy protection technology. The machine learning database construction system using voice privacy protection technology comprises: a sound data preprocessing unit for receiving sound data including a voice of a user and performing preprocessing; a voice separation unit for separating the voice of the user and a background sound from the sound data; a voice feature vector generation unit for generating a voice feature vector by encoding the voice of the user based on a deep neural network-based network model; and a voice feature vector conversion unit for generating a corresponding voice feature vector which unidirectionally corresponds to the voice feature vector and from which personally identifiable elements are removed. Therefore, the utilization of voice information can be increased.

Description

음성 개인정보 보호 기술을 이용한 기계학습 데이터베이스 구축 시스템{MACHINE LEARNING DATABASE CONSTRUCTION SYSTEM USING VOICE PRIVACY PROTECTION TECHNOLOGY}Machine learning database construction system using voice privacy protection technology {MACHINE LEARNING DATABASE CONSTRUCTION SYSTEM USING VOICE PRIVACY PROTECTION TECHNOLOGY}

본 발명은 기계학습을 위한 데이터베이스 구축 기술에 관한 것으로, 보다 상세하게는 음성의 개인 특성 정보만을 제거 혹은 대체하고 그 외 발화 내용이나 발음 등의 정보는 유지하여 음성 정보를 활용 가능하게 하는 음성 개인정보 보호 기술을 이용한 기계학습 데이터베이스 구축 시스템에 관한 것이다.The present invention relates to a database construction technology for machine learning, and more particularly, voice personal information that removes or replaces only personal characteristic information of voice and maintains other information such as speech content or pronunciation to enable voice information to be utilized. It is about a machine learning database construction system using protection technology.

기계학습의 학습 방법은 크게 지도학습, 비지도학습, 강화학습의 세가지 방법으로 분류된다. 지도학습은 정답 데이터(입력 데이터와 그에 대응하는 라벨 한 쌍)가 이미 존재하는 상태에서 학습 모델에게 정답을 알려주어 학습 모델의 예측값과 정답값의 오차가 최소가 되도록 학습하는 방식이다. 비지도학습은 정답 데이터가 존재하지 않고(입력 데이터만 존재) 데이터 간의 유사성과 숨겨진 특성을 분석하여 분류하는 과정을 통해 학습하는 방식이다. 강화학습은 정답 데이터가 존재하지 않고 환경에서의 모델의 결정에 상과 벌을 부여하는 과정을 통해 학습하는 방식이다.Learning methods of machine learning are largely classified into three methods: supervised learning, unsupervised learning, and reinforcement learning. Supervised learning is a method of learning so that the error between the predicted value of the learning model and the correct value is minimized by informing the learning model of the correct answer in the state where correct answer data (input data and a pair of corresponding labels) already exist. Unsupervised learning is a method of learning through the process of analyzing and classifying similarities and hidden characteristics between data without correct answer data (only input data exists). Reinforcement learning is a method of learning through the process of assigning rewards and punishments to model decisions in the environment without correct answer data.

기계학습에 있어 양질의 학습 데이터를 확보하는 것은 매우 중요할 수 있다. 특히, 음성 인식 분야에서 사람의 목소리가 포함된 사용자 음성을 확보하는 것뿐 아니라 이를 학습 데이터로 사용하기 위하여 개인 정보를 보호하기 위한 전처리가 매우 중요할 수 있다.In machine learning, securing good-quality training data can be very important. In particular, in the field of voice recognition, pre-processing to protect personal information may be very important in order to secure a user's voice including a human voice and use it as learning data.

즉, 사용자 음성에는 다양한 분야에서 활용 가능한 많은 정보가 포함되어 있는 반면, 이를 그대로 사용하는 경우 개인 프라이버시를 침해할 가능성이 높기 때문에 사용자 음성의 활용도가 상당 부분 제한될 수 있다. 일반적으로 사용자 음성을 변조 처리하여 사용하고 있으나, 이 경우 개인 특성 정보 외에도 많은 유용한 데이터들이 손실되고 현실에 존재하지 않는 부자연스러운 음성이 생성되기 때문에 해당 데이터를 기계학습의 학습 데이터에 사용하는 등의 목적을 달성하기 어려울 수 있다.That is, while user voice includes a lot of information that can be used in various fields, if it is used as it is, there is a high possibility of violating personal privacy, so the utilization of user voice may be significantly limited. In general, the user's voice is modulated and used, but in this case, many useful data in addition to personal characteristic information are lost and an unnatural voice that does not exist in reality is generated, so the data is used for machine learning learning data. may be difficult to achieve.

한국공개특허 제10-2007-0022176호 (2007.02.26)Korean Patent Publication No. 10-2007-0022176 (2007.02.26)

본 발명의 일 실시예는 사용자 음성의 개인정보를 보호하면서 발화 내용, 발음, 감정 등의 음성 상태를 보전하여 음성 정보의 활용성을 향상시킬 수 있는 음성 개인정보 보호 기술을 이용한 기계학습 데이터베이스 구축 시스템을 제공하고자 한다.An embodiment of the present invention is a machine learning database construction system using voice privacy protection technology that can improve the usability of voice information by preserving voice states such as utterance content, pronunciation, emotion, etc. while protecting personal information of user voice. want to provide

본 발명의 일 실시예는 사용자 음성 데이터를 음성 특징 벡터로 암호화하고 음성 특징 벡터에 단방향으로 대응하는 대응 음성 특징 벡터로 변환하여 개인 특성이 제거된 다양한 사용자 음성을 효과적으로 확보할 수 있는 음성 개인정보 보호 기술을 이용한 기계학습 데이터베이스 구축 시스템을 제공하고자 한다.An embodiment of the present invention encrypts user voice data into a voice feature vector and converts the voice feature vector into a corresponding voice feature vector that unidirectionally corresponds to the voice feature vector to effectively secure various user voices from which personal characteristics have been removed. We intend to provide a machine learning database construction system using technology.

실시예들 중에서, 음성 개인정보 보호 기술을 이용한 기계학습 데이터베이스 구축 시스템은 사용자 음성을 포함하는 소리 데이터를 입력받아 전처리 동작을 수행하는 소리 데이터 전처리부; 상기 소리 데이터로부터 상기 사용자 음성과 배경음을 분리하는 음성 분리부; 심층신경망 기반의 네트워크 모델을 기초로 상기 사용자 음성을 인코딩하여 음성 특징 벡터를 생성하는 음성 특징 벡터 생성부; 및 상기 음성 특징 벡터에 단방향 대응되고 개인 식별 가능한 요소가 제거된 대응 음성 특징 벡터를 생성하는 음성 특징 벡터 변환부;를 포함한다.Among the embodiments, a machine learning database construction system using voice privacy protection technology includes a sound data pre-processing unit receiving sound data including a user's voice and performing a pre-processing operation; a voice separator separating the user voice and background sound from the sound data; a voice feature vector generating unit generating a voice feature vector by encoding the user's voice based on a deep neural network-based network model; and a speech feature vector converting unit generating a speech feature vector corresponding to the speech feature vector in a one-way manner and from which personally identifiable elements are removed.

상기 데이터베이스 구축 시스템은 상기 음성 특징 벡터를 이용하여 상기 사용자 음성을 복원하는 사용자 음성 복원부;를 더 포함할 수 있다.The database construction system may further include a user voice restoration unit configured to restore the user voice using the voice feature vector.

상기 사용자 음성 복원부는 외부로부터의 접근이 차단된 상태에서 승인된 권한에 의해 상기 사용자 음성에 관한 복원 동작을 제한적으로 개시할 수 있다.The user's voice restoration unit may restrictively initiate a restoration operation for the user's voice according to authorized authority in a state in which external access is blocked.

상기 사용자 음성 복원부는 상기 대응 음성 특징 벡터를 이용하여 상기 사용자 음성에서 개인 식별 가능한 요소가 제거된 대응 사용자 음성으로 복원할 수 있다.The user voice restoration unit may restore a corresponding user voice from which personally identifiable elements are removed from the user voice using the corresponding voice feature vector.

상기 데이터베이스 구축 시스템은 단일 사용자 음성과 적어도 하나의 대응 음성 특징 벡터를 이용하여 상기 단일 사용자 음성에 대응되면서 상기 적어도 하나의 대응 음성 특징 벡터가 적용된 적어도 하나의 대응 사용자 음성을 생성하는 대응 사용자 음성 생성부;를 더 포함할 수 있다.The database construction system includes a corresponding user voice generator configured to generate at least one corresponding user voice corresponding to the single user voice using a single user voice and at least one corresponding voice feature vector to which the at least one corresponding voice feature vector is applied. ; may be further included.

상기 대응 사용자 음성 생성부는 상기 음성 특징 벡터 변환부에서 변환된 음성 특징 벡터를 상기 대응 음성 특징 벡터에 적용하여 상기 적어도 하나의 대응 사용자 음성을 생성할 수 있다.The corresponding user voice generator may generate the at least one corresponding user voice by applying the voice feature vector converted by the voice feature vector converter to the corresponding voice feature vector.

상기 음성 특징 벡터 생성부는 특정 사용자 음성을 입력으로 수신한 경우 상기 특정 사용자 음성의 음성 특징 벡터와의 유사도를 기준으로 유사 음성 특징 벡터들에 관한 리스트를 생성하여 제공할 수 있다.When a specific user voice is received as an input, the voice feature vector generation unit may generate and provide a list of similar voice feature vectors based on a degree of similarity with the voice feature vector of the specific user voice.

상기 음성 특징 벡터 변환부는 상기 음성 특징 벡터에 비가역적이고 복호화 불가능한 단방향 함수를 적용하여 상기 대응 음성 특징 벡터를 생성할 수 있다.The speech feature vector conversion unit may generate the corresponding speech feature vector by applying an irreversible and undecodable unidirectional function to the speech feature vector.

개시된 기술은 다음의 효과를 가질 수 있다. 다만, 특정 실시예가 다음의 효과를 전부 포함하여야 한다거나 다음의 효과만을 포함하여야 한다는 의미는 아니므로, 개시된 기술의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.The disclosed technology may have the following effects. However, it does not mean that a specific embodiment must include all of the following effects or only the following effects, so it should not be understood that the scope of rights of the disclosed technology is limited thereby.

본 발명의 일 실시예에 따른 음성 개인정보 보호 기술을 이용한 기계학습 데이터베이스 구축 시스템은 사용자 음성의 개인정보를 보호하면서 발화 내용, 발음, 감정 등의 음성 상태를 보전하여 음성 정보의 활용성을 향상시킬 수 있다.A machine learning database construction system using voice privacy protection technology according to an embodiment of the present invention protects personal information of a user's voice while preserving voice states such as utterance content, pronunciation, and emotion to improve the usability of voice information. can

본 발명의 일 실시예에 따른 음성 개인정보 보호 기술을 이용한 기계학습 데이터베이스 구축 시스템은 사용자 음성 데이터를 음성 특징 벡터로 암호화하고 음성 특징 벡터에 단방향으로 대응하는 대응 음성 특징 벡터로 변환하여 개인 특성이 제거된 다양한 사용자 음성을 효과적으로 확보할 수 있다.A machine learning database construction system using a voice personal information protection technology according to an embodiment of the present invention encrypts user voice data into a voice feature vector and converts the voice feature vector into a corresponding voice feature vector unidirectionally corresponding to the voice feature vector so that the personal characteristics are removed. A variety of user voices can be effectively secured.

도 1은 본 발명에 따른 데이터베이스 구축 시스템을 설명하는 도면이다.
도 2는 도 1의 데이터베이스 구축 장치의 시스템 구성을 설명하는 도면이다.
도 3은 도 1의 데이터베이스 구축 장치의 기능적 구성을 설명하는 도면이다.
도 4는 본 발명에 따른 음성 개인정보 보호 기술을 이용한 기계학습 데이터베이스 구축 방법을 설명하는 순서도이다.
도 5는 본 발명에 따른 발화자별 채널 분리 과정을 설명하는 도면이다.
도 6은 본 발명에 따른 음성 특징 벡터 생성 과정을 설명하는 도면이다.
도 7은 본 발명에 따른 음성 특징 벡터의 특성을 설명하는 도면이다.
도 8은 본 발명에 따른 개인 특성 변환 음성 특징 벡터 생성 과정을 설명하는 도면이다.
도 9a 및 9b는 본 발명에 따른 개인 특성 변환 음성 생성 과정을 설명하는 도면이다.
도 10은 본 발명에 따른 데이터베이스 구축 시스템의 전체적인 개념을 설명하는 도면이다.
1 is a diagram illustrating a database construction system according to the present invention.
FIG. 2 is a diagram explaining the system configuration of the database construction apparatus of FIG. 1;
FIG. 3 is a diagram explaining the functional configuration of the database construction apparatus of FIG. 1 .
4 is a flowchart illustrating a method for constructing a machine learning database using voice personal information protection technology according to the present invention.
5 is a diagram illustrating a channel separation process for each talker according to the present invention.
6 is a diagram illustrating a process of generating a speech feature vector according to the present invention.
7 is a diagram explaining the characteristics of speech feature vectors according to the present invention.
8 is a diagram illustrating a process of generating a voice feature vector for converting personal characteristics according to the present invention.
9a and 9b are diagrams illustrating a process of generating a personal characteristic converted voice according to the present invention.
10 is a diagram illustrating the overall concept of a database construction system according to the present invention.

본 발명에 관한 설명은 구조적 내지 기능적 설명을 위한 실시예에 불과하므로, 본 발명의 권리범위는 본문에 설명된 실시예에 의하여 제한되는 것으로 해석되어서는 아니 된다. 즉, 실시예는 다양한 변경이 가능하고 여러 가지 형태를 가질 수 있으므로 본 발명의 권리범위는 기술적 사상을 실현할 수 있는 균등물들을 포함하는 것으로 이해되어야 한다. 또한, 본 발명에서 제시된 목적 또는 효과는 특정 실시예가 이를 전부 포함하여야 한다거나 그러한 효과만을 포함하여야 한다는 의미는 아니므로, 본 발명의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.Since the description of the present invention is only an embodiment for structural or functional description, the scope of the present invention should not be construed as being limited by the embodiments described in the text. That is, since the embodiment can be changed in various ways and can have various forms, it should be understood that the scope of the present invention includes equivalents capable of realizing the technical idea. In addition, since the object or effect presented in the present invention does not mean that a specific embodiment should include all of them or only such effects, the scope of the present invention should not be construed as being limited thereto.

한편, 본 출원에서 서술되는 용어의 의미는 다음과 같이 이해되어야 할 것이다.Meanwhile, the meaning of terms described in this application should be understood as follows.

"제1", "제2" 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하기 위한 것으로, 이들 용어들에 의해 권리범위가 한정되어서는 아니 된다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.Terms such as "first" and "second" are used to distinguish one component from another, and the scope of rights should not be limited by these terms. For example, a first element may be termed a second element, and similarly, a second element may be termed a first element.

어떤 구성요소가 다른 구성요소에 "연결되어"있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결될 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어"있다고 언급된 때에는 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 한편, 구성요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.It should be understood that when an element is referred to as being “connected” to another element, it may be directly connected to the other element, but other elements may exist in the middle. On the other hand, when an element is referred to as being "directly connected" to another element, it should be understood that no intervening elements exist. Meanwhile, other expressions describing the relationship between components, such as “between” and “immediately between” or “adjacent to” and “directly adjacent to” should be interpreted similarly.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "포함하다"또는 "가지다" 등의 용어는 실시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.Expressions in the singular number should be understood to include plural expressions unless the context clearly dictates otherwise, and terms such as “comprise” or “having” refer to an embodied feature, number, step, operation, component, part, or these. It should be understood that it is intended to indicate that a combination exists, and does not preclude the possibility of the presence or addition of one or more other features, numbers, steps, operations, components, parts, or combinations thereof.

각 단계들에 있어 식별부호(예를 들어, a, b, c 등)는 설명의 편의를 위하여 사용되는 것으로 식별부호는 각 단계들의 순서를 설명하는 것이 아니며, 각 단계들은 문맥상 명백하게 특정 순서를 기재하지 않는 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 단계들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.In each step, the identification code (eg, a, b, c, etc.) is used for convenience of explanation, and the identification code does not describe the order of each step, and each step clearly follows a specific order in context. Unless otherwise specified, it may occur in a different order than specified. That is, each step may occur in the same order as specified, may be performed substantially simultaneously, or may be performed in the reverse order.

본 발명은 컴퓨터가 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현될 수 있고, 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.The present invention can be implemented as computer readable code on a computer readable recording medium, and the computer readable recording medium includes all types of recording devices storing data that can be read by a computer system. . Examples of computer-readable recording media include ROM, RAM, CD-ROM, magnetic tape, floppy disk, and optical data storage devices. In addition, the computer-readable recording medium may be distributed to computer systems connected through a network, so that computer-readable codes may be stored and executed in a distributed manner.

여기서 사용되는 모든 용어들은 다르게 정의되지 않는 한, 본 발명이 속하는 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한 이상적이거나 과도하게 형식적인 의미를 지니는 것으로 해석될 수 없다.All terms used herein have the same meaning as commonly understood by one of ordinary skill in the art to which the present invention belongs, unless defined otherwise. Terms defined in commonly used dictionaries should be interpreted as consistent with meanings in the context of the related art, and cannot be interpreted as having ideal or excessively formal meanings unless explicitly defined in the present application.

도 1은 본 발명에 따른 데이터베이스 구축 시스템을 설명하는 도면이다.1 is a diagram illustrating a database construction system according to the present invention.

도 1을 참조하면, 데이터베이스 구축 시스템(100)은 사용자 단말(110), 데이터베이스 구축 장치(130) 및 데이터베이스(150)를 포함하여 구현될 수 있다.Referring to FIG. 1 , a database construction system 100 may be implemented by including a user terminal 110 , a database construction apparatus 130 and a database 150 .

사용자 단말(110)은 사용자에 의해 운용되는 단말 장치에 해당할 수 있다. 본 발명의 실시예에서 사용자는 하나 이상의 사용자로 이해될 수 있으며, 복수의 사용자들은 하나 이상의 사용자 그룹으로 구분될 수 있다. 하나 이상의 사용자들 각각은 하나 이상의 사용자 단말(110)에 대응될 수 있다. 즉, 제1 사용자는 제1 사용자 단말, 제2 사용자는 제2 사용자 단말, ..., 제n(상기 n은 자연수) 사용자는 제n 사용자 단말에 대응될 수 있다.The user terminal 110 may correspond to a terminal device operated by a user. In an embodiment of the present invention, a user may be understood as one or more users, and a plurality of users may be divided into one or more user groups. Each of one or more users may correspond to one or more user terminals 110 . That is, the first user may correspond to the first user terminal, the second user may correspond to the second user terminal, ..., the nth user (where n is a natural number) may correspond to the nth user terminal.

또한, 사용자 단말(110)은 데이터베이스 구축 시스템(100)을 구성하는 하나의 장치로서 학습 데이터의 생성, 수정 및 삭제를 포함하는 사용자 행위를 수행할 수 있는 컴퓨팅 장치에 해당할 수 있다. 예를 들어, 사용자 단말(110)은 데이터베이스 구축 장치(130)와 연결되어 동작 가능한 스마트폰, 노트북 또는 컴퓨터로 구현될 수 있으며, 반드시 이에 한정되지 않고, 태블릿 PC 등 포함하여 다양한 디바이스로도 구현될 수 있다.In addition, the user terminal 110, as one device constituting the database construction system 100, may correspond to a computing device capable of performing user actions including creation, modification, and deletion of learning data. For example, the user terminal 110 may be implemented as a smart phone, laptop, or computer capable of being connected to the database building device 130, but is not necessarily limited thereto, and may be implemented in various devices including a tablet PC and the like. can

또한, 사용자 단말(110)은 데이터베이스 구축 장치(130)와 연동하기 위한 전용 프로그램 또는 어플리케이션을 설치하여 실행할 수 있다. 예를 들어, 사용자 단말(110)은 학습 데이터 생성을 위해 데이터베이스 구축 장치(130)에게 소정의 소리 데이터를 전송할 수 있으며, 데이터베이스 구축 장치(130)에 의해 구축된 학습 데이터베이스에 접근할 수 있다. 해당 과정은 전용 프로그램 또는 어플리케이션을 통해 제공되는 인터페이스를 통해 이루어질 수 있다.In addition, the user terminal 110 may install and execute a dedicated program or application for interworking with the database building device 130 . For example, the user terminal 110 may transmit predetermined sound data to the database building device 130 to generate learning data, and may access the learning database built by the database building device 130. This process may be performed through an interface provided through a dedicated program or application.

한편, 사용자 단말(110)은 데이터베이스 구축 장치(130)와 네트워크를 통해 연결될 수 있고, 복수의 사용자 단말(110)들은 데이터베이스 구축 장치(130)와 동시에 연결될 수도 있다.Meanwhile, the user terminal 110 may be connected to the database building device 130 through a network, and a plurality of user terminals 110 may be connected to the database building device 130 at the same time.

데이터베이스 구축 장치(130)는 본 발명에 따른 음성 개인정보 보호 기술을 이용한 기계학습 데이터베이스 구축 방법을 수행하는 컴퓨터 또는 프로그램에 해당하는 서버로 구현될 수 있다. 또한, 데이터베이스 구축 장치(130)는 사용자 단말(110)과 유선 네트워크 또는 블루투스, WiFi, LTE 등과 같은 무선 네트워크로 연결될 수 있고, 네트워크를 통해 사용자 단말(110)과 데이터를 송·수신할 수 있다.The database construction device 130 may be implemented as a server corresponding to a computer or program that performs the machine learning database construction method using voice personal information protection technology according to the present invention. In addition, the database building device 130 may be connected to the user terminal 110 and a wired network or a wireless network such as Bluetooth, WiFi, LTE, and the like, and may transmit and receive data with the user terminal 110 through the network.

또한, 데이터베이스 구축 장치(130)는 학습 데이터를 수집하거나 또는 학습 데이터를 제공하기 위하여 독립된 외부 시스템(도 1에 미도시함)과 연결되어 동작하도록 구현될 수 있다. 일 실시예에서, 데이터베이스 구축 장치(130)는 클라우드 서버로 구현될 수 있으며, 클라우드 서비스를 통해 학습 데이터베이스의 구축과 활용에 관한 사용자들의 다양한 니즈(needs)를 충족시킬 수 있다.In addition, the database building device 130 may be implemented to operate in connection with an independent external system (not shown in FIG. 1) to collect learning data or provide learning data. In one embodiment, the database building device 130 may be implemented as a cloud server, and may satisfy various needs of users regarding the construction and utilization of a learning database through a cloud service.

데이터베이스(150)는 데이터베이스 구축 장치(130)의 동작 과정에서 필요한 다양한 정보들을 저장하는 저장장치에 해당할 수 있다. 예를 들어, 데이터베이스(150)는 다양한 출처로부터 수집한 소리 데이터를 저장하거나 또는 기계학습 모델 구축을 위한 학습 알고리즘과 학습 모델에 관한 정보를 저장할 수 있으며, 반드시 이에 한정되지 않고, 데이터베이스 구축 장치(130)가 본 발명에 따른 음성 개인정보 보호 기술을 이용한 기계학습 데이터베이스 구축 방법을 수행하는 과정에서 다양한 형태로 수집 또는 가공된 정보들을 저장할 수 있다.The database 150 may correspond to a storage device for storing various information necessary for the operation of the database building device 130 . For example, the database 150 may store sound data collected from various sources or store information about a learning algorithm and a learning model for building a machine learning model, but is not necessarily limited thereto, and the database building device 130 ) can store information collected or processed in various forms in the course of performing the machine learning database construction method using voice personal information protection technology according to the present invention.

또한, 도 1에서, 데이터베이스(150)는 데이터베이스 구축 장치(130)와 독립적인 장치로서 도시되어 있으나, 반드시 이에 한정되지 않고, 논리적인 저장장치로서 데이터베이스 구축 장치(130)에 포함되어 구현될 수 있음은 물론이다.In addition, in FIG. 1, the database 150 is shown as a device independent of the database building device 130, but is not necessarily limited thereto, and may be included in the database building device 130 as a logical storage device and implemented is of course

도 2는 도 1의 데이터베이스 구축 장치의 시스템 구성을 설명하는 도면이다.FIG. 2 is a diagram explaining the system configuration of the database construction apparatus of FIG. 1;

도 2를 참조하면, 데이터베이스 구축 장치(130)는 프로세서(210), 메모리(230), 사용자 입출력부(250) 및 네트워크 입출력부(270)를 포함할 수 있다.Referring to FIG. 2 , the database construction apparatus 130 may include a processor 210, a memory 230, a user input/output unit 250, and a network input/output unit 270.

프로세서(210)는 본 발명의 실시예에 따른 데이터베이스 구축 프로시저를 실행할 수 있고, 이러한 과정에서 읽혀지거나 작성되는 메모리(230)를 관리할 수 있으며, 메모리(230)에 있는 휘발성 메모리와 비휘발성 메모리 간의 동기화 시간을 스케줄 할 수 있다. 프로세서(210)는 데이터베이스 구축 장치(130)의 동작 전반을 제어할 수 있고, 메모리(230), 사용자 입출력부(250) 및 네트워크 입출력부(270)와 전기적으로 연결되어 이들 간의 데이터 흐름을 제어할 수 있다. 프로세서(210)는 데이터베이스 구축 장치(130)의 CPU(Central Processing Unit) 또는 GPU(Graphics Processing Unit)로 구현될 수 있다.The processor 210 may execute a database construction procedure according to an embodiment of the present invention, manage the memory 230 read or written in this process, and volatile memory and non-volatile memory in the memory 230 You can schedule synchronization times between The processor 210 can control the overall operation of the database building device 130, and is electrically connected to the memory 230, the user input/output unit 250, and the network input/output unit 270 to control data flow between them. can The processor 210 may be implemented as a central processing unit (CPU) or a graphics processing unit (GPU) of the database building device 130 .

메모리(230)는 SSD(Solid State Disk) 또는 HDD(Hard Disk Drive)와 같은 비휘발성 메모리로 구현되어 데이터베이스 구축 장치(130)에 필요한 데이터 전반을 저장하는데 사용되는 보조기억장치를 포함할 수 있고, RAM(Random Access Memory)과 같은 휘발성 메모리로 구현된 주기억장치를 포함할 수 있다. 또한, 메모리(230)는 전기적으로 연결된 프로세서(210)에 의해 실행됨으로써 본 발명에 따른 데이터베이스 구축 방법을 실행하는 명령들의 집합을 저장할 수 있다.The memory 230 may include a secondary storage device implemented as a non-volatile memory such as a solid state disk (SSD) or a hard disk drive (HDD) and used to store all data required for the database building device 130, It may include a main memory implemented as a volatile memory such as RAM (Random Access Memory). Also, the memory 230 may store a set of instructions for executing the database construction method according to the present invention by being executed by the electrically connected processor 210 .

사용자 입출력부(250)은 사용자 입력을 수신하기 위한 환경 및 사용자에게 특정 정보를 출력하기 위한 환경을 포함하고, 예를 들어, 터치 패드, 터치 스크린, 화상 키보드 또는 포인팅 장치와 같은 어댑터를 포함하는 입력장치 및 모니터 또는 터치 스크린과 같은 어댑터를 포함하는 출력장치를 포함할 수 있다. 일 실시예에서, 사용자 입출력부(250)은 원격 접속을 통해 접속되는 컴퓨팅 장치에 해당할 수 있고, 그러한 경우, 데이터베이스 구축 장치(130)는 독립적인 서버로서 수행될 수 있다.The user input/output unit 250 includes an environment for receiving a user input and an environment for outputting specific information to the user, and includes an adapter such as a touch pad, a touch screen, an on-screen keyboard, or a pointing device. It may include devices and output devices including adapters such as monitors or touch screens. In one embodiment, the user input/output unit 250 may correspond to a computing device connected through a remote connection, and in such a case, the database building device 130 may be implemented as an independent server.

네트워크 입출력부(270)은 네트워크를 통해 사용자 단말(110)과 연결되기 위한 통신 환경을 제공하고, 예를 들어, LAN(Local Area Network), MAN(Metropolitan Area Network), WAN(Wide Area Network) 및 VAN(Value Added Network) 등의 통신을 위한 어댑터를 포함할 수 있다. 또한, 네트워크 입출력부(270)는 학습 데이터의 무선 전송을 위해 WiFi, 블루투스 등의 근거리 통신 기능이나 4G 이상의 무선 통신 기능을 제공하도록 구현될 수 있다.The network input/output unit 270 provides a communication environment to be connected to the user terminal 110 through a network, and includes, for example, a local area network (LAN), a metropolitan area network (MAN), a wide area network (WAN) and An adapter for communication such as a Value Added Network (VAN) may be included. In addition, the network input/output unit 270 may be implemented to provide a short-range communication function such as WiFi or Bluetooth or a 4G or higher wireless communication function for wireless transmission of learning data.

도 3은 도 1의 데이터베이스 구축 장치의 기능적 구성을 설명하는 도면이다.FIG. 3 is a diagram explaining the functional configuration of the database construction apparatus of FIG. 1 .

도 3을 참조하면, 데이터베이스 구축 장치(130)는 소리 데이터 전처리부(310), 음성 분리부(320), 음성 특징 벡터 생성부(330), 음성 특징 벡터 변환부(340), 사용자 음성 복원부(350), 대응 사용자 음성 생성부(360) 및 제어부(도 3에 미도시함)를 포함할 수 있다.Referring to FIG. 3 , the database construction apparatus 130 includes a sound data preprocessing unit 310, a speech separation unit 320, a speech feature vector generation unit 330, a speech feature vector conversion unit 340, and a user voice restoration unit. 350, a corresponding user voice generator 360, and a controller (not shown in FIG. 3).

소리 데이터 전처리부(310)는 사용자 음성을 포함하는 소리 데이터를 입력받아 전처리 동작을 수행할 수 있다. 소리 데이터 전처리부(310)는 데이터베이스(150)로부터 소리 데이터를 독출하거나 또는 사용자 단말(110)로부터 소리 데이터를 입력받을 수 있다. 소리 데이터 전처리부(310)는 소리 데이터를 특정 시간 간격으로 분할하거나 또는 특정 필터를 적용하여 노이즈(noise)를 제거할 수 있다. 만약 소리 데이터가 아날로그(analog) 신호인 경우 소리 데이터 전처리부(310)는 아날로그 신호를 디지털 신호로 변환하는 전처리 동작을 수행할 수 있다.The sound data preprocessing unit 310 may receive sound data including a user's voice and perform a preprocessing operation. The sound data pre-processing unit 310 may read sound data from the database 150 or receive sound data from the user terminal 110 . The sound data pre-processing unit 310 may remove noise by dividing the sound data into specific time intervals or applying a specific filter. If the sound data is an analog signal, the sound data preprocessor 310 may perform a preprocessing operation of converting the analog signal into a digital signal.

일 실시예에서, 소리 데이터 전처리부(310)는 1차원 소리 데이터를 2차원의 스펙트로그램(spectrogram) 데이터로 변환할 수 있다. 여기에서, 스펙트로그램(spectrogram)은 소리의 스펙트럼을 시각화하여 그래프로 표현하는 방법에 해당할 수 있으며, 시간상 진폭 축의 변화를 시각적으로 볼 수 있는 파형과 주파수상 진폭 축의 변화를 시각적으로 볼 수 있는 스펙트럼의 특징이 모두 결합된 구조로 정의될 수 있다. 스펙트로그램은 시간축과 주파수축에 대해 진폭의 차이를 농도나 색상으로 표현하여 나타낼 수 있다. 예를 들어, 스펙트로그램의 제1 축(즉, x축)은 시간(time), 제2 축(즉, y축)은 주파수(frequency), 제3 축(즉, z축)은 진폭(amplitude)으로 표현될 수 있다.In one embodiment, the sound data pre-processor 310 may convert 1-dimensional sound data into 2-dimensional spectrogram data. Here, the spectrogram may correspond to a method of visualizing and expressing the spectrum of sound as a graph, and includes a waveform in which changes in the amplitude axis in time can be visually observed and a spectrum in which changes in the amplitude axis in frequency can be visually seen. It can be defined as a structure in which all the characteristics of are combined. The spectrogram may represent a difference in amplitude on the time axis and the frequency axis by expressing the difference in density or color. For example, the first axis (ie, x-axis) of the spectrogram is time, the second axis (ie, y-axis) is frequency, and the third axis (ie, z-axis) is amplitude (amplitude). ) can be expressed as

일 실시예에서, 소리 데이터 전처리부(310)는 변환된 2차원의 스펙트로그램에 절대값을 적용할 수 있으며, 이후 스펙트로그램의 절대값을 정규화(normalization)할 수 있다. 예를 들어, 소리 데이터 전처리부(310)는 스펙트로그램의 절대값의 최대값을 기준으로 정규화를 위한 전처리 동작을 수행할 수 있다. 소리 데이터 전처리부(310)는 정규화를 통해 스펙트로그램의 절대값을 소정의 범위 내의 값을 갖도록 할 수 있다.In one embodiment, the sound data pre-processor 310 may apply an absolute value to the converted 2-dimensional spectrogram, and then normalize the absolute value of the spectrogram. For example, the sound data preprocessor 310 may perform a preprocessing operation for normalization based on the maximum absolute value of the spectrogram. The sound data pre-processing unit 310 may make the absolute value of the spectrogram have a value within a predetermined range through normalization.

일 실시예에서, 소리 데이터 전처리부(310)는 소리 데이터에서 사용자 음성이 포함되지 않은 구간을 제거할 수 있다. 즉, 소리 데이터 전처리부(310)는 소리 데이터에서 사용자 음성이 존재하지 않는 구간이 존재하는 경우 해당 구간의 이전 및 이후 시점을 기준으로 양쪽 시점 사이의 구간을 삭제하고 양쪽 시점을 서로 연결하여 사용자 음성이 존재하지 않는 구간을 소리 데이터에서 삭제할 수 있다.In one embodiment, the sound data pre-processor 310 may remove a section in which the user's voice is not included in the sound data. That is, if there is a section in which the user's voice does not exist in the sound data, the sound data preprocessing unit 310 deletes a section between both views based on the time points before and after the corresponding section, and connects both views to each other to provide the user voice. This non-existent section can be deleted from sound data.

음성 분리부(320)는 소리 데이터로부터 사용자 음성과 배경음을 분리하는 동작을 수행할 수 있다. 즉, 음성 분리부(320)는 소리 데이터에서 배경음을 제거하여 사용자 음성을 분리할 수 있다. 이때, 소리 데이터에는 적어도 하나의 사용자 음성이 포함될 수 있으며, 음성 분리부(320)는 소리 데이터에 기 구축된 심층신경망을 적용하여 적어도 하나의 사용자 음성을 발화자 별로 분리할 수 있다. 음성 분리를 위한 심층신경망은 다수의 인코더(encoder) 및 디코더(decoder)들로 구성된 신경망으로 구현될 수 있다. 또한, 음성 분리를 위한 심층신경망은 RNN, LSTM 등을 기반으로 구현될 수 있다.The voice separation unit 320 may perform an operation of separating a user voice and a background sound from sound data. That is, the voice separation unit 320 may separate the user's voice by removing the background sound from the sound data. In this case, the sound data may include at least one user voice, and the voice separator 320 may separate the at least one user voice for each speaker by applying a pre-built deep neural network to the sound data. A deep neural network for voice separation may be implemented as a neural network composed of a plurality of encoders and decoders. In addition, a deep neural network for voice separation can be implemented based on RNN, LSTM, and the like.

일 실시예에서, 음성 분리부(320)는 기 구축된 음성 분리 모델을 통해 소리 데이터로부터 배경음과 사용자 음성을 구분할 수 있다. 여기에서, 음성 분리 모델은 기계학습 모델로서 소리 데이터에서 특정 소리를 추출하도록 학습된 모델에 해당할 수 있다. 예를 들어, 음성 분리 모델은 음성 인지 네트워크, 배경음 인지 네트워크 등을 포함할 수 있다. 음성 분리부(320)에 의한 음성 분리 결과 하나의 소리 데이터로부터 하나의 배경음과 복수의 사용자 음성들이 생성될 수 있다.In one embodiment, the voice separation unit 320 may distinguish the background sound and the user's voice from sound data through a pre-built voice separation model. Here, the voice separation model is a machine learning model and may correspond to a model learned to extract a specific sound from sound data. For example, the voice separation model may include a voice recognition network, a background sound recognition network, and the like. As a result of voice separation by the voice separation unit 320, one background sound and a plurality of user voices may be generated from one sound data.

음성 특징 벡터 생성부(330)는 심층신경망 기반의 네트워크 모델을 기초로 사용자 음성을 인코딩(encoding)하여 음성 특징 벡터를 생성할 수 있다. 음성 특징 벡터는 사용자 음성에 포함된 특징들에 관한 정보를 기초로 생성될 수 있으며, 이를 위해 소정의 특징 벡터 생성 모델이 사용될 수 있다. 즉, 특징 벡터 생성 모델은 심층신경망 기반의 네트워크 모델로서 사전에 구축될 수 있으며, 사용자 음성을 입력으로 수신하여 사용자 음성에 대응되는 음성 특징 벡터를 출력으로 생성할 수 있다. 이때, 음성 특징 벡터의 특징값은 같은 데이터 포맷을 갖는 일정한 길이의 값들로 표현될 수 있다. 예를 들어, 음성 특징 벡터는 16-bit 정수형 또는 32-bit 실수형(floating point) 특징값으로 표현될 수 있다.The voice feature vector generator 330 may generate a voice feature vector by encoding the user's voice based on a deep neural network-based network model. The voice feature vector may be generated based on information on features included in the user's voice, and a predetermined feature vector generation model may be used for this purpose. That is, the feature vector generation model may be built in advance as a network model based on a deep neural network, and may receive a user voice as an input and generate a voice feature vector corresponding to the user voice as an output. In this case, the feature values of the speech feature vector may be expressed as values of a constant length having the same data format. For example, the speech feature vector may be expressed as a 16-bit integer type or a 32-bit floating point feature value.

일 실시예에서, 음성 특징 벡터 생성부(330)는 특정 사용자 음성을 입력으로 수신한 경우 특정 사용자 음성의 음성 특징 벡터와의 유사도를 기준으로 유사 음성 특징 벡터들에 관한 리스트를 생성하여 제공할 수 있다. 음성 특징 벡터 생성부(330)는 선택적으로 사용자 음성에 관한 음성 특징 벡터를 생성하거나 또는 사용자 음성과 유사한 음성 특징 벡터들을 검색할 수 있다. 즉, 사용자 음성 간의 유사성은 각각의 음성 특징을 나타내는 음성 특징 벡터 간의 거리로 나타낼 수 있으며 거리값이 작을수록 유사하고 거리값이 일정한 기준값 이내인 경우 동일한 발화자의 음성으로 판단될 수 있다. 음성 특징 벡터 생성부(330)는 특정 사용자 음성의 음성 특징 벡터를 생성한 다음 음성 특징 벡터와의 유사도에 따라 유사 음성 특징 벡터들에 대한 리스트를 생성할 수 있다. 이때, 유사 음성 특징 벡터는 기준이 되는 음성 특징 벡터와의 거리값이 기 설정된 기준값 이내인 음성 특징 벡터에 해당할 수 있다.In an embodiment, when a specific user voice is received as an input, the voice feature vector generation unit 330 may generate and provide a list of similar voice feature vectors based on the degree of similarity with the voice feature vector of the specific user voice. there is. The voice feature vector generation unit 330 may selectively generate a voice feature vector for the user's voice or search for voice feature vectors similar to the user's voice. That is, the similarity between user voices can be represented by the distance between voice feature vectors representing respective voice characteristics. The smaller the distance value, the more similar it is, and when the distance value is within a certain reference value, the voice of the same speaker can be determined. The voice feature vector generation unit 330 may generate a voice feature vector of a specific user's voice and then generate a list of similar voice feature vectors according to a degree of similarity with the voice feature vector. In this case, the similar voice feature vector may correspond to a voice feature vector whose distance value from the reference voice feature vector is within a predetermined reference value.

음성 특징 벡터 변환부(340)는 음성 특징 벡터에 단방향 대응되고 개인 식별 가능한 요소가 제거된 대응 음성 특징 벡터를 생성할 수 있다. 여기에서, 대응 음성 특징 벡터는 사용자 음성에서 개인 특성 정보가 제거된(또는 변환된) 목소리의 음성 특징 정보에 해당할 수 있다. 즉, 음성 특징 벡터 변환부(340)는 음성 특징 벡터에서 개인 식별 가능한 요소들을 제거하여(또는 변경하여) 대응 음성 특징 벡터를 생성할 수 있다. 이때, 대응 음성 특징 벡터의 생성에는 심층신경망 기반의 네트워크 모델, 정적 함수 등이 사용될 수 있다.The voice feature vector conversion unit 340 may generate a corresponding voice feature vector in which the voice feature vector is unidirectionally corresponded and personal identifiable elements are removed. Here, the corresponding voice feature vector may correspond to voice feature information of a voice from which personal feature information is removed (or converted) from the user's voice. That is, the speech feature vector converter 340 may generate a corresponding speech feature vector by removing (or changing) personally identifiable elements from the speech feature vector. In this case, a network model based on a deep neural network, a static function, or the like may be used to generate the corresponding speech feature vector.

일 실시예에서, 음성 특징 벡터 변환부(340)는 음성 특징 벡터에 비가역적이고 복호화 불가능한 단방향 함수를 적용하여 대응 음성 특징 벡터를 생성할 수 있다. 이때, 사용되는 단방향 함수는 비가역적(irreversible)이고 복호화 불가능(undecodable)한 특성을 가질 수 있으며, 이에 따라 대응 음성 특징 벡터를 기초로 원래의 음성 특징 벡터를 복원하는 것은 불가능할 수 있다. 예를 들어, 단방향 함수에는 해시 함수, 단방향 인코딩 함수 등이 포함될 수 있다. 또한, 단방향 함수는 동일한 음성 특징 벡터를 입력으로 사용하는 경우 항상 동일한 출력을 생성하도록 구현될 수 있다. 음성 특징 벡터 변환부(340)에 의해 생성된 대응 음성 특징 벡터는 개인의 특성 정보가 제거된 결과 이를 기초로 실제 누구의 목소리인지를 식별할 수 없는 반면 다른 시간대에서의 목소리와 비교하여 동일 인물인지 여부를 결정하는데 사용될 수 있다.In an embodiment, the speech feature vector converter 340 may generate a corresponding speech feature vector by applying a non-invertible and non-decodable unidirectional function to the speech feature vector. At this time, the unidirectional function used may have characteristics of being irreversible and undecodable, and accordingly, it may be impossible to restore the original speech feature vector based on the corresponding speech feature vector. For example, one-way functions may include hash functions, one-way encoding functions, and the like. Also, a one-way function can be implemented to always generate the same output when using the same speech feature vector as an input. The corresponding voice feature vector generated by the voice feature vector conversion unit 340 is a result of personal feature information being removed, and based on this, it is impossible to identify whose voice it actually is. can be used to determine whether

사용자 음성 복원부(350)는 음성 특징 벡터를 이용하여 사용자 음성을 복원할 수 있다. 예를 들어, 사용자 음성 복원부(350)는 음성 특징 벡터를 기초로 사용자 음성을 생성하는 사용자 음성 생성모듈(또는 음성 생성기)을 포함하여 구현될 수 있다. 사용자 음성 생성모듈은 음성 특징 벡터에 대응되는 사용자 음성을 생성하는 복원 동작을 수행할 수 있다.The user voice restoration unit 350 may restore the user voice using the voice feature vector. For example, the user voice restoration unit 350 may be implemented by including a user voice generation module (or voice generator) that generates a user voice based on a voice feature vector. The user voice generation module may perform a restoration operation of generating a user voice corresponding to the voice feature vector.

일 실시예에서, 사용자 음성 복원부(350)는 외부로부터의 접근이 차단된 상태에서 승인된 권한에 의해 사용자 음성에 관한 복원 동작을 제한적으로 개시할 수 있다. 즉, 사용자 음성 복원부(350)는 사용자 음성 생성모듈을 비공개 상태로 제어할 수 있으며, 외부로부터 복원 요청을 수신한 경우 해당 복원 요청의 권한을 검사하여 해당 권한이 승인된 권한인지를 결정할 수 있다. 사용자 음성 복원부(350)는 승인된 권한을 갖는 복원 요청에 대해서만 응답하여 사용자 음성 생성모듈의 동작을 제어함으로써 복원된 사용자 음성을 제한적으로 생성할 수 있으며, 이에 따라 음성 특징 벡터만을 저장하여 개인정보를 암호화할 수 있다.In an embodiment, the user voice restoration unit 350 may restrictly initiate a restoration operation for the user voice according to the authorized authority in a state in which external access is blocked. That is, the user voice restoration unit 350 may control the user voice generation module in a closed state, and upon receiving a restoration request from the outside, the authority of the corresponding restoration request may be examined to determine whether the corresponding authority is an approved authority. . The user voice restoration unit 350 may generate the restored user voice in a limited manner by controlling the operation of the user voice generation module in response to only the restoration request having the approved authority, and accordingly, only the voice feature vector is stored to provide personal information. can be encrypted.

일 실시예에서, 사용자 음성 복원부(350)는 대응 음성 특징 벡터를 이용하여 사용자 음성에서 개인 식별 가능한 요소가 제거된 대응 사용자 음성으로 복원할 수 있다. 사용자 음성 복원부(350)는 음성 특징 벡터를 기초로 개인 특성 정보를 포함하는 사용자 음성을 생성할 수 있고, 대응 음성 특징 벡터를 기초로 개인 특성 정보가 제거되거나 또는 변환된 대응 사용자 음성을 생성할 수 있다. 대응 음성 특징 벡터에 기반하여 복원된 대응 사용자 음성의 경우 개인을 식별하는데 활용될 수 없는 반면 발화 내용이나 발음 또는 감정 상태에 관한 특징 정보를 포함하고 있어 음성(또는 음성이 포함된 영상)을 기초로 위급상황 감지, 감정 분석 등의 상황을 분석하는 업무에 활용될 수 있다. 이에 따라, 하나의 음성 특징 벡터에 기반하여 다수의 대응 음성 특징 벡터들이 생성된 경우 각 대응 음성 특징 벡터들마다 대응 사용자 음성이 각각 생성될 수 있으며, 해당 대응 사용자 음성들은 서로 다른 목소리에 대해 동일한 발화 내용이나 발음, 감정 상태 등으로 표현될 수 있다.In an embodiment, the user voice restoration unit 350 may restore a corresponding user voice from which personally identifiable elements are removed from the user voice using the corresponding voice feature vector. The user voice restoration unit 350 may generate a user voice including personal feature information based on the voice feature vector, and generate a corresponding user voice in which the personal feature information is removed or converted based on the corresponding voice feature vector. can In the case of a corresponding user voice reconstructed based on a corresponding voice feature vector, while it cannot be used to identify an individual, it contains characteristic information about the content of speech, pronunciation, or emotional state, so it can be used based on voice (or video containing voice). It can be used for situations such as emergency detection and emotion analysis. Accordingly, when a plurality of corresponding speech feature vectors are generated based on one speech feature vector, corresponding user voices may be generated for each corresponding speech feature vector, and the corresponding corresponding user voices are the same utterance for different voices. It can be expressed in content, pronunciation, emotional state, etc.

대응 사용자 음성 생성부(360)는 단일 사용자 음성과 적어도 하나의 대응 음성 특징 벡터를 이용하여 단일 사용자 음성에 대응되면서 적어도 하나의 대응 음성 특징 벡터가 적용된 적어도 하나의 대응 사용자 음성을 생성할 수 있다. 이를 위해, 대응 사용자 음성 생성부(360)는 심층신경망 기반의 네트워크 모델을 사전에 구축하여 활용할 수 있다. 즉, 해당 네트워크 모델은 사용자 음성과 대응 음성 특징 벡터를 입력으로 수신하여 사용자 음성에서 원래의 음성 특징 벡터를 제거한 후 대응 음성 특징 벡터를 대신 적용한 결과로서 가상의 사용자 음성을 출력으로 생성할 수 있다. 이를 통해, 원래의 목소리에 대해 개인 특성 정보를 제외한 발음이나 감정 등의 음성 상태가 동일하게 적용된 가상의 목소리가 생성될 수 있으며, 이에 따라 개인 정보를 보호함과 동시에 음성 정보의 활용을 극대화시킬 수 있다.The corresponding user voice generation unit 360 may generate at least one corresponding user voice corresponding to a single user voice and to which at least one corresponding voice feature vector is applied by using a single user voice and at least one corresponding voice feature vector. To this end, the corresponding user voice generation unit 360 may build and utilize a network model based on a deep neural network in advance. That is, the corresponding network model may receive the user voice and the corresponding voice feature vector as inputs, remove the original voice feature vector from the user voice, and then apply the corresponding voice feature vector instead to generate a virtual user voice as an output. Through this, a virtual voice to which voice states such as pronunciation or emotion, excluding personal characteristic information, are applied identically to the original voice can be generated, thereby protecting personal information and maximizing the utilization of voice information. there is.

일 실시예에서, 대응 사용자 음성 생성부(360)는 음성 특징 벡터 변환부 (340)에서 변환된 음성 특징 벡터를 대응 음성 특징 벡터에 적용하여 적어도 하나의 대응 사용자 음성을 생성할 수 있다. 즉, 음성 특징 벡터 변환부(340)는 복수개의 알고리즘 혹은 심층신경망 기반의 네트워크 모델을 사용하여 복수개의 대응 음성 특징 벡터를 생성할 수 있으며, 대응 음성 특징 벡터들은 사용자 음성에 적용되어 가상의 목소리에 관한 다양한 사용자 음성들을 생성하는데 활용됨으로써 사용자 음성에 관한 데이터베이스 구축을 효과적으로 수행할 수 있다.In an embodiment, the corresponding user voice generator 360 may generate at least one corresponding user voice by applying the voice feature vector converted by the voice feature vector converter 340 to the corresponding voice feature vector. That is, the voice feature vector conversion unit 340 may generate a plurality of corresponding voice feature vectors using a plurality of algorithms or a deep neural network-based network model, and the corresponding voice feature vectors are applied to the user's voice to create a virtual voice. By being used to generate various user voices related to user voices, it is possible to effectively build a database related to user voices.

제어부(도 3에 미도시함)는 데이터베이스 구축 장치(130)의 전체적인 동작을 제어하고, 소리 데이터 전처리부(310), 음성 분리부(320), 음성 특징 벡터 생성부(330), 음성 특징 벡터 변환부(340), 사용자 음성 복원부(350) 및 대응 사용자 음성 생성부(360) 간의 제어 흐름 또는 데이터 흐름을 관리할 수 있다.The control unit (not shown in FIG. 3) controls the overall operation of the database building device 130, and includes the sound data pre-processing unit 310, the voice separation unit 320, the voice feature vector generator 330, and the voice feature vector A control flow or data flow between the converter 340, the user voice restorer 350, and the corresponding user voice generator 360 may be managed.

도 4는 본 발명에 따른 음성 개인정보 보호 기술을 이용한 기계학습 데이터베이스 구축 방법을 설명하는 순서도이다.4 is a flowchart illustrating a method for constructing a machine learning database using voice personal information protection technology according to the present invention.

도 4를 참조하면, 데이터베이스 구축 장치(130)는 소리 데이터 전처리부(310)를 통해 사용자 음성을 포함하는 소리 데이터를 입력받아 전처리 동작을 수행할 수 있다(단계 S410). 데이터베이스 구축 장치(130)는 음성 분리부(320)를 통해 소리 데이터로부터 사용자 음성과 배경음을 분리할 수 있다(단계 S430).Referring to FIG. 4 , the database construction apparatus 130 may receive sound data including a user voice through the sound data preprocessor 310 and perform a preprocessing operation (step S410). The database building device 130 may separate the user voice and the background sound from the sound data through the voice separator 320 (step S430).

또한, 데이터베이스 구축 장치(130)는 음성 특징 벡터 생성부(330)를 통해 심층신경망 기반의 네트워크 모델을 기초로 사용자 음성을 인코딩하여 음성 특징 벡터를 생성할 수 있다(단계 S450). 데이터베이스 구축 장치(130)는 음성 특징 벡터 변환부(340)를 통해 음성 특징 벡터에 단방향 대응되고 개인 식별 가능한 요소가 제거된 대응 음성 특징 벡터를 생성할 수 있다(단계 S470).In addition, the database construction apparatus 130 may generate a voice feature vector by encoding the user's voice based on the deep neural network-based network model through the voice feature vector generator 330 (step S450). The database construction apparatus 130 may generate a corresponding speech feature vector in which the speech feature vector is unidirectionally corresponded to the speech feature vector and the personally identifiable element is removed through the speech feature vector converter 340 (step S470).

도 5는 본 발명에 따른 발화자별 채널 분리 과정을 설명하는 도면이다.5 is a diagram illustrating a channel separation process for each talker according to the present invention.

도 5를 참조하면, 데이터베이스 구축 장치(130)는 전처리 동작과 기계학습 모델을 이용하여 소리 데이터로부터 발화자별 음성 데이터와 배경음 데이터를 분리할 수 있다. 즉, 데이터베이스 구축 장치(130)는 1차원의 소리 데이터를 수신하여 2차원의 전처리된 스펙트로그램을 생성할 수 있다. 또한, 데이터베이스 구축 장치(130)는 스펙트로그램을 이용하여 발화자별 채널 분리를 수행할 수 있다. 이때, 배경음 분리와 음성 분리를 위해 사전에 구축된 기계학습 모델이 사용될 수 있다.Referring to FIG. 5 , the database construction apparatus 130 may separate voice data for each speaker and background sound data from sound data using a preprocessing operation and a machine learning model. That is, the database construction apparatus 130 may receive 1-dimensional sound data and generate a 2-dimensional preprocessed spectrogram. In addition, the database construction apparatus 130 may perform channel separation for each speaker using the spectrogram. In this case, a pre-built machine learning model may be used for background sound separation and voice separation.

예를 들어, 음성 분리를 위한 기계학습 모델은 사용자 음성과 사용자 음성이 포함된 혼합음으로 구성된 학습데이터를 이용하여 학습될 수 있다. 즉, 학습 과정은 학습 데이터의 사용자 음성과 혼합음 각각에 대해 스펙트로그램을 추출하고, 혼합음의 스펙트로그램을 기계학습 모델에 입력하여 사용자 음성의 스펙트로그램을 예측하며, 예측된 스펙트로그램과 실제 스펙트로그램을 비교하여 그 오차(loss)를 최소화하는 방향으로 가중치를 갱신하는 과정으로 진행될 수 있다. 학습 과정은 예측값과 실제값 사이의 오차가 특정 기준 이하가 될 때까지 반복적으로 수행될 수 있다.For example, a machine learning model for voice separation may be learned using training data composed of a user voice and a mixed sound including the user voice. That is, the learning process extracts a spectrogram for each of the user voice and the mixed sound of the learning data, inputs the spectrogram of the mixed sound to the machine learning model to predict the spectrogram of the user voice, and converts the predicted spectrogram to the actual spectrogram. It may proceed to a process of comparing the grams and updating the weights in a direction that minimizes the error (loss). The learning process may be repeatedly performed until the error between the predicted value and the actual value becomes less than or equal to a specific criterion.

또한, 기계학습 모델은 배경음 분리와 음성 분리를 위한 목적에 따라 독립적으로 구축될 수 있다. 도 5에서, 데이터베이스 구축 장치(130)는 소리 데이터에서 배경음과 발화자별 사용자 음성을 분리할 수 있으며, 필요에 따라 분리된 각 스펙트로그램을 활용하여 대응되는 배경음이나 발화자별 음성 소리 데이터를 복원할 수도 있다.In addition, the machine learning model can be independently built according to the purpose of background sound separation and voice separation. In FIG. 5 , the database building device 130 may separate the background sound and the user voice for each speaker from sound data, and may restore the corresponding background sound or voice data for each speaker by utilizing each separated spectrogram, if necessary. there is.

도 6은 본 발명에 따른 음성 특징 벡터 생성 과정을 설명하는 도면이다.6 is a diagram illustrating a process of generating a speech feature vector according to the present invention.

도 6을 참조하면, 데이터베이스 구축 장치(130)는 심층신경망 기반의 네트워크 모델을 구성하여 사용자 음성(610)(또는 스펙트로그램)을 입력으로 수신하여 음성 특징 벡터(630)를 출력으로 생성할 수 있다. 이때, 네트워크 모델은 사용자 음성(610)을 부호화(또는 암호화) 하여 소정의 길이를 갖는 특징값으로 변환할 수 있다. 변환된 음성 특징 벡터(630)는 암호화된 정보에 해당할 수 있으며, 별도의 사용자 음성 복원 과정을 통해 복원될 수 있으나 해당 과정의 실행을 제한함으로써 사용자 음성(610)에 포함된 개인 특성 정보를 효과적으로 보호할 수 있다.Referring to FIG. 6 , the database construction device 130 may construct a deep neural network-based network model, receive a user voice 610 (or a spectrogram) as an input, and generate a voice feature vector 630 as an output. . At this time, the network model may encode (or encrypt) the user's voice 610 and convert it into a feature value having a predetermined length. The converted voice feature vector 630 may correspond to encrypted information and may be restored through a separate user voice restoration process. can protect

도 7은 본 발명에 따른 음성 특징 벡터의 특성을 설명하는 도면이다.7 is a diagram explaining the characteristics of speech feature vectors according to the present invention.

도 7을 참조하면, 데이터베이스 구축 장치(130)는 사용자 음성을 인코딩하여 사용자 음성에 대응되는 음성 특징 벡터를 생성할 수 있다. 이때, 동일인에 대한 사용자 음성들이 서로 다른 발화 내용을 각각 서로 다른 시점에 녹음된 음성이라 하더라도 동일인의 음성 특징 벡터들은 유사성이 존재하여 작은 차이를 나타낼 수 있고, 다른 사람의 음성 특징 벡터와는 동일한 발화 내용이라 하더라도 큰 차이를 나타낼 수 있다.Referring to FIG. 7 , the database construction apparatus 130 may generate a voice feature vector corresponding to the user voice by encoding the user voice. At this time, even if the user voices for the same person have different utterances and are recorded at different times, the same person's voice feature vectors have similarities and can indicate small differences, and the same utterances as other people's voice feature vectors. Even the content can make a big difference.

즉, 데이터베이스 구축 장치(130)는 음성 특징 벡터의 유사성을 분석하여 두개의 음성의 발화자가 동일인물인지 여부를 판별할 수 있으며, 추가적으로 사용자 음성을 입력받아 해당 사용자 음성과 동일한 사용자 음성 또는 음성 특징 벡터를 데이터베이스(150)에서 조회하여 그 결과를 제공할 수 있다. 특히, 데이터베이스 구축 장치(130)는 사용자 음성 대신 음성 특징 벡터를 활용함으로써 다른 사람의 사용자 음성이 제3자에게 노출되는 것을 효과적으로 예방할 수 있다.That is, the database construction apparatus 130 may analyze the similarity of the voice feature vectors to determine whether the speakers of the two voices are the same person, and additionally receive the user voice and use the same user voice or voice feature vector as the corresponding user voice. may be searched in the database 150 and the result may be provided. In particular, the database construction apparatus 130 can effectively prevent another person's user voice from being exposed to a third party by using a voice feature vector instead of a user voice.

도 8은 본 발명에 따른 개인 특성 변환 음성 특징 벡터 생성 과정을 설명하는 도면이다.8 is a diagram illustrating a process of generating a voice feature vector for converting personal characteristics according to the present invention.

도 8을 참조하면, 데이터베이스 구축 장치(130)는 음성 특징 벡터를 입력으로 수신하여 단방향으로 대응하는 특성이 변화된 음성의 대응 음성 특징 벡터를 생성할 수 있다. 대응 음성 특징 벡터의 생성에는 심층신경망 기반의 네트워크 모델 또는 정적 함수 등이 사용될 수 있다. 대응 음성 특징 벡터는 음성 특징 벡터에 기반하여 생성될 수 있으나, 생성된 대응 음성 특징 벡터를 기초로 본래의 음성 특징 벡터를 복원하거나 혹은 특정하는 것은 불가능할 수 있다. 결과적으로, 데이터베이스 구축 장치(130)는 단방향 변환을 통해 개인 정보를 효과적으로 보호할 수 있다.Referring to FIG. 8 , the database construction apparatus 130 may receive a speech feature vector as an input and generate a speech feature vector corresponding to a speech in which a corresponding feature is unidirectionally changed. A network model based on a deep neural network or a static function may be used to generate the corresponding speech feature vector. The corresponding speech feature vector may be generated based on the speech feature vector, but it may be impossible to restore or specify the original speech feature vector based on the generated corresponding speech feature vector. As a result, the database building device 130 can effectively protect personal information through one-way conversion.

또한, 동일 인물의 음성 특징 벡터를 입력으로 사용하는 경우 대응 음성 특징 벡터 또한 일관되게 유사한 값으로 출력될 수 있다. 이를 통해, 데이터베이스 구축 장치(130)는 생성된 음성의 발화자가 누구인지 식별할 수 없지만 다른 시간대의 음성의 발화자가 동일 인물인지 여부에 대해서는 식별할 수 있다.In addition, when the voice feature vector of the same person is used as an input, the corresponding voice feature vector may also be consistently output with a similar value. Through this, the database construction apparatus 130 cannot identify who the speaker of the generated voice is, but can identify whether the speaker of voices in different time zones is the same person.

한편, 데이터베이스 구축 장치(130)는 독립적으로 구현되는 음성생성기와 음성 특징 벡터를 사용하여 사용자 음성을 복원할 수 있으며, 이때 사용되는 음성생성기는 외부에 공개되지 않도록 구현되어 원본 음성 특징 벡터만을 저장함으로써 개인 정보를 암호화하는 것이 가능할 수 있다.On the other hand, the database building device 130 can restore the user's voice using an independently implemented voice generator and voice feature vector, and the voice generator used at this time is implemented not to be disclosed to the outside and stores only the original voice feature vector. It may be possible to encrypt personal information.

도 9a 및 9b는 본 발명에 따른 개인 특성 변환 음성 생성 과정을 설명하는 도면이다.9a and 9b are diagrams illustrating a process of generating a personal characteristic converted voice according to the present invention.

도 9a 및 9b를 참조하면, 데이터베이스 구축 장치(130)는 심층신경망 기반의 네트워크 모델을 구축한 후 사용자 음성과 음성 특징 벡터를 입력으로 수신한 다음 사용자 음성의 기존 특징 벡터를 제거하고 입력된 음성 특징 벡터가 반영된 가상의 목소리를 생성할 수 있다. 이때, 생성된 가상의 목소리는 기존 특징 벡터 이외에 발화 내용, 발음, 감정 등의 음성 상태가 동일하게 유지될 수 있다. 이를 통해 개인정보를 보호함과 동시에 음성 정보의 활용이 가능할 수 있다.Referring to FIGS. 9A and 9B , the database construction apparatus 130 constructs a deep neural network-based network model, receives a user voice and a voice feature vector as input, removes the existing feature vector of the user voice, and then removes the input voice feature. It is possible to generate a virtual voice in which the vector is reflected. In this case, the generated virtual voice may maintain the same voice state such as utterance content, pronunciation, emotion, etc. in addition to the existing feature vector. Through this, it is possible to protect personal information and utilize voice information at the same time.

도 9a에서, 원본 사용자 음성에 대해 대응 음성 특징 벡터를 적용한 결과 원래의 발화자와 다른 가상의 발화자에 대한 사용자 음성(개인 특성 변환 음성)이 생성될 수 있다. 다만, 개인 특성 정보만 변경된 결과 발화 내용이나 발음, 감정 상태 등은 그대로 유지될 수 있다. 또한, 도 9b와 같이 시간대 1 및 2에서 동일한 대응 음성 특징 벡터가 적용된 결과 생성된 가상의 발화자 역시 동일할 수 있다.In FIG. 9A , as a result of applying the corresponding voice feature vector to the original user voice, a user voice (personal feature converted voice) for a virtual speaker different from the original speaker may be generated. However, as a result of changing only the personal characteristic information, the contents of speech, pronunciation, emotional state, etc. may be maintained as they are. In addition, as shown in FIG. 9B , virtual speakers generated as a result of applying the same corresponding speech feature vector in time zones 1 and 2 may also be the same.

도 10은 본 발명에 따른 데이터베이스 구축 시스템의 전체적인 개념을 설명하는 도면이다.10 is a diagram illustrating the overall concept of a database construction system according to the present invention.

도 10을 참조하면, 데이터베이스 구축 장치(130)는 사람의 음성(또는 목소리)이 포함된 소리 데이터를 입력으로 수신하여 전처리 동작을 통해 전처리된 소리 데이터(또는 스펙트로그램)를 획득할 수 있다. 데이터베이스 구축 장치(130)는 전처리된 소리 데이터에서 발화자 별로 채널을 분리하여 각 사용자의 음성에 관한 원본 음성 데이터를 획득할 수 있다.Referring to FIG. 10 , the database construction apparatus 130 may receive sound data including human voice (or voice) as an input and obtain preprocessed sound data (or spectrogram) through a preprocessing operation. The database construction apparatus 130 may obtain original voice data for each user's voice by separating channels for each speaker from the preprocessed sound data.

데이터베이스 구축 장치(130)는 원본 음성 데이터로부터 개인 특성 정보가 포함된 원본 음성 특징 벡터를 생성할 수 있고, 필요에 따라 데이터베이스(DB)에 저장하여 활용할 수 있다. 이때, 음성 특징 벡터는 암호화된 정보에 해당할 수 있으며, 별도의 사용자 음성 생성기를 통해 제한적으로 복원될 수 있으므로 이후 음성 특징 벡터의 활용 과정에서 개인 정보를 효과적으로 보호할 수 있다.The database building device 130 may generate an original voice feature vector including personal characteristic information from original voice data, and may store and utilize the original voice feature vector in a database (DB) as needed. In this case, since the voice feature vector may correspond to encrypted information and may be limitedly restored through a separate user voice generator, personal information may be effectively protected in the process of using the voice feature vector later.

또한, 데이터베이스 구축 장치(130)는 음성 특징 벡터에 단방향으로 대응되는 대응 음성 특징 벡터(즉, 특성 변환 음성 특징 벡터)를 생성할 수 있다. 대응 음성 특징 벡터는 개인 특성 정보가 제거된 음성 정보를 포함할 수 있으며, 필요에 따라 데이터베이스(DB)에 저장하여 활용할 수 있다. 즉, 데이터베이스 구축 장치(130)는 대응 음성 특징 벡터를 이용하여 원본 사용자 음성에서 개인 특성 정보가 제거된 가상의 사용자 음성을 생성할 수 있으며, 데이터베이스(DB)를 통해 기 구축된 다양한 대응 음성 특징 벡터들을 활용하여 하나의 원본 사용자 음성으로부터 다양한 특성 변환 사용자 음성들을 효과적으로 생성할 수 있다.In addition, the database construction apparatus 130 may generate a speech feature vector corresponding to the speech feature vector in one direction (ie, a feature conversion speech feature vector). The corresponding speech feature vector may include speech information from which personal characteristic information is removed, and may be stored in a database (DB) and utilized as needed. That is, the database building device 130 may generate a virtual user voice from which personal characteristic information is removed from the original user voice using the corresponding voice feature vector, and various corresponding voice feature vectors previously built through the database DB. It is possible to effectively generate various characteristic-converted user voices from one original user voice by utilizing the .

또한, 데이터베이스 구축 장치(130)는 가상의 특성 변환 사용자 음성을 원래의 배경음 데이터에 적용함으로써 원래의 발화자의 개인 특성이 변환된 소리 데이터를 생성할 수도 있다.In addition, the database construction apparatus 130 may generate sound data in which the personal characteristics of the original speaker are converted by applying the virtual characteristic-converted user voice to the original background sound data.

본 발명에 따른 데이터베이스 구축 장치(130)는 특성이 변화된 음성 특징 벡터로부터 음성의 특성을 변화시킨 소리 데이터를 생성하고 저장하여 기계학습 데이터베이스를 효과적으로 구축할 수 있다. 특히, 데이터베이스 구축 장치(130)는 원본 음성 특징 벡터를 저장하여 개인 정보를 암호화할 수 있으며, 특정인의 사용자 음성으로부터 추출된 음성 특징 벡터와 가장 유사한 기록을 조회하여 제공할 수 있다.The database construction apparatus 130 according to the present invention can effectively construct a machine learning database by generating and storing sound data having changed characteristics of voice from voice feature vectors having changed characteristics. In particular, the database building device 130 may encrypt personal information by storing an original voice feature vector, and may retrieve and provide a record most similar to a voice feature vector extracted from a user's voice of a specific person.

상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.Although the above has been described with reference to preferred embodiments of the present invention, those skilled in the art will variously modify and change the present invention within the scope not departing from the spirit and scope of the present invention described in the claims below. You will understand that it can be done.

100: 데이터베이스 구축 시스템
110: 사용자 단말 130: 데이터베이스 구축 장치
150: 데이터베이스
210: 프로세서 230: 메모리
250: 사용자 입출력부 270: 네트워크 입출력부
310: 소리 데이터 전처리부 320: 음성 분리부
330: 음성 특징 벡터 생성부 340: 음성 특징 벡터 변환부
350: 사용자 음성 복원부 360: 대응 사용자 음성 생성부
100: database construction system
110: user terminal 130: database building device
150: database
210: processor 230: memory
250: user input/output unit 270: network input/output unit
310: sound data pre-processing unit 320: audio separation unit
330: Speech feature vector generation unit 340: Speech feature vector converter
350: user voice restoration unit 360: corresponding user voice generation unit

Claims (8)

사용자 음성을 포함하는 소리 데이터를 입력받아 전처리 동작을 수행하는 소리 데이터 전처리부;
상기 소리 데이터로부터 상기 사용자 음성과 배경음을 분리하는 음성 분리부;
심층신경망 기반의 네트워크 모델을 기초로 상기 사용자 음성을 인코딩하여 음성 특징 벡터를 생성하는 음성 특징 벡터 생성부;
상기 음성 특징 벡터에 단방향 대응되고 개인 식별 가능한 요소가 제거된 대응 음성 특징 벡터를 생성하는 음성 특징 벡터 변환부; 및
상기 음성 특징 벡터를 이용하여 상기 사용자 음성을 복원하는 사용자 음성 복원부;를 포함하되,
상기 사용자 음성 복원부는 상기 대응 음성 특징 벡터를 이용하여 상기 사용자 음성에서 개인 식별 가능한 요소가 제거된 대응 사용자 음성으로 복원하며,
상기 대응 사용자 음성은 상기 사용자 음성에서 개인 식별 가능한 요소가 제거된 반면 발음 및 감정 상태를 포함하는 일반 음성 특징 정보는 그대로 포함하여 복원되는 것을 특징으로 하는 음성 개인정보 보호 기술을 이용한 기계학습 데이터베이스 구축 시스템.
a sound data pre-processing unit receiving sound data including a user's voice and performing a pre-processing operation;
a voice separator separating the user voice and background sound from the sound data;
a voice feature vector generating unit generating a voice feature vector by encoding the user's voice based on a deep neural network-based network model;
a speech feature vector converting unit generating a speech feature vector corresponding to the speech feature vector in a one-way manner and from which personally identifiable elements are removed; and
A user voice restoration unit configured to restore the user voice using the voice feature vector;
The user voice restoration unit restores a corresponding user voice from which personally identifiable elements are removed from the user voice using the corresponding voice feature vector;
The machine learning database construction system using voice privacy protection technology, characterized in that the corresponding user voice is restored by including general voice characteristic information including pronunciation and emotional state while removing personally identifiable elements from the user voice. .
삭제delete 제1항에 있어서, 상기 사용자 음성 복원부는
외부로부터의 접근이 차단된 상태에서 승인된 권한에 의해 상기 사용자 음성에 관한 복원 동작을 제한적으로 개시하는 것을 특징으로 하는 음성 개인정보 보호 기술을 이용한 기계학습 데이터베이스 구축 시스템.
The method of claim 1, wherein the user voice restoration unit
A machine learning database construction system using voice privacy protection technology, characterized in that the restoration operation on the user's voice is limitedly initiated by the authorized authority in a state where access from outside is blocked.
삭제delete 제1항에 있어서,
단일 사용자 음성과 적어도 하나의 대응 음성 특징 벡터를 이용하여 상기 단일 사용자 음성에 대응되면서 상기 적어도 하나의 대응 음성 특징 벡터가 적용된 적어도 하나의 대응 사용자 음성을 생성하는 대응 사용자 음성 생성부;를 더 포함하는 것을 특징으로 하는 음성 개인정보 보호 기술을 이용한 기계학습 데이터베이스 구축 시스템.
According to claim 1,
a corresponding user voice generation unit configured to generate at least one corresponding user voice corresponding to the single user voice using a single user voice and at least one corresponding voice feature vector to which the at least one corresponding voice feature vector is applied; A machine learning database construction system using voice personal information protection technology, characterized in that.
제5항에 있어서, 상기 대응 사용자 음성 생성부는
상기 음성 특징 벡터 변환부에서 변환된 음성 특징 벡터를 상기 대응 음성 특징 벡터에 적용하여 상기 적어도 하나의 대응 사용자 음성을 생성하는 것을 특징으로 하는 음성 개인정보 보호 기술을 이용한 기계학습 데이터베이스 구축 시스템.
The method of claim 5, wherein the corresponding user voice generation unit
and generating the at least one corresponding user voice by applying the voice feature vector converted by the voice feature vector conversion unit to the corresponding voice feature vector.
제1항에 있어서, 상기 음성 특징 벡터 생성부는
특정 사용자 음성을 입력으로 수신한 경우 상기 특정 사용자 음성의 음성 특징 벡터와의 유사도를 기준으로 유사 음성 특징 벡터들에 관한 리스트를 생성하여 제공하는 것을 특징으로 하는 음성 개인정보 보호 기술을 이용한 기계학습 데이터베이스 구축 시스템.
The method of claim 1, wherein the voice feature vector generator
When a specific user voice is received as an input, a machine learning database using voice privacy protection technology is characterized in that it creates and provides a list of similar voice feature vectors based on the degree of similarity with the voice feature vector of the specific user voice. build system.
제1항에 있어서, 상기 음성 특징 벡터 변환부는
상기 음성 특징 벡터에 비가역적이고 복호화 불가능한 단방향 함수를 적용하여 상기 대응 음성 특징 벡터를 생성하는 것을 특징으로 하는 음성 개인정보 보호 기술을 이용한 기계학습 데이터베이스 구축 시스템.
The method of claim 1, wherein the speech feature vector conversion unit
A machine learning database construction system using speech privacy technology, characterized in that for generating the corresponding speech feature vector by applying an irreversible and undecodable one-way function to the speech feature vector.
KR1020220027477A 2022-03-03 2022-03-03 Machine learning database construction system using voice privacy protection technology KR102500255B1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020220027477A KR102500255B1 (en) 2022-03-03 2022-03-03 Machine learning database construction system using voice privacy protection technology
PCT/KR2023/002591 WO2023167466A1 (en) 2022-03-03 2023-02-23 System for constructing machine learning database by using voice privacy protection technology

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220027477A KR102500255B1 (en) 2022-03-03 2022-03-03 Machine learning database construction system using voice privacy protection technology

Publications (1)

Publication Number Publication Date
KR102500255B1 true KR102500255B1 (en) 2023-02-17

Family

ID=85327751

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220027477A KR102500255B1 (en) 2022-03-03 2022-03-03 Machine learning database construction system using voice privacy protection technology

Country Status (2)

Country Link
KR (1) KR102500255B1 (en)
WO (1) WO2023167466A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023167466A1 (en) * 2022-03-03 2023-09-07 (주)에이아이매틱스 System for constructing machine learning database by using voice privacy protection technology

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070022176A (en) 2005-08-18 2007-02-26 에스케이 텔레콤주식회사 System for modulating voice and mobile architecture having a mode of voice modulation
KR20180035420A (en) * 2016-09-29 2018-04-06 주식회사 온피아 A method for encrypting and decrypting a record file through data modulation
KR20190013748A (en) * 2016-05-30 2019-02-11 소니 주식회사 Apparatus, method and program for video sound processing
KR20210050884A (en) * 2019-10-29 2021-05-10 삼성전자주식회사 Registration method and apparatus for speaker recognition
KR20210108689A (en) * 2020-02-26 2021-09-03 고려대학교 산학협력단 Method and appartus for voice conversion by using neural network

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015040903A (en) * 2013-08-20 2015-03-02 ソニー株式会社 Voice processor, voice processing method and program
KR102500255B1 (en) * 2022-03-03 2023-02-17 (주)에이아이매틱스 Machine learning database construction system using voice privacy protection technology

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070022176A (en) 2005-08-18 2007-02-26 에스케이 텔레콤주식회사 System for modulating voice and mobile architecture having a mode of voice modulation
KR20190013748A (en) * 2016-05-30 2019-02-11 소니 주식회사 Apparatus, method and program for video sound processing
KR20180035420A (en) * 2016-09-29 2018-04-06 주식회사 온피아 A method for encrypting and decrypting a record file through data modulation
KR20210050884A (en) * 2019-10-29 2021-05-10 삼성전자주식회사 Registration method and apparatus for speaker recognition
KR20210108689A (en) * 2020-02-26 2021-09-03 고려대학교 산학협력단 Method and appartus for voice conversion by using neural network

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023167466A1 (en) * 2022-03-03 2023-09-07 (주)에이아이매틱스 System for constructing machine learning database by using voice privacy protection technology

Also Published As

Publication number Publication date
WO2023167466A1 (en) 2023-09-07

Similar Documents

Publication Publication Date Title
US9905227B2 (en) Speech recognition system, request device, method, program, and recording medium, using a mapping on phonemes to disable perception of selected content
KR102374343B1 (en) Method and system for building training database using voice personal information protection technology
CN107112006A (en) Speech processes based on neutral net
KR102095097B1 (en) Video sequences generating system using generative adversarial networks and the method thereof
KR20200080681A (en) Text-to-speech method and apparatus
US20210390970A1 (en) Multi-modal framework for multi-channel target speech seperation
CN112489621A (en) Speech synthesis method, device, readable medium and electronic equipment
KR102500255B1 (en) Machine learning database construction system using voice privacy protection technology
CN111091835A (en) Model training method, voiceprint recognition method, system, device and medium
CN117337467A (en) End-to-end speaker separation via iterative speaker embedding
EP3198870B1 (en) Processing parameters for operations on blocks while decoding images
KR102352954B1 (en) Real-time Abnormal Insider Event Detection on Enterprise Resource Planning Systems via Predictive Auto-regression Model
KR102192015B1 (en) Apparatus and method for generating manipulated image based on natural language and system using the same
Okaba et al. An automated location detection method in multi-storey buildings using environmental sound classification based on a new center symmetric nonlinear pattern: CS-LBlock-Pat
KR102222637B1 (en) Apparatus for analysis of emotion between users, interactive agent system using the same, terminal apparatus for analysis of emotion between users and method of the same
KR20210055464A (en) Method and Apparatus for Separating Speaker Based on Machine Learning
CN114041184A (en) Spoof detection device, spoof detection method, and computer-readable storage medium
US20220020368A1 (en) Output apparatus, output method and non-transitory computer-readable recording medium
KR102642617B1 (en) Voice synthesizer using artificial intelligence, operating method of voice synthesizer and computer readable recording medium
Singh et al. Applications of Signal Processing
US20230046763A1 (en) Speech recognition apparatus, control method, and non-transitory storage medium
KR102438969B1 (en) Functional dialog filter system applying sentence reconstruction and contrastive loss and the method thereof
Cardaioli et al. For Your Voice Only: Exploiting Side Channels in Voice Messaging for Environment Detection
WO2023140519A1 (en) System for constructing machine learning database using face personal information protection technology
KR20230119942A (en) Apparatus of processing voice, apparatus of reconstructing the voice, system for processing voice, method of processing the voice, method of reconstructing the voice and method of verification of the voice

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant