KR102041621B1 - 인공지능 음성인식 기반 기계학습의 대규모 말뭉치 구축을 위한 대화형 말뭉치 분석 서비스 제공 시스템 및 구축 방법 - Google Patents

인공지능 음성인식 기반 기계학습의 대규모 말뭉치 구축을 위한 대화형 말뭉치 분석 서비스 제공 시스템 및 구축 방법 Download PDF

Info

Publication number
KR102041621B1
KR102041621B1 KR1020190022012A KR20190022012A KR102041621B1 KR 102041621 B1 KR102041621 B1 KR 102041621B1 KR 1020190022012 A KR1020190022012 A KR 1020190022012A KR 20190022012 A KR20190022012 A KR 20190022012A KR 102041621 B1 KR102041621 B1 KR 102041621B1
Authority
KR
South Korea
Prior art keywords
corpus
speaker
sentence
sentences
interactive
Prior art date
Application number
KR1020190022012A
Other languages
English (en)
Inventor
배상희
Original Assignee
(주)미디어코퍼스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)미디어코퍼스 filed Critical (주)미디어코퍼스
Priority to KR1020190022012A priority Critical patent/KR102041621B1/ko
Application granted granted Critical
Publication of KR102041621B1 publication Critical patent/KR102041621B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

인공지능 음성인식 기반 기계학습의 대규모 말뭉치 구축을 위한 대화형 말뭉치 분석 서비스 제공 시스템이 제공되며, 적어도 하나의 미디어 매체를 통하여 구어체 문장 및 대화체 문장을 포함하는 콘텐츠와, 속기 단말로부터 전사된 스크립트를 수집하는 수집장치, 및 수집장치에서 수집된 콘텐츠 및 스크립트로부터 구어체 문장 및 대화체 문장을 추출하여 적어도 하나의 속성을 포함하는 원시 말뭉치(Corpus) 데이터를 생성하는 생성부, 원시 말뭉치 데이터의 대화쌍을 정규화 및 복원하여 정제하는 정제부, 정제된 대화쌍에 포함된 문장의 화자를 구분하여 프로파일을 태깅하는 구분부, 프로파일이 태깅된 문장의 형식 중 주어가 존재하지 않는 경우 주어를 복원하는 복원부, 주어가 복원된 문장 내에 포함된 개인정보 내 민감정보를 인식하여 대체하는 보호부, 민감정보가 대체된 문장에 적어도 하나의 발화 속성 정보에 기반하여 발화 태깅(Tagging)하여 분석 말뭉치를 구축하는 태깅부를 포함하는 대화형 말뭉치 분석 서비스 제공 서버를 포함한다.

Description

인공지능 음성인식 기반 기계학습의 대규모 말뭉치 구축을 위한 대화형 말뭉치 분석 서비스 제공 시스템 및 구축 방법{SYSTEM FOR PROVIDING ARTIFICIAL INTELLIGENCE BASED DIALOGUE TYPE CORPUS ANALYZE SERVICE, AND BUILDING METHOD THEREFOR}
본 발명은 인공지능 음성인식 기반 기계학습의 대규모 말뭉치 구축을 위한 대화형 말뭉치 분석 서비스 제공 방법에 관한 것으로, 고품질 및 대규모의 대화형 말뭉치를 구축하기 위한 분석 시스템 및 방법을 제공한다.
최근, 심층학습(Deep Learning) 이론 및 활용에 관련된 연구가 학술계, 산업계의 큰 주목을 받고 있다. 컴퓨터 비전, 패턴인식, 음성인식(Automatic Speech Recognition) 등 여러 분야에 심층학습이 적용되어 해당 분야의 평가대회에서 큰 폭의 성능향상을 이루어 최고 성능을 기록했는데, 이러한 연구경향은 자연언어처리(Natural Language Processing) 분야에도 영향을 미쳐 심층학습을 이용한 품사 태깅(Part-Of-Speech Tagging), 문장구조분석(Natural Language Parsing), 의미역 인식(Semantic Role Labeling), 감성 분석(Sentiment Analysis), 질의응답(Question Answering) 등 관련 연구가 활발하게 진행되고 있다. 심층학습을 포함한 기계학습을 위해서는 고품질 및 대규모의 말뭉치(Corpus)가 필요하게 되지만, 타 국가에 비해 국내에서 말뭉치를 연구 및 구축하기 시작한 시기가 상대적으로 늦고 그 축적량이 적기 때문에, 최고 성능의 기계학습을 이용하더라도 한글 기반의 음성인식 정확도가 다소 떨어지는 편이다.
이때, 음성인식을 정확도 및 성능을 향상시키는 방법이 연구 및 개발되었는데, 이와 관련하여, 선행기술인 한국공개특허 제2014-0054771호(2014년05월09일 공개)에서는, 언어 단위로 입력된 기존 사용자 발화 문장 및 현재 사용자 발화 문장에 대해 음성 인식 언어 모델인 훈련 말뭉치를 기반으로 가중치를 적용하고, 가중치가 적용된 기존 사용자 발화 문장 및 현재 사용자 발화 문장 각각에 대해 N-BEST및 N-BEST에 대한 점수를 생성하고, N-BEST에 대해서 기존 사용자 발화 문장 및 현재 사용자 발화 문장의 점수를 합산하는 인식 N-BEST 결합부의 구성을 개시하고 있고, 오류가 포함된 기존 사용자 발화 문장을 수정하기 위해서, 재발화를 반복할 필요가 없으므로 편리하고 쉽게 사용자 발화 문장을 수정할 수 있도록 구성된다.
다만, 상술한 방법은 이미 기계학습에서 훈련이 끝난 말뭉치를 이용하여 사용자의 발화문장을 수정하는 구성일 뿐, 기계학습 이전에 대규모 및 고품질의 말뭉치를 구축하는 방법이 전혀 아니다. 또한, 국내의 말뭉치 규모가 해외에 비하여 지나치게 적은 것도 문제이지만, 음성인식, 의도이해, 명령 수행의 성능을 향상시키기 위해서는 다양한 출처로부터 자연스럽고 다양한 표현을 포함하고 있는 대규모 및 고품질의 말뭉치를 구축하는 것도 중요한데, 국내에서는 2007년을 기점으로 정부의 말뭉치 구축 사업이 사실상 중단되었다가 최근에 다시 시작하려고 하나 영어의 2천억 어절 대비 한글은 2억 어절로 말뭉치가 부족하고, 10여년이 지나는 동안 수많은 인터넷 신조어가 탄생하고 있고 광범위하게 일상에 활용되고 있지만 현재 구축된 말뭉치에는 과거에 머물러 있으며 답보상태이고, 비교적 변화가 적은 언어 유형은 상관이 없지만 구어체와 같은 메신저 용어 등은 현재 구축된 말뭉치에서 품사 구별조차 하지 못하는 것이 현 실정이다.
본 발명의 일 실시예는, 구어체 및 대화체를 포함하는 대화형 말뭉치를 대규모 및 고품질로 구축하기 위하여 다양한 매체와 미디어를 통하여 수집된 일상대화 및 메신저 대화를 기반으로 주격 무형 대용어를 복원하고, 상호참조를 해결하며, 구문 및 의미역을 분석함으로써 다양한 출처의 다양한 표현을 포함하고 있는 대규모 및 고품질의 말뭉치를 구축하고, 또 구축된 말뭉치를 이용하여 기계학습을 시킴으로써 기계학습의 효율을 향상시키고, 더 나아가 인공지능 음성인식의 인식률을 극대화시킴으로써 발화자의 의도를 정확히 이해하고 명령을 수행할 때 대화형 문장의 인식 성능을 향상시킬 수 있는, 인공지능 음성인식 기반 기계학습의 대규모 말뭉치 구축을 위한 대화형 말뭉치 분석 서비스 제공 방법을 제공할 수 있다. 다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 일 실시예는, 적어도 하나의 미디어 매체를 통하여 구어체 문장 및 대화체 문장을 포함하는 콘텐츠와, 속기 단말로부터 전사된 스크립트를 수집하는 수집장치, 및 수집장치에서 수집된 콘텐츠 및 스크립트로부터 구어체 문장 및 대화체 문장을 추출하여 적어도 하나의 속성을 포함하는 원시 말뭉치(Corpus) 데이터를 생성하는 생성부, 원시 말뭉치 데이터의 대화쌍을 정규화 및 복원하여 정제하는 정제부, 정제된 대화쌍에 포함된 문장의 화자를 구분하여 프로파일을 태깅하는 구분부, 프로파일이 태깅된 문장의 형식 중 주어가 존재하지 않는 경우 주어를 복원하는 복원부, 복원된 문장 내에 포함된 개인정보와 민감정보를 인식하여 대체하거나 삭제하는 보호부, 민감정보가 대체된 문장에 적어도 하나의 발화 속성 정보에 기반하여 발화 태깅(Tagging)하여 분석 말뭉치를 구축하는 태깅부를 포함하여 각 단계별 정제된 말뭉치를 추출하는 대화형 말뭉치 분석 서비스 제공 서버를 포함한다.
본 발명의 다른 실시예는, 적어도 하나의 미디어 매체 및 속기 단말로부터 구어체 문장 및 대화체 문장을 포함하는 콘텐츠 및 전사된 스크립트를 수집하는 단계, 수집된 콘텐츠 및 스크립트로부터 구어체 문장 및 대화체 문장을 추출하여 적어도 하나의 속성을 포함하는 원시 말뭉치(Corpus) 데이터를 생성하는 단계, 원시 말뭉치 데이터의 대화쌍을 정규화 및 복원하여 대화의 흐름 및 맥락(Context)을 정제 및 정규화하는 단계, 정제 및 정규화된 대화쌍에 포함된 문장의 화자를 구분하여 프로파일을 태깅하고 대화쌍을 재구성하는 단계, 프로파일이 태깅된 문장의 형식 중 주어가 존재하지 않는 경우 주어를 복원하고, 상호참조, 구문분석 및 의미역 분석을 실행하는 단계, 주어가 복원된 문장 내에 포함된 개인정보 내 민감정보를 인식하여 대체하고, 기 설정된 화자 또는 기 설정된 화자 이외의 화자가 발화한 문장을 분류하여 저장 또는 삭제처리하는 단계, 및 저장처리된 화자의 발화 속성을 추가 및 태깅하여 분석 말뭉치를 구축하는 단계를 포함한다.
전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 구어체 및 대화체를 포함하는 대화형 말뭉치를 대규모 및 고품질로 구축하기 위하여 다양한 매체와 미디어를 통하여 수집된 일상대화 및 메신저 대화를 기반으로 주격 무형 대용어를 복원하고, 상호참조를 해결하며, 구문 및 의미역을 분석함으로써 다양한 출처의 다양한 표현을 포함하고 있는 대규모 및 고품질의 말뭉치를 구축하고, 또 구축된 말뭉치를 이용하여 기계학습을 시킴으로써 기계학습의 효율을 향상시키고, 더 나아가 인공지능 음성인식의 인식률을 극대화시킴으로써 발화자의 의도를 정확히 이해하고 명령을 수행할 때 대화형 문장의 인식 성능을 향상시키며 고객의 감성 품질 및 브랜드 충성도까지 높일 수 있다.
도 1은 본 발명의 일 실시예에 따른 인공지능 음성인식 기반 기계학습의 대규모 말뭉치 구축을 위한 대화형 말뭉치 분석 서비스 제공 시스템을 설명하기 위한 도면이다.
도 2는 도 1의 시스템에 포함된 대화형 말뭉치 분석 서비스 제공 서버를 설명하기 위한 블록 구성도이다.
도 3은 본 발명의 일 실시예에 따른 인공지능 음성인식 기반 기계학습의 대규모 말뭉치 구축을 위한 대화형 말뭉치 분석 서비스가 구현된 일 실시예를 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른 도 1의 인공지능 음성인식 기반 기계학습의 대규모 말뭉치 구축을 위한 대화형 말뭉치 분석 서비스 제공 시스템에 포함된 각 구성들 상호 간에 데이터가 송수신되는 과정을 나타낸 도면이다.
도 5는 본 발명의 일 실시예에 따른 인공지능 음성인식 기반 기계학습의 대규모 말뭉치 구축을 위한 대화형 말뭉치 분석 서비스 제공 방법을 설명하기 위한 동작 흐름도이다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미하며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
명세서 전체에서 사용되는 정도의 용어 "약", "실질적으로" 등은 언급된 의미에 고유한 제조 및 물질 허용오차가 제시될 때 그 수치에서 또는 그 수치에 근접한 의미로 사용되고, 본 발명의 이해를 돕기 위해 정확하거나 절대적인 수치가 언급된 개시 내용을 비양심적인 침해자가 부당하게 이용하는 것을 방지하기 위해 사용된다. 본 발명의 명세서 전체에서 사용되는 정도의 용어 "~(하는) 단계" 또는 "~의 단계"는 "~ 를 위한 단계"를 의미하지 않는다.
본 명세서에 있어서 '부(部)'란, 하드웨어에 의해 실현되는 유닛(unit), 소프트웨어에 의해 실현되는 유닛, 양방을 이용하여 실현되는 유닛을 포함한다. 또한, 1개의 유닛이 2개 이상의 하드웨어를 이용하여 실현되어도 되고, 2개 이상의 유닛이 1개의 하드웨어에 의해 실현되어도 된다.
본 명세서에 있어서 단말, 장치 또는 디바이스가 수행하는 것으로 기술된 동작이나 기능 중 일부는 해당 단말, 장치 또는 디바이스와 연결된 서버에서 대신 수행될 수도 있다. 이와 마찬가지로, 서버가 수행하는 것으로 기술된 동작이나 기능 중 일부도 해당 서버와 연결된 단말, 장치 또는 디바이스에서 수행될 수도 있다.
본 명세서에서 있어서, 단말과 매핑(Mapping) 또는 매칭(Matching)으로 기술된 동작이나 기능 중 일부는, 단말의 식별 정보(Identifying Data)인 단말기의 고유번호나 개인의 식별정보를 매핑 또는 매칭한다는 의미로 해석될 수 있다.
이하 첨부된 도면을 참고하여 본 발명을 상세히 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른 인공지능 음성인식 기반 기계학습의 대규모 말뭉치 구축을 위한 대화형 말뭉치 분석 서비스 제공 시스템을 설명하기 위한 도면이다. 도 1을 참조하면, 인공지능 음성인식 기반 기계학습의 대규모 말뭉치 구축을 위한 대화형 말뭉치 분석 서비스 제공 시스템(1)은, 적어도 하나의 수집장치(100), 대화형 말뭉치 분석 서비스 제공 서버(300), 적어도 하나의 속기 단말(400)을 포함할 수 있다. 다만, 이러한 도 1의 인공지능 음성인식 기반 기계학습의 대규모 말뭉치 구축을 위한 대화형 말뭉치 분석 서비스 제공 시스템(1)은, 본 발명의 일 실시예에 불과하므로, 도 1을 통하여 본 발명이 한정 해석되는 것은 아니다.
이때, 도 1의 각 구성요소들은 일반적으로 네트워크(network, 200)를 통해 연결된다. 예를 들어, 도 1에 도시된 바와 같이, 적어도 하나의 수집장치(100)는 네트워크(200)를 통하여 대화형 말뭉치 분석 서비스 제공 서버(300)와 연결될 수 있다. 그리고, 대화형 말뭉치 분석 서비스 제공 서버(300)는, 네트워크(200)를 통하여 적어도 하나의 수집장치(100), 적어도 하나의 속기 단말(400)과 연결될 수 있다. 또한, 적어도 하나의 속기 단말(400)은, 네트워크(200)를 통하여 대화형 말뭉치 분석 서비스 제공 서버(300)와 연결될 수 있다.
여기서, 네트워크는, 복수의 단말 및 서버들과 같은 각각의 노드 상호 간에 정보 교환이 가능한 연결 구조를 의미하는 것으로, 이러한 네트워크의 일 예에는 RF, 3GPP(3rd Generation Partnership Project) 네트워크, LTE(Long Term Evolution) 네트워크, 5GPP(5th Generation Partnership Project) 네트워크, WIMAX(World Interoperability for Microwave Access) 네트워크, 인터넷(Internet), LAN(Local Area Network), Wireless LAN(Wireless Local Area Network), WAN(Wide Area Network), PAN(Personal Area Network), 블루투스(Bluetooth) 네트워크, NFC 네트워크, 위성 방송 네트워크, 아날로그 방송 네트워크, DMB(Digital Multimedia Broadcasting) 네트워크 등이 포함되나 이에 한정되지는 않는다.
하기에서, 적어도 하나의 라는 용어는 단수 및 복수를 포함하는 용어로 정의되고, 적어도 하나의 라는 용어가 존재하지 않더라도 각 구성요소가 단수 또는 복수로 존재할 수 있고, 단수 또는 복수를 의미할 수 있음은 자명하다 할 것이다. 또한, 각 구성요소가 단수 또는 복수로 구비되는 것은, 실시예에 따라 변경가능하다 할 것이다.
적어도 하나의 수집장치(100)는, 인공지능 음성인식 기반 기계학습의 대규모 말뭉치 구축을 위한 대화형 말뭉치 분석 서비스 관련 웹 페이지, 앱 페이지, 프로그램 또는 애플리케이션을 이용하여 대화체 및 구어체가 포함된 메신저 대화 내요을 수집하는 장치일 수 있다. 이때, 적어도 하나의 수집장치(100)은 메신저 대화 내용을 예를 들어 개인 단말(미도시)로부터 수집할 수 있으나, 이에 한정되지는 않는다. 또한, 적어도 하나의 수집장치(100)는, 대화체 및 구어체가 포함된 콘텐츠를 수집하는 장치일 수 있다. 이때, 수집 객체인 콘텐츠는, 드라마, 영화, 유투브 등 다양한 매체로부터 수집되는 콘텐츠일 수 있다. 이때, 드라마나 영화의 대본을 그대로 스크립트를 가져오는 경우, 저작권 위반의 문제가 발생할 수 있으므로 콘텐츠 자체로부터 창작 및 가공을 함으로써 저작권 침해를 하지 않도록 할 수 있다. 그리고, 적어도 하나의 수집 장치(100)는, 웹크롤러를 이용하여 다양한 대화문장을 수집하는 장치일 수 있다. 이를 통하여, 구어체, 즉 말을 함으로써 그대로 공중으로 분해되어 버리는 문장들을 콘텐츠화 및 자료화할 수 있고, 이를 이용하여 기계학습을 위한 대규모 훈련 데이터 셋을 생성할 수 있게 된다.
여기서, 적어도 하나의 수집장치(100)는, 네트워크를 통하여 원격지의 서버나 단말에 접속할 수 있는 컴퓨터로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 네비게이션, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(Desktop), 랩톱(Laptop) 등을 포함할 수 있다. 이때, 적어도 하나의 수집장치(100)는, 네트워크를 통해 원격지의 서버나 단말에 접속할 수 있는 단말로 구현될 수 있다. 적어도 하나의 수집장치(100)는, 예를 들어, 휴대성과 이동성이 보장되는 무선 통신 장치로서, 네비게이션, PCS(Personal Communication System), GSM(Global System for Mobile communications), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet) 단말, 스마트폰(smartphone), 스마트 패드(smartpad), 타블렛 PC(Tablet PC) 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치를 포함할 수 있다.
대화형 말뭉치 분석 서비스 제공 서버(300)는, 인공지능 음성인식 기반 기계학습의 대규모 말뭉치 구축을 위한 대화형 말뭉치 분석 서비스 웹 페이지, 앱 페이지, 프로그램 또는 애플리케이션을 제공하는 서버일 수 있다. 그리고, 대화형 말뭉치 분석 서비스 제공 서버(300)는, 수집장치(100)로부터 대화체 및 구어체 문장, 다자간의 대화 등을 수신하는 경우, 대화 참가자나 대화 맥락(ContexT)의 적어도 하나의 속성을 가지는 원시 말뭉치를 생성하는 서버일 수 있다. 그리고, 대화형 말뭉치 분석 서비스 제공 서버(300)는, 수집 장치(100)로부터 수집된 콘텐츠의 종류를 파악하고, 콘텐츠로부터 음성을 추출하거나 콘텐츠에 포함된 자막을 추출, 또는 STT(Speech to Text)를 이용함으로써 대화체 및 구어체 문장을 텍스트화하는 서버일 수 잇다. 또한, 대화형 말뭉치 분석 서비스 제공 서버(300)는, 속기 단말(400)로부터 수신된 전사 스크립트를 수집하고, 수집된 스크립트에 포함된 대화체 문장 및 구어체 문장을 적어도 하나의 속성을 태깅하여 원시 말뭉치를 구축하는 서버일 수 있다. 그리고 나서, 대화형 말뭉치 분석 서비스 제공 서버(300)는, 대화쌍을 정규화 및 복원하고, 문장별로 화자를 구분하여 프로파일을 태깅하며, 문장 내 주어가 포함되지 않은 경우 주격 무형 대용어를 적용하여 주어를 복원하고, 상호참조, 구문분석 및 의미역 분석을 진행한 후, 개인정보보호를 위하여 민감정보를 기 설정된 문자열로 변환하거나 대체하고, 발화 속성 정보를 추가하여 태깅한 후 기계학습을 위한 분석 말뭉치를 구축하는 서버일 수 있다. 그리고, 대화형 말뭉치 분석 서비스 제공 서버(300)는, 구축된 분석 말뭉치를 입력 데이터로 하고, 입력 데이터를 훈련 데이터, 검증 데이터 및 테스트 데이터로 구분하고 비지도학습, 지도학습, 반지도학습으로 각각 또는 적어도 하나의 학습 방법을 혼합하여 트레이닝을 시키는 서버일 수 있다.
여기서, 대화형 말뭉치 분석 서비스 제공 서버(300)는, 네트워크를 통하여 원격지의 서버나 단말에 접속할 수 있는 컴퓨터로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 네비게이션, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(Desktop), 랩톱(Laptop) 등을 포함할 수 있다.
적어도 하나의 속기 단말(400)은, 인공지능 음성인식 기반 기계학습의 대규모 말뭉치 구축을 위한 대화형 말뭉치 분석 서비스 관련 웹 페이지, 앱 페이지, 프로그램 또는 애플리케이션을 이용하여 자막이 없는 콘텐츠의 자막 텍스트를 전사하여 대화형 말뭉치 분석 서비스 제공 서버(300)로 전송하는 속기사의 단말일 수 있다.
여기서, 적어도 하나의 속기 단말(400)은, 네트워크를 통하여 원격지의 서버나 단말에 접속할 수 있는 컴퓨터로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 네비게이션, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(Desktop), 랩톱(Laptop) 등을 포함할 수 있다. 이때, 적어도 하나의 속기 단말(400)은, 네트워크를 통해 원격지의 서버나 단말에 접속할 수 있는 단말로 구현될 수 있다. 적어도 하나의 속기 단말(400)은, 예를 들어, 휴대성과 이동성이 보장되는 무선 통신 장치로서, 네비게이션, PCS(Personal Communication System), GSM(Global System for Mobile communications), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet) 단말, 스마트폰(smartphone), 스마트 패드(smartpad), 타블렛 PC(Tablet PC) 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치를 포함할 수 있다.
도 2는 도 1의 시스템에 포함된 대화형 말뭉치 분석 서비스 제공 서버를 설명하기 위한 블록 구성도이고, 도 3은 본 발명의 일 실시예에 따른 인공지능 음성인식 기반 기계학습의 대규모 말뭉치 구축을 위한 대화형 말뭉치 분석 서비스가 구현된 일 실시예를 설명하기 위한 도면이다.
도 2 및 도 3을 참조하면, 대화형 말뭉치 분석 서비스 제공 서버(300)는, 생성부(310), 정제부(320), 구분부(330), 복원부(340), 보호부(350), 태깅부(360)를 포함할 수 있다.
본 발명의 일 실시예에 따른 대화형 말뭉치 분석 서비스 제공 서버(300)나 연동되어 동작하는 다른 서버(미도시)가 적어도 하나의 수집장치(100), 및 적어도 하나의 속기 단말(400)로 인공지능 음성인식 기반 기계학습의 대규모 말뭉치 구축을 위한 대화형 말뭉치 분석 서비스 애플리케이션, 프로그램, 앱 페이지, 웹 페이지 등을 전송하는 경우, 적어도 하나의 수집장치(100), 및 적어도 하나의 속기 단말(400)은, 인공지능 음성인식 기반 기계학습의 대규모 말뭉치 구축을 위한 대화형 말뭉치 분석 서비스 애플리케이션, 프로그램, 앱 페이지, 웹 페이지 등을 설치하거나 열 수 있다. 또한, 웹 브라우저에서 실행되는 스크립트를 이용하여 서비스 프로그램이 적어도 하나의 수집장치(100), 및 적어도 하나의 속기 단말(400)에서 구동될 수도 있다. 여기서, 웹 브라우저는 웹(WWW: world wide web) 서비스를 이용할 수 있게 하는 프로그램으로 HTML(hyper text mark-up language)로 서술된 하이퍼 텍스트를 받아서 보여주는 프로그램을 의미하며, 예를 들어 넷스케이프(Netscape), 익스플로러(Explorer), 크롬(chrome) 등을 포함한다. 또한, 애플리케이션은 단말 상의 응용 프로그램(application)을 의미하며, 예를 들어, 모바일 단말(스마트폰)에서 실행되는 앱(app)을 포함한다.
도 2를 참조하면, 생성부(310)는, 수집장치(100)에서 수집된 콘텐츠 및 스크립트로부터 구어체 문장 및 대화체 문장을 추출하여 적어도 하나의 속성을 포함하는 원시 말뭉치(Corpus) 데이터를 생성할 수 있다. 이때, 수집장치(100)는, 적어도 하나의 미디어 매체를 통하여 구어체 문장 및 대화체 문장을 포함하는 콘텐츠와, 속기 단말(400)로부터 전사된 스크립트를 수집하는데, 이 뿐만 아니라, 적어도 하나의 화자가 포함된 구어체 문장 및 대화체 문장을 적어도 하나의 종류의 소셜미디어 및 메신저를 통하여 수집할 수도 있다. 이에 따라, 혼자 말하는 독백 뿐만 아니라, 메신저 또는 소셜 미디어 상에서 다자간 발화가 어떻게 이루어지는지에 대한 기초자료를 수집할 수 있다. 이때, 생성부(310)는 원시 말뭉치에 다자간의 대화를 구분하기 위하여 대화 참가자를 구분하는 태그 및 대화 맥락 등을 구분하기 위한 태그 등의 속성(주석)을 부여(태깅)하여 원시 말뭉치를 구축하게 된다. 여기서, 생성부(310)에서 단순한 태그만을 붙이는 이유는 정제가 되기 전 원시 말뭉치에 노이즈나 정확한 구문 분석이나 문장 분석이 되지 않거나 주어가 생략된 문장 등 다양한 형태에 있어서 태깅을 하는 경우 이후 오류가 발생하거나 재태깅을 해야 하는 일이 발생할 수 있기 때문이다. 따라서, 생성부(310)에서는 대화형 말뭉치를 구축하기 위한 가장 기본적인 정보, 즉 노이즈가 있는 상태이거나 분석이 되기 전에도 파악이 되는 명확한 속성만을 부여하여 이후 분석에서 해당 정보를 이용하도록 하는 베이스 작업을 하게 된다. 물론, 모든 속성을 태깅하는 것을 배제하는 것은 아니고, 실시예에 따라 달라질 수 있음은 자명하다 할 것이다. 여기서 속성은 나이, 성별, 지역, 직업, 관계 등 말뭉치와 화자에 대한 모든 정보가 해당될 수 있다.
이때, 말뭉치(Corpus)란 언어 연구를 위해 텍스트를 컴퓨터가 읽을 수 있는 형태로 모아 놓은 언어 자료, 언어 현실을 총체적으로 드러내 보여줄 수 있는 자료의 집합체로 매체, 시간, 공간, 주석 단계 등의 기준에 따라 다양한 종류가 있으며, 한 덩어리로 볼 수 있는 말의 뭉치라는 뜻이다. 이는 곧 인간의 언어를 전산이라는 기술적 방법을 통해 입력해 놓은 것을 의미하고, 이 개별 언어 자료는 일정한 특성에 따라 집합체를 이루는데, 이를 뭉치라고 할 수 있다. 이러한 말뭉치 구축은 크게 두 가지로 분류되는데, 하나는 단순 입력, 곧 가공의 과정을 거치지 않고 원형 그대로 전산화한 원시 말뭉치이고, 이 원시 말뭉치에 일정한 문법이나 품사 등의 기준을 가지고 주석(Annotation)을 붙이는 태깅을 한 주석 말뭉치이다. 이렇게 주석을 첨가하는 것은 이러한 원시 말뭉치 자료를 어떻게 활용할 것인가라는 목적성에 따라 달라진다. 결국 동일한 말뭉치 자료를 원시 형태와 가공의 형태로 구축함으로써 다양한 언어 연구의 목적과 활용의 범위를 확대하고 재생산하게 되는데, 생성부(310)에서는 말뭉치의 두 가지 종류의 구축 중 전자에 해당하는 과정을 실행하게 된다.
정제부(320)는 원시 말뭉치 데이터의 대화쌍을 정규화 및 복원하여 정제할 수 있다. 그리고, 정제부(320)는, 원시 말뭉치 데이터의 대화쌍의 정규화를 통하여 대화의 흐름 및 대화의 맥락(Context)을 정제하여 정규화할 수 있다. 실제의 담화 속에서 대화는 차례맡기(Turn-taking)로 특징지어진다. 질문과 대답, 제의와 수락, 인사와 답례 등의 인접쌍(Adjacency Pair)로 결속되어 있는 대화 구조 속에서, 예를 들어, "아니"는 부정이라는 그 고유의 어휘의미로 말미암아 가치 판단에 대한 의견 상반, 제의나 요청과 같은 선행발화에 대하여 거절의 비선호적인 대답으로 인식되어야 한다. 이때, 인접쌍(대화쌍)의 둘째 부분에서 나타나는 내용과 형식의 관련성에 대하여, 요청이나 제의, 초대 등에 있어서 수용은 선호적인 형식, 거절은 비선호적인 형식이며, 또 평가나 질문은 동의 혹은 예견되어진 대답이 선호적인 형식이며, 반대나 예건하지 못하는 대답은 비선호적인 형식이라고 정의될 수 있다. "아니"는 평가나 질문에 대해서는 첫째 부분의 질문과 평가의 방법에 따라 예견된 반응일 수 있고, 예견되지 않은 쪽으로의 반응일 수도 있어서 구체적인 상황에 의해 그 선호성은 달라질 수 있겠지만, 대체적으로는 거절을 나타내는 직접적인 발화가 되므로 비선호적인 둘째 부분을 이룬다고 할 수 있다.
이와 같은 대화쌍의 규칙을 기반으로, 상술한 이상적(Ideal)인 경우를 제외하고도 실제 생활에서는 메신저 기반의 대화를 할 때, 네트워크 딜레이나 대화 상대방이 앞에 있지 않음으로써 늦게 피드백을 주는 경우가 빈번한데, 이러한 경우에는 대화쌍의 규칙이 적용되지 않는 경우가 발생할 수 있다. 예를 들어, A와 B 대화를 하고 있는데, A가 B에게 의향을 물어보았으나 B가 대답을 하기도 전에 A가 다시 다른 질문을 하였으며, 이에 대하여 B가 긍정 또는 부정의 대답을 한 경우에는, 전자의 질문에 대한 대답인지, 후자의 질문에 대한 대답인지 등을 구분해야 인접쌍, 즉 대화쌍의 차례맡기 특징이 적용될 수 있다. 이에 따라, 정제부(320)는 상술한 바와 같이 차례맡기가 특징되지 않는 경우 및 대화가 삭제된 경우에 특징지워질 수 있도록, 또 삭제된 대화가 복원될 수 있도록 대화쌍에 대한 정규화를 실시할 수 있다. 이를 통하여, 차례맡기로 턴을 바꾸며 대화를 하는 대화쌍을 복원할 수 있게 된다. 이대, 정제부(320)는, 상술한 정규화 이외에도 대화의 흐름이나 맥락(Context)을 정규화할 수도 있는데, 이는 다양한 공개기술이 적용될 수 있으므로 상세한 설명은 생략하기로 한다.
구분부(330)는, 정제된 대화쌍에 포함된 문장의 화자를 구분하여 프로파일을 태깅할 수 있다. 또한, 구분부(330)는 정제된 대화쌍의 문장별로 화자를 구분하여 대화쌍을 재구성할 수 있다. 이때, 영상과 오디오(텍스트)가 함께 포함된 경우에는 오디오의 음성신호로 화자를 구분할 수 있고, 메신저와 같은 대화는 메신저의 닉네임, 계정 등을 화자를 구분할 수 있다. 만약, 대본이라면 각 대사를 읽는 배우나 맡은 역에 따라 화자가 구분될 수 있다. 이때, 화자가 영상, 오디오 및 텍스트로 구분되지 않은 경우에도 화자를 식별하는 다양한 방법으로 화자를 구분함으로써 정제부(320)에서 정제한 대화쌍을 재구성하게 된다. 여기서, 자동 화자인식은 발성된 음성으로부터 그 화자에 대한 정보를 추출하는 기술로서 일반적으로 화자식별(speaker identification)과 화자검증(speaker verification)으로 나누어진다.
이 중에서 화자식별 기술은 임의의 화자로부터 입력된 음성을 사용하여 등록된 화자들 중에서 발성화자를 찾아내는 기술인데, 이는 여러 사람들 중에서 특정한 목소리의 사람을 찾아주는 기능을 한다. 이 기술은 입력된 음성을 등록된 화자들의 목소리와 비교하여 그 중에서 가장 일치하는 한 화자를 선택하기 때문에 등록되지 않은 임의의 화자가 음성을 입력하여도 등록된 화자들 중의 가장 유사한 화자로 인식되는 단점을 가지고 있다. 반면에 화자검증 기술은 사전에 특정한 화자가 제시(claim) 되었을 경우에 발성된 음성이 그 제시화자(claimed speaker)의 목소리인지를 판단하여 발성화자가 제시화자 인지의 여부를 검증하는 기술이다. 따라서 화자검증 기술은 화자식별 기술이 가지고 있는 미등록화자 오식별 문제를 해결할 수 있어서 화자식별 결과의 검증을 위한 후처리 기술로 사용될 수 있다.
이러한 화자식별과 화자검증은 입력되는 음성의 내용에 대한 제한에 따라서 또 다시 문장독립 (text-independent) 방식과 문장종속(text-dependent) 방식으로 나누어진다. 문장독립 화자인식 방식에서는 화자식별이나 화자검증을 위하여 발성하는 음성의 문장 형식이나 종류에 제한이 없는 방식이다. 즉, 임의의 형식의 문장으로 구성된 음성을 입력 대상으로 하여 화자인식을 수행한다. 따라서 이 방식에서는 화자인식기가 발성된 문장을 사전에 모르는 상태에서 인식을 수행할 수 있으므로 사용자가 임의로 선정한 어구나 대화음성(conversational speech)을 입력 대상으로 한다. 이를 통해, 사용자는 보다 편리하고 융통성 있게 화자인식기를 사용할 수 있다. 반면에 문장종속 화자인식 방식에서는 사전에 정해진 문장만으로 발성된 음성을 대상으로 화자인식을 수행한다. 즉, 고정 어구나 제시 어구와 같이 화자인식기가 발성 가능한 문장 종류에 제한을 가하여 문장 내용을 사전에 알고 있다. 이 방식은 사용자가 입력 가능한 문장 내용을 사전에 숙지하고 그 내용에 맞게 발성해야 하기 때문에 사용자 편의성이 떨어지지만, 이 방식은 이러한 발성문장에 대한 사전지식을 토대로 화자의 음성에 대한 통계모델을 보다 신뢰성있게 구축할 수 있기 때문에 보다 높은 화자인식 성능을 제공할 수 있다. 또한 입력 가능한 문장을 구성하는 음성 정보에 대해서만 통계모델을 생성하기 때문에 화자등록을 위한 음성입력의 분량이 더 적어지는 장점을 가지고 있다.
한편, 텍스트 기반의 대화에서 화자를 식별하기 위해서는, 텍스트 기반의 스토리 분할을 이용할 수도 있는데, 스토리 분할(Story Segmentaion)은 텍스트나, 비디오, 오디오 등의 콘텐츠를 비슷한 의미끼리 묶어 각각의 이야기단위로 분할하는 것을 말한다. 텍스트나 비디오 같은 콘텐츠를 분할하기 위해 텍스트를 분석하거나 비디오에 등장하는 장면을 분석하고, 오디오 콘텐츠를 문자음성 자동변환 기술(Text to Speech)을 사용하여 텍스트로 바꾸고 이를 분석할 수도 있다. 이때, 스토리 분할의 기본 아이디어는 같은 내용을 담고 있는 부분에서 동일한 단어들이 반복되거나 유사한 이미지 패턴이 반복될 것이고 이 정보를 바탕으로 스토리 별로 분할한다는 것이다. 이런 스토리 분할은 주제 식별이나 내용 요약, 정보 추출, 내용별 인덱싱과 검색 등을 위해 활용되며, 예를 들어, TextTiling은 텍스트의 어휘적 응집성(Lexical Cohesion) 즉, 동일한 내용을 가지는 문장, 문단들에서 동일한 단어들이 반복적으로 등장할 것이라는 점을 고려한 스토리 분할 방법이다.
이를 위해, 텍스트에서 각 단어들이 등장하는 빈도를 측정하고 공통된 단어들이 등장하는 문장, 문단들을 묶는데, 토큰화 단계에서는 텍스트의 각 문장들에 포함된 단어를 추출하고 어휘 유사도 측정 단계에서는 두 문장에 각각 등장하는 단어들의 빈도수를 측정하여 문장 간의 코사인 유사도를 계산한다. 마지막으로 스토리 변환 시점 식별 단계에서는 각 문장에서 앞뒤 문장과의 유사도 차이 정도를 의미하는 Depth Score를 계산하여 Depth Score가 높은 문장을 스토리 변환 시점으로 식별하고 이를 기준으로 전체 텍스트가 분할된다. 스토리 분할(Segmentation Manager)에서는 단어들의 동의어, 유의어 개념을 반영하기 위해 단어들의 어휘적 응집성을 고려한 유사도 측정방법을 사용하는 것이 아니라 단어들의 의미적 유사도를 고려하는 측정 방법을 사용한다. 여기서 의미적 유사도는 두 단어가 얼마나 유사한 지를 나타내며 이는 기 구축된 네트워크에서 단어들이 떨어져 있는 정도를 분석하여 측정한다. 상술한 방법에서 스토리를 화자로 변경하는 것도 물론 가능하며, 이에 따라 본 발명의 일 실시예에서는, 동영상 및 오디오인 음성신호를 포함하는 콘텐츠 이외에도 양자 또는 다자간 대화에서도 텍스트 기반으로 화자를 분리할 수 있게 된다. 상술한 방법 이외에도 다양한 화자 식별 기술 및 방법이 적용될 수 있으며, 상술한 방법으로 화자 구분 방법이 한정되는 것은 아님은 자명하다 할 것이다.
이렇게 구분부(330)에서 화자를 구분하여 각 화자를 식별하도록 프로파일을 태깅한 후에는, 복원부(340)는, 프로파일이 태깅된 문장의 형식 중 주어가 존재하지 않는 경우 주어를 복원할 수 있다. 이때, 복원부(340)는, 프로파일이 태깅된 문장의 상호참조, 구문분석, 및 의미역 분석을 실행할 수 있다. 이때, 주어 뿐만 아니라 생략된 각 품사 또는 형식을 복원, 즉 무형대용어 복원을 할 수 있음은 자명하다 할 것이다.
우선, 영어와 달리 한국어나 일본어 문장의 경우 용언의 필수격을 채우는 명사구나 주어가 생략되는 무형대용어 현상이 빈번하다. 특히 백과사전이나 위키피디아의 문서에서 표제어로 채울 수 있는 격의 경우 그 격이 문장에서 더 쉽게 생략된다. 정보검색, 질의응답 시스템 등 주요 지능형 응용시스템들은 백과사전류의 문서에서 주요한 정보를 추출하여 수집하여야 한다. 이때, 대용어 현상이란 문맥(context)으로부터 유추가 가능한 문장 성분을 대용어(anaphor)로 대치하는 현상을 말한다. 대치된 원래의 문장 성분을 선행어(antecedent)라 부르는데, 예를 들어, "철수는 학교에 갔다. 가는 도중 그는 영희를 만났다"의 문장과, "철수는 학교에 갔다. 가는 도중 영희를 만났다"를 보면, 전자의 경우 대용어 "그는"의 선행어는 앞 문장의 "철수는"이다. 대용어의 선행어를 찾아 내는 작업을 "대용어 해결(anaphora resolution)" 또는 복원이라 부르는데, 영어와 달리 한국어나 일본어의 경우 대용어가 생략될 수도 있는데, 이를 무형대용어(zero anaphor; ZA)라 부른다. 후자의 문장에서는 "그는" 이 생략되어 무형대용어가 발생하였다. 이렇게, 무형대용어 해결이란 생략된 원래의 문장 성분을 알아 내어 복원하는 작업으로써, 전자의 경우에는 이에 대한 선행어인 "철수는"을 찾아야 하고, 후자의 경우에는 생략된 "그는"을 복원해야 한다.
따라서, 복원부(340)는 이렇게 생략되는 무형대용어를 복원하여 완전한 문장을 생성해야 하는데, 무형대용어(ZA) 해결 즉 복원을 위해서는 무형대용어와 상호참조(co-reference) 관계에 있는 명사구 즉 선행어를 찾아야 한다. 두 명사구가 세상의 동일한 객체를 지칭하는 표현이라면 이 둘은 상호참조 관계를 가진다고 한다. 무형대용어의 선행어는 무형대용어가 발생한 문서 내에 1 번 이상 나타나는 경우가 대부분이지만(anaphoric ZA), 나타나지 않는 경우도 간혹 있을 수 있다(nonanaphoric ZA). 이중 어느 경우이든 백과사전 문서에서는 표제어로도 ZA를 복원하는 것이 가능한 경우가 많다. 선행어의 탐색 범위는 문서 내에서 무형대용어보다 앞에 나타난 명사구들로서 이들이 선행어 후보 리스트이다.
이때, 본 발명의 일 실시예에 따른 복원부(340)는, 문서 내의 선행어 탐색을 위해 시퀀스 레이블링(SL; sequence labeling) 메커니즘을 이용할 수 있다. 기존 연구에서는 후보 명사구 리스트의 각 명사구마다 독립적으로 선행어 여부에 대한 이진 분류 결과에 기반하고, 이를 후보별(candidate-wise) 기법이라 하는데, 이와 달리 복원부(340)에서는 전체 후보 명사구들에 대하여 동시에 선행어 여부를 결정하는 전역적(global) 기법을 사용할 수 있다. 시퀀스 레이블링은 입력으로 여러 개체로 구성된 리스트를 받으며 출력으로 레이블 리스트를 생성하고, 시퀀스 레이블링은 입력과 출력을 각각 하나의 개체가 아니라 여러 개체로 구성된 구조체로 취급하는 특징을 가진다. 단일 개체에 대한 이진분류에 적합한 일반 SVM은 시퀀스 레이블링 작업에 이용될 수 없으므로, 구조체를 입력과 출력으로 수용할 수 있는 Structural SVM을 본 발명의 모델로 이용할 수 있다. 다만, 상술한 방법은 하나의 실시예일 뿐, 상술한 방법에 한정되는 것은 아니고 다양한 무형대용어 복원 방법이 이용가능함은 자명하다 할 것이다.
보호부(350)는, 주어가 복원된 문장 내에 포함된 개인정보 내 민감정보를 인식하여 대체할 수 있다. 예를 들어, 개인정보는 기본적으로 개인정보보호법에 규정되어 있는 개인정보 이외에도, 추출 및 추론에 의해 획득된 개인정보를 바탕으로 각 사용자마다 재식별(Re-identification)이 가능한지도 체크하여 해당 정보를 제거하거나 대체할 수 있다. 즉, 한국의 경우 해당인에 대한 주민등록번호를 획득하면 명백히 실개인 매핑이 됐다고 볼 수 있지만, 주민등록번호 이외에도, 주소, 나이 등 알려진 정보를 조합하여, 실 개인을 특정할 수 있다. 그리고, 개인정보의 종류에도 다양한 종류가 있는데, 개인정보 종류별 위험도 분류에서 높은 등급의 개인정보로 분류된 정보들인 민감정보는 당연대체되도록 처리할 수도 있다. 예를 들어, A와 B가 대화를 하는데, A가 B에게 집 주소를 알려주거나 계좌번호를 알려주었다고 가정하면, 집 주소는 주소의 포맷만을 남겨두고 주소에 포함된 식별자(숫자, 텍스트 등)를 변경하는 방법일 수도 있고, 계좌번호도 계좌번호라는 것을 포맷으로 알지만, 계좌번호를 이루는 숫자 자체는 알 수 없도록 숫자 0으로 대체하는 등으로 민감정보나 특정단어를 인식하고 대체할 수 있다.
덧붙여서, 보호부(350)는, 주어가 복원된 문장의 프로파일을 기반으로 기 설정된 화자 또는 기 설정된 화자 이외의 화자가 발화한 문장을 분류하여, 기 설정된 화자 또는 기 설정된 화자 이외의 화자가 발화한 문장을 저장 또는 삭제할 수도 있다. 예를 들어, A의 대화내용을 A로부터 입수하였는데, 대화는 쌍을 이루는 것이 일반적이므로 대화 상대방의 대화내용이 포함되게 되는데, 대화 상대방의 개인정보가 포함된 경우는 제거됨은 별론으로 하더라도, 대화 상대방은 대화내용 전달자가 아니므로, A는 대화 상대방의 대화 내용을 이용할 권한이 없다. 따라서, 권리관계 및 계약관계에 따라 또는 대화 상대방의 요청에 따라 대화 상대방의 대화 내용을 분류하고 삭제할 수도 있다.
태깅부(360)는, 민감정보가 대체된 문장에 적어도 하나의 발화 속성 정보에 기반하여 발화 태깅(Tagging)하여 분석 말뭉치를 구축하는 태깅부(360)를 포함할 수 있다. 이때, 개체명 인식(named entity recognition)은 정보 추출(information extraction)의 한 세부 분류로서, 텍스트로부터 개체가 되는 대상을 찾고, 그것을 미리 정의된 범주(category)로 분류하는 것을 말한다. 문서나 대화 등 인간의 언어생활에서 개체명은 문장 및 발화의 의미를 분석하는데 중요한 정보가 된다. 그렇기 때문에 자연어처리의 질의응답 시스템(question answering system)의 경우 지식구축, 사용자 질의 분석 등의 작업이 주로 개체명 단위로 이루어진다. 이때, 개체명 인식 방법은 크게 규칙기반 방법과 확률기반 방법으로 나눌 수 있다. 규칙 기반 방법은 정규표현식과 같은 패턴과 개체명 사전을 이용하는 방법으로, 좋은 패턴의 생성 방법과 개체명 사전의 크기가 성능 향상을 위한 요건이 된다. 확률 기반 방법은 대용량의 개체명이 태깅된 말뭉치(corpus)로부터 확률을 학습하고, 그것을 이용하여 개체명 범주를 결정하는 방법이다.
이와 같은 방법은 성능 향상을 위해 최적화된 자질(feature)을 찾는 것이 중요하다. 일반적으로 어휘수준의 자질(형태소와 그 품사), 문법수준의 자질(의존구조 등), 항목색인(list-lookup) 자질(개체명 사전-어절 색인) 등을 사용할 수 잇다. 이때, 개체명 범주는 사용 용도에 따라 다양하게 정의될 수 있기 때문에, 태깅부(360)에서도 말뭉치를 어떠한 범주로 나누고 어떠한 종류의 속성을 정의할 것인지, 또 어떠한 속성을 태깅할 것인지를 상술한 방법으로 결정하고, 이에 따라, 발화 속성의 추가 정보가 존재한다면, 추가된 속성이 말뭉치에 태깅될 수 있도록 한다.
이하, 상술한 도 2의 대화형 말뭉치 분석 서비스 제공 서버의 구성에 따른 동작 과정을 도 3을 예로 들어 상세히 설명하기로 한다. 다만, 실시예는 본 발명의 다양한 실시예 중 어느 하나일 뿐, 이에 한정되지 않음은 자명하다 할 것이다.
도 3을 참조하면, 대화형 말뭉치 분석 서비스 제공 서버(300)는 수집 장치(100)로부터 구어체 문장, 대화체 문장을 포함하는 방송이나 영화, 라디오 등의 적어도 하나의 매체의 콘텐츠를 수신한다. 그리고, 대화형 말뭉치 분석 서비스 제공 서버(300)는 자막이 포함된 콘텐츠는 자막을 추출하고, 음성만 존재하는 경우 오디오로부터 음성을 텍스트로 변환하고, 자막도 없고 음성도 없는 경우에는 속기사의 속기 단말(400)로부터 전사과정을 통해 텍스트를 수신한다. 이렇게 대화형 말뭉치 분석 서비스 제공 서버(300)는 대화체 및 구어체 문장이 텍스트로 수집이 완료된 것을 말뭉치 속성이 태깅된 원시 말뭉치로 생성하고, 대화쌍을 정제, 정규화 및 복원하고, 각 문장별로 화자를 구분하여 프로파일을 태깅함으로써 대화의 흐름과 맥락을 정제하고 정제하는 대화쌍 재구성 과정을 수행한다.
또한, 대화형 말뭉치 분석 서비스 제공 서버(300)는 주격 무형 대용어를 복원하는데, 이때 주격이 아니더라도 다양한 품사 또는 형식이 삭제된 무형 대용어를 복원할 수도 있다. 그리고, 복원된 문장을 이용하여 대화형 말뭉치 분석 서비스 제공 서버(300)는 상호참조, 구문분석 및 의미역 분석을 한 후, 특정어 및 민감어를 인식하고, 이를 다른 기 설정된 단어나 문자열로 대체함으로써 개인정보를 보호하고, 프라이버시 이슈를 해결할 수 있도록 한다. 이때, 대화형 말뭉치 분석 서비스 제공 서버(300)는 화자 구분을 통하여 삭제할 화자의 발화 내용 및 저장할 화자의 발화 내용을 분류하며, 저장할 화자의 발화 속성을 추가하고, 추가된 발화 속성에 대응하도록 속성 정보(주석)를 태깅함으로써 대규모 및 고품질의 분석 말뭉치를 최종적으로 구축하게 된다.
이와 같은 도 2 및 도 3의 인공지능 음성인식 기반 기계학습의 대규모 말뭉치 구축을 위한 대화형 말뭉치 분석 서비스 제공 방법에 대해서 설명되지 아니한 사항은 앞서 도 1을 통해 인공지능 음성인식 기반 기계학습의 대규모 말뭉치 구축을 위한 대화형 말뭉치 분석 서비스 제공 방법에 대하여 설명된 내용과 동일하거나 설명된 내용으로부터 용이하게 유추 가능하므로 이하 설명을 생략하도록 한다.
도 4는 본 발명의 일 실시예에 따른 도 1의 인공지능 음성인식 기반 기계학습의 대규모 말뭉치 구축을 위한 대화형 말뭉치 분석 서비스 제공 시스템에 포함된 각 구성들 상호 간에 데이터가 송수신되는 과정을 나타낸 도면이다. 이하, 도 4를 통해 각 구성들 상호간에 데이터가 송수신되는 과정의 일 예를 설명할 것이나, 이와 같은 실시예로 본원이 한정 해석되는 것은 아니며, 앞서 설명한 다양한 실시예들에 따라 도 4에 도시된 데이터가 송수신되는 과정이 변경될 수 있음은 기술분야에 속하는 당업자에게 자명하다.
도 4를 참조하면, 대화형 말뭉치 분석 서비스 제공 서버(300)는, 수집장치(100)로부터 콘텐츠를 수집하거나, 웹 크롤링으로 대화형 텍스트를 크롤링하거나, 속기 단말(400)로부터 전사된 속기 데이터를 수신하는 경우(S4100), 영상 파일에 자막이 존재하는 경우 자막을 추출하고, 자막이 없는 영상인 경우 오디오 신호로부터 텍스트를 추출하고(STT), 속기 데이터로부터는 속기 텍스트를 추출하고, 메세지 및 대본으로부터 텍스트를 추출함으로써 최종적으로 텍스트 형태의 대화형 문장을 포함하는 원시 말뭉치를 생성하고 말뭉치 속성을 부여한다(S4300).
이때, 대화형 말뭉치 분석 서비스 제공 서버(300)는, 대화쌍 정규화를 통하여 화자의 의도, 대화의 흐름 및 맥락을 파악함으로써 상황정보를 인지하는 방식으로 대화를 정제 및 정규화하며 복원을 진행하게 된다(S4400). 그리고, 대화형 말뭉치 분석 서비스 제공 서버(300)는, 문장별로 화자를 구분해서 태깅을 실시하고(S4500), 주격 무형 대용어를 복원하고(S4600), 상호참조, 구문분석, 의미역분석을 진행하여 각 문장을 구조와 의미를 분석하게 된다(S4700). 그리고, 대화형 말뭉치 분석 서비스 제공 서버(300)는, 민감정보는 대체하고(S4800), 화자를 구분하여 삭제되어야 할 화자의 대화는 삭제 말뭉치로 저장하거나 폐기처리하고(S4820), 저장되어 훈련 및 학습되어야 할 화자의 대화를 인풋으로 발화 속성을 추가하고, 추가된 발화 속성을 태깅하며(S4900), 결과적으로 분석 말뭉치를 구축하게 된다(S4920).
상술한 단계들(S4100~S4920)간의 순서는 예시일 뿐, 이에 한정되지 않는다. 즉, 상술한 단계들(S4100~S4920)간의 순서는 상호 변동될 수 있으며, 이중 일부 단계들은 동시에 실행되거나 삭제될 수도 있다.
이와 같은 도 4의 인공지능 음성인식 기반 기계학습의 대규모 말뭉치 구축을 위한 대화형 말뭉치 분석 서비스 제공 방법에 대해서 설명되지 아니한 사항은 앞서 도 1 내지 도 3을 통해 인공지능 음성인식 기반 기계학습의 대규모 말뭉치 구축을 위한 대화형 말뭉치 분석 서비스 제공 방법에 대하여 설명된 내용과 동일하거나 설명된 내용으로부터 용이하게 유추 가능하므로 이하 설명을 생략하도록 한다.
도 5는 본 발명의 일 실시예에 따른 인공지능 음성인식 기반 기계학습의 대규모 말뭉치 구축을 위한 대화형 말뭉치 분석 서비스 제공 방법을 설명하기 위한 동작 흐름도이다. 도 5를 참조하면, 대화형 말뭉치 분석 서비스 제공 서버는, 적어도 하나의 미디어 매체 및 속기 단말로부터 구어체 문장 및 대화체 문장을 포함하는 콘텐츠 및 전사된 스크립트를 수집한다(S5100).
그리고, 대화형 말뭉치 분석 서비스 제공 서버는, 수집된 콘텐츠 및 스크립트로부터 구어체 문장 및 대화체 문장을 추출하여 적어도 하나의 속성을 포함하는 원시 말뭉치(Corpus) 데이터를 생성하고(S5200), 원시 말뭉치 데이터의 대화쌍을 정규화 및 복원하여 대화의 흐름 및 맥락(Context)을 정제 및 정규화한다(S5300).
또한, 대화형 말뭉치 분석 서비스 제공 서버는, 정제 및 정규화된 대화쌍에 포함된 문장의 화자를 구분하여 프로파일을 태깅하고 대화쌍을 재구성하고(S5400), 프로파일이 태깅된 문장의 형식 중 주어가 존재하지 않는 경우 주어를 복원하고, 상호참조, 구문분석 및 의미역 분석을 실행하며(S5500), 주어가 복원된 문장 내에 포함된 개인정보 내 민감정보를 인식하여 대체하고, 기 설정된 화자 또는 기 설정된 화자 이외의 화자가 발화한 문장을 분류하여 저장 또는 삭제처리한다(S5600).
마지막으로, 대화형 말뭉치 분석 서비스 제공 서버는, 저장처리된 화자의 발화 속성을 추가 및 태깅하여 분석 말뭉치를 구축한다(S5700).
이와 같은 도 5의 인공지능 음성인식 기반 기계학습의 대규모 말뭉치 구축을 위한 대화형 말뭉치 분석 서비스 제공 방법에 대해서 설명되지 아니한 사항은 앞서 도 1 내지 도 4를 통해 인공지능 음성인식 기반 기계학습의 대규모 말뭉치 구축을 위한 대화형 말뭉치 분석 서비스 제공 방법에 대하여 설명된 내용과 동일하거나 설명된 내용으로부터 용이하게 유추 가능하므로 이하 설명을 생략하도록 한다.
도 5를 통해 설명된 일 실시예에 따른 인공지능 음성인식 기반 기계학습의 대규모 말뭉치 구축을 위한 대화형 말뭉치 분석 서비스 제공 방법은, 컴퓨터에 의해 실행되는 애플리케이션이나 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.
전술한 본 발명의 일 실시예에 따른 인공지능 음성인식 기반 기계학습의 대규모 말뭉치 구축을 위한 대화형 말뭉치 분석 서비스 제공 방법은, 단말기에 기본적으로 설치된 애플리케이션(이는 단말기에 기본적으로 탑재된 플랫폼이나 운영체제 등에 포함된 프로그램을 포함할 수 있음)에 의해 실행될 수 있고, 사용자가 애플리케이션 스토어 서버, 애플리케이션 또는 해당 서비스와 관련된 웹 서버 등의 애플리케이션 제공 서버를 통해 마스터 단말기에 직접 설치한 애플리케이션(즉, 프로그램)에 의해 실행될 수도 있다. 이러한 의미에서, 전술한 본 발명의 일 실시예에 따른 인공지능 음성인식 기반 기계학습의 대규모 말뭉치 구축을 위한 대화형 말뭉치 분석 서비스 제공 방법은 단말기에 기본적으로 설치되거나 사용자에 의해 직접 설치된 애플리케이션(즉, 프로그램)으로 구현되고 단말기에 등의 컴퓨터로 읽을 수 있는 기록매체에 기록될 수 있다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims (9)

  1. 적어도 하나의 미디어 매체를 통하여 구어체 문장 및 대화체 문장을 포함하는 콘텐츠와, 속기 단말로부터 전사된 스크립트를 수집하는 수집장치; 및
    상기 수집장치에서 수집된 콘텐츠 및 스크립트로부터 구어체 문장 및 대화체 문장을 추출하여 적어도 하나의 속성을 포함하는 원시 말뭉치(Corpus) 데이터를 생성하는 생성부, 상기 원시 말뭉치 데이터의 대화쌍을 정규화 및 복원하여 정제하는 정제부, 상기 정제된 대화쌍에 포함된 문장의 화자를 구분하여 프로파일을 태깅하는 구분부, 상기 프로파일이 태깅된 문장의 형식 중 주어가 존재하지 않는 경우 주어를 복원하는 복원부, 상기 복원된 문장 내에 포함된 개인정보와 민감정보를 인식하여 대체하거나 삭제하는 보호부, 상기 민감정보가 대체된 문장에 적어도 하나의 발화 속성 정보에 기반하여 발화 태깅(Tagging)하여 분석 말뭉치를 구축하는 태깅부를 포함하여 각 단계별 정제된 말뭉치를 추출하는 대화형 말뭉치 분석 서비스 제공 서버;를 포함하고,
    상기 생성부는, 원시 말뭉치의 속성을 포함하거나 속성을 태깅하여 분석과 정제를 위한 가공된 원시 말뭉치(Corpus) 데이터를 생성하며, 상기 속성은 나이, 성별, 지역, 직업, 관계 중 적어도 하나를 포함하는 원시 말뭉치와 화자에 대한 정보이고,
    상기 구분부는 상기 정제된 대화쌍의 문장별로 화자를 구분하여 대화쌍을 재구성하고,
    상기 보호부는, 상기 주어가 복원된 문장의 프로파일을 기반으로 기 설정된 화자 또는 기 설정된 화자 이외의 화자가 발화한 문장을 분류하여, 상기 기 설정된 화자 또는 기 설정된 화자 이외의 화자가 발화한 문장을 저장 또는 삭제하고,
    상기 태깅부는 저장 처리된 화자의 발화 속성을 추가하고 추가된 발화 속성을 태깅하는 것을 특징으로 하는 인공지능 음성인식 기반 기계학습의 대규모 말뭉치 구축을 위한 대화형 말뭉치 분석 서비스 제공 시스템.
  2. 제 1 항에 있어서, 상기 수집장치는,
    적어도 하나의 화자가 포함된 구어체 문장 및 대화체 문장을 적어도 하나의 종류의 소셜미디어 및 메신저를 통하여 수집하는 것을 특징으로 하는 인공지능 음성인식 기반 기계학습의 대규모 말뭉치 구축을 위한 대화형 말뭉치 분석 서비스 제공 시스템.
  3. 삭제
  4. 제 1 항에 있어서, 상기 정제부는,
    상기 원시 말뭉치 데이터의 대화쌍의 정규화를 통하여 대화의 흐름 및 대화의 맥락(Context)을 정제하여 정규화하는 것을 특징으로 하는 인공지능 음성인식 기반 기계학습의 대규모 말뭉치 구축을 위한 대화형 말뭉치 분석 서비스 제공 시스템.
  5. 삭제
  6. 제 1 항에 있어서, 상기 복원부는,
    상기 프로파일이 태깅된 문장의 상호참조, 구문분석, 및 의미역 분석을 실행하는 것을 특징으로 하는 인공지능 음성인식 기반 기계학습의 대규모 말뭉치 구축을 위한 대화형 말뭉치 분석 서비스 제공 시스템.
  7. 삭제
  8. 대화형 말뭉치 분석 서비스 제공 서버에서 실행되는 대화형 말뭉치 구축 방법에 있어서,
    적어도 하나의 미디어 매체 및 속기 단말로부터 구어체 문장 및 대화체 문장을 포함하는 콘텐츠 및 전사된 스크립트를 수집하는 단계;
    상기 수집된 콘텐츠 및 스크립트로부터 구어체 문장 및 대화체 문장을 추출하여 적어도 하나의 속성을 포함하는 원시 말뭉치(Corpus) 데이터를 생성하는 단계;
    상기 원시 말뭉치 데이터의 대화쌍을 정규화 및 복원하여 대화의 흐름 및 맥락(Context)을 정제 및 정규화하는 단계;
    상기 정제 및 정규화된 대화쌍에 포함된 문장의 화자를 구분하여 프로파일을 태깅하고 상기 대화쌍을 재구성하는 단계;
    상기 프로파일이 태깅된 문장의 형식 중 주어가 존재하지 않는 경우 주어를 복원하고, 상호참조, 구문분석 및 의미역 분석을 실행하는 단계;
    상기 주어가 복원된 문장 내에 포함된 개인정보 내 민감정보를 인식하여 대체하고, 기 설정된 화자 또는 기 설정된 화자 이외의 화자가 발화한 문장을 분류하여 저장 또는 삭제 처리하는 단계; 및
    상기 저장처리된 화자의 발화 속성을 추가하고 추가된 발화 속성을 태깅하여 분석 말뭉치를 구축하는 단계;
    를 포함하는 인공지능 음성인식 기반 대규모 말뭉치 구축을 위한 대화형 말뭉치 구축 방법.
  9. 제 8 항에 있어서,
    각 단계별로 중간 생성 및 정제된 데이터를 추출하여 말뭉치를 구축하는 단계를 더 포함하는 인공지능 음성인식 기반 대규모 말뭉치 구축을 위한 대화형 말뭉치 구축 방법.
KR1020190022012A 2019-02-25 2019-02-25 인공지능 음성인식 기반 기계학습의 대규모 말뭉치 구축을 위한 대화형 말뭉치 분석 서비스 제공 시스템 및 구축 방법 KR102041621B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190022012A KR102041621B1 (ko) 2019-02-25 2019-02-25 인공지능 음성인식 기반 기계학습의 대규모 말뭉치 구축을 위한 대화형 말뭉치 분석 서비스 제공 시스템 및 구축 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190022012A KR102041621B1 (ko) 2019-02-25 2019-02-25 인공지능 음성인식 기반 기계학습의 대규모 말뭉치 구축을 위한 대화형 말뭉치 분석 서비스 제공 시스템 및 구축 방법

Publications (1)

Publication Number Publication Date
KR102041621B1 true KR102041621B1 (ko) 2019-11-06

Family

ID=68541532

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190022012A KR102041621B1 (ko) 2019-02-25 2019-02-25 인공지능 음성인식 기반 기계학습의 대규모 말뭉치 구축을 위한 대화형 말뭉치 분석 서비스 제공 시스템 및 구축 방법

Country Status (1)

Country Link
KR (1) KR102041621B1 (ko)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111292766A (zh) * 2020-02-07 2020-06-16 北京字节跳动网络技术有限公司 用于生成语音样本的方法、装置、电子设备和介质
CN113064985A (zh) * 2021-04-30 2021-07-02 思必驰科技股份有限公司 人机对话方法、电子设备及存储介质
CN113392096A (zh) * 2021-06-03 2021-09-14 重庆锐云科技有限公司 一种房地产数据质量分析方法、装置、设备及存储介质
KR20220070826A (ko) * 2020-11-23 2022-05-31 주식회사 와이즈넛 검색 기반의 대화 시스템에서 다음 발화의 응답 선택을 위한 발화 조작 장치 및 그 방법
WO2023038292A1 (ko) * 2021-09-10 2023-03-16 삼성전자주식회사 전자 장치 및 전자 장치의 음성 처리 방법
CN116229943A (zh) * 2023-05-08 2023-06-06 北京爱数智慧科技有限公司 一种对话式数据集的生成方法和装置
KR102627819B1 (ko) * 2023-03-09 2024-01-23 주식회사 스파이스웨어 인공지능을 이용한 문맥 내 개인정보 판단 장치, 방법 및 컴퓨터 프로그램

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130128717A (ko) * 2012-05-17 2013-11-27 포항공과대학교 산학협력단 대화 관리 시스템 및 방법
KR20140042994A (ko) * 2012-09-28 2014-04-08 한국전자통신연구원 가상 에이전트와의 대화 내용에서 자동으로 추출되는 개인 프로파일링 정보를 이용한 자동학습 기반의 인공지능 대화 시스템
KR20140080089A (ko) * 2012-12-20 2014-06-30 삼성전자주식회사 음성인식장치 및 음성인식방법, 음성인식장치용 데이터 베이스 및 음성인식장치용 데이터 베이스의 구축방법
KR20170071325A (ko) * 2015-12-15 2017-06-23 한국전자통신연구원 언어 분석 오류 보정 장치 및 방법
KR20170094415A (ko) * 2015-06-29 2017-08-17 구글 인코포레이티드 개인정보 보호 트레이닝 코퍼스 선택

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130128717A (ko) * 2012-05-17 2013-11-27 포항공과대학교 산학협력단 대화 관리 시스템 및 방법
KR20140042994A (ko) * 2012-09-28 2014-04-08 한국전자통신연구원 가상 에이전트와의 대화 내용에서 자동으로 추출되는 개인 프로파일링 정보를 이용한 자동학습 기반의 인공지능 대화 시스템
KR20140080089A (ko) * 2012-12-20 2014-06-30 삼성전자주식회사 음성인식장치 및 음성인식방법, 음성인식장치용 데이터 베이스 및 음성인식장치용 데이터 베이스의 구축방법
KR20170094415A (ko) * 2015-06-29 2017-08-17 구글 인코포레이티드 개인정보 보호 트레이닝 코퍼스 선택
KR20170071325A (ko) * 2015-12-15 2017-06-23 한국전자통신연구원 언어 분석 오류 보정 장치 및 방법

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111292766A (zh) * 2020-02-07 2020-06-16 北京字节跳动网络技术有限公司 用于生成语音样本的方法、装置、电子设备和介质
CN111292766B (zh) * 2020-02-07 2023-08-08 抖音视界有限公司 用于生成语音样本的方法、装置、电子设备和介质
KR20220070826A (ko) * 2020-11-23 2022-05-31 주식회사 와이즈넛 검색 기반의 대화 시스템에서 다음 발화의 응답 선택을 위한 발화 조작 장치 및 그 방법
KR102446294B1 (ko) * 2020-11-23 2022-09-22 주식회사 와이즈넛 검색 기반의 대화 시스템에서 다음 발화의 응답 선택을 위한 발화 조작 장치 및 그 방법
CN113064985A (zh) * 2021-04-30 2021-07-02 思必驰科技股份有限公司 人机对话方法、电子设备及存储介质
CN113392096A (zh) * 2021-06-03 2021-09-14 重庆锐云科技有限公司 一种房地产数据质量分析方法、装置、设备及存储介质
WO2023038292A1 (ko) * 2021-09-10 2023-03-16 삼성전자주식회사 전자 장치 및 전자 장치의 음성 처리 방법
KR102627819B1 (ko) * 2023-03-09 2024-01-23 주식회사 스파이스웨어 인공지능을 이용한 문맥 내 개인정보 판단 장치, 방법 및 컴퓨터 프로그램
CN116229943A (zh) * 2023-05-08 2023-06-06 北京爱数智慧科技有限公司 一种对话式数据集的生成方法和装置
CN116229943B (zh) * 2023-05-08 2023-08-15 北京爱数智慧科技有限公司 一种对话式数据集的生成方法和装置

Similar Documents

Publication Publication Date Title
KR102041621B1 (ko) 인공지능 음성인식 기반 기계학습의 대규모 말뭉치 구축을 위한 대화형 말뭉치 분석 서비스 제공 시스템 및 구축 방법
García-Díaz et al. Detecting misogyny in Spanish tweets. An approach based on linguistics features and word embeddings
Ghosh et al. Fracking sarcasm using neural network
Wu et al. Emotion recognition from text using semantic labels and separable mixture models
US8452772B1 (en) Methods, systems, and articles of manufacture for addressing popular topics in a socials sphere
RU2636098C1 (ru) Использование глубинного семантического анализа текстов на естественном языке для создания обучающих выборок в методах машинного обучения
US9262411B2 (en) Socially derived translation profiles to enhance translation quality of social content using a machine translation
KR102041618B1 (ko) 인공지능 음성인식을 위한 기계학습 기반 자연어 말뭉치 구축 서비스 제공 시스템 및 방법
Arshad et al. Corpus for emotion detection on roman urdu
CN114580382A (zh) 文本纠错方法以及装置
Banerjee et al. A dataset for building code-mixed goal oriented conversation systems
US20230069935A1 (en) Dialog system answering method based on sentence paraphrase recognition
Kaushik et al. Automatic sentiment detection in naturalistic audio
Vinnarasu et al. Speech to text conversion and summarization for effective understanding and documentation
Satapathy et al. Seq2seq deep learning models for microtext normalization
JP6994289B2 (ja) キャラクタ属性に応じた対話シナリオを作成するプログラム、装置及び方法
Son et al. Causal explanation analysis on social media
Chakravarty et al. Dialog Acts Classification for Question-Answer Corpora.
Satapathy et al. Phonsenticnet: A cognitive approach to microtext normalization for concept-level sentiment analysis
Majeed et al. Deep-EmoRU: mining emotions from roman urdu text using deep learning ensemble
Dyriv et al. The user's psychological state identification based on Big Data analysis for person's electronic diary
Dey et al. Emotion extraction from real time chat messenger
US20230004830A1 (en) AI-Based Cognitive Cloud Service
CN111159405B (zh) 基于背景知识的讽刺检测方法
US20230350929A1 (en) Method and system for generating intent responses through virtual agents

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant