KR102474690B1

KR102474690B1 - 회의록 작성 방법 및 장치

Info

Publication number: KR102474690B1
Application number: KR1020200111374A
Authority: KR
Inventors: 윤태원; 윤효경; 김주현
Original assignee: 주식회사 제윤
Priority date: 2020-09-02
Filing date: 2020-09-02
Publication date: 2022-12-06
Also published as: KR20220029877A

Abstract

본 발명은 회의록을 작성하는 방법 및 그 장치에 관한 것이다. 본 발명의 일 실시예에 따른 회의록 작성 방법은, 컴퓨팅 장치에서 수행되는 방법에 있어서, 제1 화자의 음성 데이터와 제2 화자의 음성 데이터를 얻되, 상기 제1 화자의 음성 데이터와 상기 제2 화자의 음성 데이터는 적어도 일부 발언 시간이 겹치는 것인, 단계, 상기 제1 화자의 음성 데이터를 제1 음성 인식 엔진이 제공받는 단계, 상기 제1 음성 인식 엔진이 상기 제1 화자의 음성 데이터를 제1 발언 텍스트로 변환하되, 상기 제1 화자의 음성 데이터가 하나 이상의 묵음 구간에 의하여 구분되는 복수의 발언 조각을 포함하더라도 기 지정된 발언 완성 요건이 만족될 때까지 상기 발언 조각을 연결함으로써, 상기 제1 발언 텍스트를 구성하는 단계, 상기 제2 화자의 음성 데이터를 상기 제1 음성 인식 엔진과 별개의 제2 음성 인식 엔진이 제공받는 단계, 상기 제2 음성 인식 엔진이 상기 제2 화자의 음성 데이터를 제2 발언 텍스트로 변환하되, 상기 제2 화자의 음성 데이터가 하나 이상의 묵음 구간에 의하여 구분되는 복수의 발언 조각을 포함하더라도 기 지정된 상기 발언 완성 요건이 만족될 때까지 상기 발언 조각을 연결함으로써, 상기 제2 발언 텍스트를 구성하는 단계 및 상기 제1 발언 텍스트와 상기 제2 발언 텍스트를 발언 시작 시간의 순서를 기준으로 연결하여 회의록을 작성하는 단계를 포함할 수 있다.

Description

회의록 작성 방법 및 장치{APPARATUS FOR TAKING MINUTES AND METHOD THEREOF}

본 발명은 회의록을 작성하는 방법 및 그 장치에 관한 것이다. 보다 구체적으로는, 회의에 참석한 복수의 화자의 발언이 겹치는 경우에도 인식 가능한 회의록을 작성하는 방법 및 그 장치에 관한 것이다.

국회, 광역지방의회 또는 기초지방의회에서 열린 회의의 진행 과정 및 발언 내용 등은 서기에 의해 기록된다. 그리고, 이와 같이 기록된 회의록은 일반인에게 공개됨이 일반적이다.

회의 참석자의 발언을 텍스트로 변환하여 회의록을 작성하는 종래의 회의록 작성 방법은, 회의에 참석한 복수의 화자의 발언이 겹치는 경우에 겹쳐진 음성을 단순히 시간 순으로 변환하여 회의록을 제공함으로써, 회의록에 작성된 내용을 인식하는데 어려움이 있다.

한국등록특허 제10-1618084호

본 발명이 해결하고자 하는 기술적 과제는, 회의에 참석한 복수의 화자의 발언이 겹치는 경우에도, 인식 가능한 회의록을 작성하는 방법 및 그 장치를 제공하기 위한 것이다.

본 발명이 해결하고자 하는 다른 기술적 과제는, 회의에 참석한 복수의 화자의 발언이 겹치는 경우에도, 중첩된 음성을 화자별로 분리하는 회의록 작성 방법 및 그 장치를 제공하기 위한 것이다.

본 발명이 해결하고자 하는 또 다른 기술적 과제는, 회의에 참석한 복수의 화자의 발언을 화자별로 병렬 처리하여 회의록을 작성하는 방법 및 그 장치를 제공하기 위한 것이다.

본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

상기 기술적 과제를 해결하기 위한 본 발명의 일 실시예에 따른 회의록 작성 방법은, 컴퓨팅 장치에서 수행되는 방법에 있어서, 제1 화자의 음성 데이터와 제2 화자의 음성 데이터를 얻되, 상기 제1 화자의 음성 데이터와 상기 제2 화자의 음성 데이터는 적어도 일부 발언 시간이 겹치는 것인, 단계, 상기 제1 화자의 음성 데이터를 제1 음성 인식 엔진이 제공받는 단계, 상기 제1 음성 인식 엔진이 상기 제1 화자의 음성 데이터를 제1 발언 텍스트로 변환하되, 상기 제1 화자의 음성 데이터가 하나 이상의 묵음 구간에 의하여 구분되는 복수의 발언 조각을 포함하더라도 기 지정된 발언 완성 요건이 만족될 때까지 상기 발언 조각을 연결함으로써, 상기 제1 발언 텍스트를 구성하는 단계, 상기 제2 화자의 음성 데이터를 상기 제1 음성 인식 엔진과 별개의 제2 음성 인식 엔진이 제공받는 단계, 상기 제2 음성 인식 엔진이 상기 제2 화자의 음성 데이터를 제2 발언 텍스트로 변환하되, 상기 제2 화자의 음성 데이터가 하나 이상의 묵음 구간에 의하여 구분되는 복수의 발언 조각을 포함하더라도 기 지정된 상기 발언 완성 요건이 만족될 때까지 상기 발언 조각을 연결함으로써, 상기 제2 발언 텍스트를 구성하는 단계 및 상기 제1 발언 텍스트와 상기 제2 발언 텍스트를 발언 시작 시간의 순서를 기준으로 연결하여 회의록을 작성하는 단계를 포함할 수 있다.

일 실시예에서, 상기 발언 완성 요건은 상기 묵음 구간이 제1 기준 시간 이상이면, 충족되는 것일 수 있다. 여기서, 상기 제1 기준 시간은 화자의 발언 속도를 이용하여 기준 규칙에 따라 결정되는 것일 수 있다.

일 실시예에서, 상기 발언 완성 요건은 연결된 상기 발언 조각의 문장이 완성되면, 충족되는 것일 수 있다.

일 실시예에서, 상기 제1 발언 텍스트를 구성하는 단계는 상기 발언 조각을 발언 시간 순서에 따라 연결하는 단계, 연결된 발언 조각을 문법 검사 엔진이 제공받는 단계, 상기 문법 검사 엔진에 의해 상기 연결된 발언 조각이 완성된 문장으로 결정된 경우, 상기 발언 완성 요건을 만족하는 것으로 결정하는 단계 및 상기 연결된 발언 조각을 이용하여 제1 발언 텍스트를 구성하는 단계를 포함할 수 있다.

일 실시예에서, 상기 묵음 구간은 음성 데이터가 제2 기준 시간 이상 입력되지 않는 구간일 수 있다. 여기서, 상기 제2 기준 시간은 화자의 발언 속도를 이용하여 기준 규칙에 따라 결정되는 것일 수 있다. 이때, 상기 기준 규칙은 상기 발언 속도가 빠르면 상기 제2 기준 시간이 낮게 결정되고, 상기 발언 속도가 느리면 상기 제2 기준 시간이 높게 결정되는 것일 수 있다.

일 실시예에서, 제1 마이크를 이용하여 제1 음성 데이터를 얻되, 상기 제1 음성 데이터는 제1 화자의 음성 데이터가 주된 음성 데이터이고, 상기 제1 화자의 음성 데이터와 제2 화자의 음성 데이터가 적어도 일부 발언 시간이 겹쳐 중첩되어 입력되는 것인, 단계, 상기 제1 마이크와 별개의 제2 마이크를 이용하여 제2 음성 데이터를 얻되, 상기 제2 음성 데이터는 상기 제2 화자의 음성 데이터가 주된 음성 데이터이고, 상기 제1 화자의 음성 데이터와 상기 제2 화자의 음성 데이터가 적어도 일부 발언 시간이 겹쳐 중첩되어 입력되는 것인, 단계, 상기 제2 음성 데이터를 이용하여, 상기 제1 음성 데이터에 포함된 상기 제2 화자의 음성 데이터를 제거하고 상기 제1 화자의 음성 데이터를 얻는 단계 및 상기 제1 음성 데이터를 이용하여, 상기 제2 음성 데이터에 포함된 상기 제1 화자의 음성 데이터를 제거하고 상기 제2 화자의 음성 데이터를 얻는 단계를 포함할 수 있다. 여기서, 상기 제1 화자의 음성 데이터를 제1 음성 인식 엔진이 제공받는 단계, 상기 제1 음성 인식 엔진이 상기 제1 화자의 음성 데이터를 제1 발언 텍스트로 변환하되, 상기 제1 화자의 음성 데이터가 하나 이상의 묵음 구간에 의하여 구분되는 복수의 제1 발언 조각을 포함하더라도 기 지정된 발언 완성 요건이 만족될 때까지 상기 제1 발언 조각을 연결함으로써, 상기 제1 발언 텍스트를 구성하는 단계, 상기 제2 화자의 음성 데이터를 상기 제1 음성 인식 엔진과 별개의 제2 음성 인식 엔진이 제공받는 단계, 상기 제2 음성 인식 엔진이 상기 제2 화자의 음성 데이터를 제2 발언 텍스트로 변환하되, 상기 제2 화자의 음성 데이터가 하나 이상의 묵음 구간에 의하여 구분되는 복수의 제2 발언 조각을 포함하더라도 기 지정된 상기 발언 완성 요건이 만족될 때까지 상기 제2 발언 조각을 연결함으로써, 상기 제2 발언 텍스트를 구성하는 단계 및 상기 제1 발언 텍스트와 상기 제2 발언 텍스트를 발언 시작 시간의 순서를 기준으로 연결하여 회의록을 작성하는 단계를 포함할 수 있다.

일 실시예에서, 상기 제1 화자의 음성 데이터를 얻는 단계는 제2 음성 데이터 파형을 얻는 단계 및 상기 제2 음성 데이터 파형의 반대 위상 파형을 상기 제1 음성 데이터에 중첩하여, 상기 제2 화자의 음성 데이터를 제거하고 상기 제1 화자의 음성 데이터를 얻는 단계를 포함할 수 있다.

일 실시예에서, 음성 데이터를 얻는 단계는, 회의장에 존재하는 복수의 마이크 출력을 실시간으로 합산하는 단계, 합산된 총 마이크 출력에서 차지하는 출력이 기준 비율 이상인 마이크 출력을 증폭하고, 상기 기준 비율 미만인 마이크 출력을 감쇄하는 단계를 포함할 수 있다. 또한, 회의장에 존재하는 복수의 마이크 각각에 의한 출력을 실시간으로 얻어, 상기 출력의 변화량이 기준치 이하인 마이크 출력을 감쇄하는 단계를 포함할 수 있다.

일 실시예에서, 상기 회의록 작성 방법을 실행하기 위한 컴퓨터 프로그램이 기록된 컴퓨터 판독 가능한 기록 매체일 수 있다.

일 실시예에서 회의록 작성 장치는, 프로세서, 네트워크 인터페이스, 메모리 및 상기 메모리에 로드(load)되고, 상기 프로세서에 의해 실행되는 컴퓨터 프로그램을 포함하되, 상기 컴퓨터 프로그램은 제1 화자의 음성 데이터와 제2 화자의 음성 데이터를 얻되, 상기 제1 화자의 음성 데이터와 상기 제2 화자의 음성 데이터는 적어도 일부 발언 시간이 겹치는 것인, 인스트럭션(instruction), 상기 제1 화자의 음성 데이터를 제1 음성 인식 엔진이 제공받는 인스트럭션, 상기 제1 음성 인식 엔진이 상기 제1 화자의 음성 데이터를 제1 발언 텍스트로 변환하되, 상기 제1 화자의 음성 데이터가 하나 이상의 묵음 구간에 의하여 구분되는 복수의 발언 조각을 포함하더라도 기 지정된 발언 완성 요건이 만족될 때까지 상기 발언 조각을 연결함으로써, 상기 제1 발언 텍스트를 구성하는 인스트럭션, 상기 제2 화자의 음성 데이터를 상기 제1 음성 인식 엔진과 별개의 제2 음성 인식 엔진이 제공받는 인스트럭션, 상기 제2 음성 인식 엔진이 상기 제2 화자의 음성 데이터를 제2 발언 텍스트로 변환하되, 상기 제2 화자의 음성 데이터가 하나 이상의 묵음 구간에 의하여 구분되는 복수의 발언 조각을 포함하더라도 기 지정된 상기 발언 완성 요건이 만족될 때까지 상기 발언 조각을 연결함으로써, 상기 제2 발언 텍스트를 구성하는 인스트럭션 및 상기 제1 발언 텍스트와 상기 제2 발언 텍스트를 발언 시작 시간의 순서를 기준으로 연결하여 회의록을 작성하는 인스트럭션을 포함할 수 있다.

일 실시예에서, 프로세서, 네트워크 인터페이스, 메모리, 및 상기 메모리에 로드(load)되고, 상기 프로세서에 의해 실행되는 컴퓨터 프로그램을 포함하되, 상기 컴퓨터 프로그램은, 제1 마이크를 이용하여 제1 음성 데이터를 얻되, 상기 제1 음성 데이터는 제1 화자의 음성 데이터가 주된 음성 데이터이고, 상기 제1 화자의 음성 데이터와 제2 화자의 음성 데이터가 적어도 일부 발언 시간이 겹쳐 중첩되어 입력되는 것인, 인스트럭션, 상기 제1 마이크와 별개의 제2 마이크를 이용하여 제2 음성 데이터를 얻되, 상기 제2 음성 데이터는 상기 제2 화자의 음성 데이터가 주된 음성 데이터이고, 상기 제1 화자의 음성 데이터와 상기 제2 화자의 음성 데이터가 적어도 일부 발언 시간이 겹쳐 중첩되어 입력되는 것인, 인스트럭션, 상기 제2 음성 데이터를 이용하여, 상기 제1 음성 데이터에 포함된 상기 제2 화자의 음성 데이터를 제거하고 상기 제1 화자의 음성 데이터를 얻는 인스트럭션 및 상기 제1 음성 데이터를 이용하여, 상기 제2 음성 데이터에 포함된 상기 제1 화자의 음성 데이터를 제거하고 상기 제2 화자의 음성 데이터를 얻는 인스트럭션을 포함할 수 있다.

도 1은 본 발명의 일 실시예에 따른 회의록 작성 시스템을 설명하기 위한 도면이다.
도 2는 본 발명의 다른 실시예에 따른 회의록 작성 방법의 순서도이다.
도 3은 도 2를 참조하여 설명된 회의록 작성 방법의 일부 구성을 보다 자세히 설명하기 위한 순서도이다.
도 4 내지 6은 도 3을 참조하여 구체화된 회의록 작성 방법을 예시하기 위한 도면이다.
도 7은 본 발명의 또 다른 실시예에 따른 회의록 작성 방법의 순서도이다.
도 8 내지 도 9는 본 발명의 몇몇 실시예에서 참조될 수 있는 노이즈 제거 방법을 설명하기 위한 도면이다.
도 10은 본 발명의 또 다른 실시예에 따른 회의록 작성 장치를 구현할 수 있는 컴퓨팅 장치를 설명하기 위한 예시도이다.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예들을 상세히 설명한다. 본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명의 기술적 사상은 이하의 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 이하의 실시예들은 본 발명의 기술적 사상을 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명의 기술적 사상은 청구항의 범주에 의해 정의될 뿐이다.

각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다. 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다.

또한, 본 발명의 구성 요소를 설명하는 데 있어서, 제1, 제2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 어떤 구성 요소가 다른 구성요소에 "연결", "결합" 또는 "접속"된다고 기재된 경우, 그 구성 요소는 그 다른 구성요소에 직접적으로 연결되거나 또는 접속될 수 있지만, 각 구성 요소 사이에 또 다른 구성 요소가 "연결", "결합" 또는 "접속"될 수도 있다고 이해되어야 할 것이다.

명세서에서 사용되는 "포함한다 (comprises)" 및/또는 "포함하는 (comprising)"은 언급된 구성 요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성 요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.

본 명세서에 대한 설명에 앞서, 본 명세서에서 사용되는 몇몇 용어들에 대하여 명확하게 하기로 한다.

본 명세서에서, 회의(Council)는 상정된 하나 이상의 안건에 대하여 둘 이상의 참여자들이 의견 및 정보를 교환하고 의사 결정을 진행하는 절차이다. 본 발명의 일 실시예에 따른 회의에는 본회의, 법제사법위원회, 당해위원회, 특별위원회, 상임위원회, 행정사무감사 및 조사, 국정감사 및 조사 등이 포함될 수 있으나, 이에 한정되는 것은 아니다. 또한, 본 발명의 일 실시예에 따른 회의의 참여자에는 의장 또는 위원장, 의원 또는 위원 등이 포함될 수 있으나, 이에 한정되는 것도 아니다.

회의록(Minutes)은 상기 회의의 진행 과정, 회의 참여자의 발언 내용 또는 회의 결과 등이 기록된 문서이다. 본 발명의 일 실시예에 따른 회의록은 상기 회의의 진행 과정, 발언 내용 또는 회의 결과가 텍스트로 기록될 수 있으나, 이에 한정되는 것은 아니다.

의장 또는 위원장(Chairman)은 상기 회의를 주재하는 사람이다. 의장 또는 위원장은 회의를 공정하게 진행시킬 의무를 가진 자로, 회의의 진행을 위한 의사진행 발언을 할 수 있으며, 회의의 개회, 개의, 산회 또는 폐회를 선언할 수 있다.

의원 또는 위원(Member)은 상기 회의에 참여하여 상정된 안건에 대해 결정하는 사람이다. 의원 또는 위원은 선거, 임명 또는 추천에 의하여 지명되어 회의에 참여할 수 있다.

이하, 본 발명의 몇몇 실시예들에 대하여 첨부된 도면에 따라 상세하게 설명한다.

도 1은 본 발명의 일 실시예에 따른 회의록 작성 시스템을 설명하기 위한 도면이다. 도 1에 개시된 회의록 작성 시스템의 각각의 구성 요소들은 기능적으로 구분되는 기능 요소들을 나타낸 것으로서, 어느 하나 이상의 구성 요소가 실제 물리적 환경에서는 서로 통합되어 구현될 수 있다.

도 1을 참조하면, 회의록 작성 시스템은 회의 기록 장치(100), 로그 관리 서버(200), 회의록 관리 서버(300), 음성 인식 장치(400), 문법 검사 장치(500) 및 회의록 열람 장치(600a, 600b, 600c, 이하 설명의 편의상 600)를 포함할 수 있다. 이하 각각의 구성 요소에 대하여 구체적으로 설명한다.

회의 기록 장치(100)는 회의록에 관한 데이터를 생성하여 회의록 관리 서버(300)에 전송할 수 있다. 보다 구체적으로, 회의 기록 장치(100)는 발언 텍스트를 생성할 수 있다. 여기서 발언 텍스트는, 기록 또는 변환된 회의 참석자의 발언을 의미하는 것으로 텍스트 기반의 문자열 데이터이다.

회의 기록 장치(100)는 서기에 의해 속기 된 텍스트 데이터를 기초로, 발언 텍스트를 생성할 수 있다. 그리고, 회의 기록 장치(100)는 생성된 발언 텍스트를 회의록 관리 서버(300)에 전송할 수 있다.

다음으로, 로그 관리 서버(200)는 회의 진행에 따라 발생된 로그 데이터를 생성하여 회의록 관리 서버(300)에 전송할 수 있다. 보다 구체적으로, 로그 관리 서버(200)는 로그 데이터를 생성할 수 있다. 여기서, 로그 데이터는 회의의 진행 과정에서 발생된 이벤트의 로그(Log)가 기록된 문자열 데이터이다. 이와 같은, 로그 데이터에는 회의장에 설치된 복수 개의 마이크(201, 202, 20n)의 식별자(ID) 및 각 마이크(201, 202, 20n)의 활성화 시각이 포함될 수 있으나, 이에 한정되는 것은 아니다.

로그 관리 서버(200)는 회의장에 설치된 복수개의 마이크(201, 202, 20n)로부터 녹음된 음성 데이터를 생성하여 회의록 관리 서버(300)에 전송할 수 있다. 또한, 로그 관리 서버(200)는 회의장에 설치된 복수개의 마이크(201, 202, 20n)로부터 녹음된 음성 데이터를 생성하여 음성 인식 장치(400)에 전송할 수도 있다. 여기서, 음성 데이터는 마이크별로 분리되어 생성될 수 있다. 예를 들어, 1번 마이크(201)에 입력된 음성 데이터를 제1 음성 데이터로, 2번 마이크(202)에 입력된 음성 데이터를 제2 음성 데이터로 생성할 수 있다. 또한, 1번 마이크(201)에 입력된 음성 데이터를 제1 화자의 데이터로, 2번 마이크(202)에 입력된 음성 데이터를 제2 화자의 음성 데이터로 생성할 수도 있다.

로그 관리 서버(200)는 회의장에 설치된 복수개의 마이크(201, 202, 20n)로부터 입력 받은 음성 데이터를 실시간으로 회의록 관리 서버(300)에 전송할 수 있다. 또한, 로그 관리 서버(200)는 회의장에 설치된 복수개의 마이크(201, 202, 20n)로부터 입력 받은 음성 데이터를 실시간으로 음성 인식 장치(300)에 전송할 수도 있다.

로그 관리 서버(200)는 회의록 관리 서버(300)로부터 전송된 복수개의 마이크(201, 202, 20n)를 제어하는 신호를 입력 받아 복수개의 마이크(201, 202, 20n)를 제어할 수 있다.

회의장에 설치된 복수 개의 마이크(201, 202, 20n)는 회의에 참여한 의원 또는 위원이 발언을 위하여 마이크(201, 202, 20n)의 버튼을 누른 경우 활성화될 수 있다. 또한, 기준치 이상의 음성이 인식되면 자동적으로 마이크가 활성화될 수 있다. 다만, 이에 한정되는 것은 아니다.

로그 관리 서버(200)는 회의에 참여한 의원 또는 위원의 마이크(201, 202, 20n)가 활성화된 경우, 활성화된 마이크(201, 202, 20n)의 식별자 및 해당 마이크(201, 202, 20n)의 활성화 시각을 누적 기록하여 로그 데이터를 생성할 수 있다. 로그 데이터에 포함된 마이크의 식별자는 기 지정된 크기의 문자열로 구성될 수 있으나, 이에 한정되지 않는다. 그리고, 마이크의 활성화 시각은 세계 협정시(Universal Time Coordinated, UTC)의 형식을 가질 수 있으나, 이에 한정되지도 않는다.

다음으로, 회의록 관리 서버(300)는 회의 기록 장치(100)로부터 수신된 발언 텍스트를 기초로, 회의록에 관한 데이터를 생성 및 관리할 수 있다. 또한, 로그 관리 서버(200)로부터 음성 데이터 및 로그 데이터를 기초로, 회의록에 관한 데이터를 생성 및 관리할 수도 있다. 또한, 음성 인식 장치(400)로부터 수신된 발언 텍스트를 기초로, 회의록에 관한 데이터를 생성 및 관리할 수도 있다.

회의록 관리 서버(300)는 로그 관리 서버(200)로부터 수신된 음성 데이터를 음성 인식 장치(400)에 전송할 수 있다.

나아가, 회의록 관리 서버(300)는 관리되는 회의록에 관한 데이터를 기초로, 회의록을 열람하기 위한 문서를 생성하여 회의록 열람 장치(600)에 전송할 수도 있다.

회의록 관리 서버(300)는 회의장에 설치된 복수 개의 마이크(201, 202, 20n)를 제어하는 신호를 출력할 수 있다. 복수 개의 마이크(201, 202, 20n)를 제어하는 신호는 로그 관리 서버(200)에 전송될 수 있다.

다음으로, 음성 인식 장치(400)는 로그 관리 서버(200)에 의해 전송된 음성 데이터를 Speech-To-Text(STT)변환하여 발언 텍스트를 생성할 수 있다. 또한, 회의록 관리 서버(300)로부터 전송된 음성 데이터를 STT변환하여 발언 텍스트를 생성할 수도 있다. 여기서, 음성 데이터는 마이크별로 분리되어 생성되고, 전송된 것일 수 있다. 음성 인식 장치(400)는 로그 관리 서버(200)에 의해 실시간으로 전송된 회의의 음성 데이터를 STT변환 하여 실시간으로 발언 텍스트를 생성할 수도 있다.

음성 인식 장치(400)는 복수의 음성 인식 엔진을 포함할 수 있다. 여기서, 음성 인식 장치(400)는 마이크별로 분리되어 생성되고 전송된 음성 데이터를 병렬적으로 처리하여 STT변환할 수 있다.

음성 인식 장치(400)는 묵음 구간에 의하여 구분되는 발언 조각을 연결하여 문법 검사 장치(500)에 전송할 수 있다. 또한, 음성 인식 장치(400)는 문법 검사 장치(500)로부터 수신된 발언 완성 요건 만족 여부에 대한 데이터를 기초로, 발언 텍스트를 생성할 수 있다.

음성 인식 장치(400)는 생성된 발언 텍스트를 회의록 관리 서버(300)에 전송할 수 있다.

다음으로, 문법 검사 장치(500)는 음성 인식 장치(400)로부터 수신된 발언 조각의 연결의 문법을 검사할 수 있다. 또한, 수신된 발언 조각의 연결의 문장 완성 여부를 검사할 수 있다.

문법 검사 장치(500)는 하나 이상의 문법 검사 엔진을 포함할 수 있다. 문법 검사 엔진과 관련된 공지된 기술이 본 발명에 이용될 수 있다.

문법 검사 장치(500)는 발언 완성 요건 만족 여부에 대한 데이터를 생성하여 음성 인식 장치(400)에 전송할 수 있다.

일 실시예에서, 앞서 설명된 회의록 관리 서버(300), 음성 인식 장치(400) 및 문법 검사 장치(500)는 기능적으로 구분되는 기능 요소들을 나타낸 것으로서, 실제 물리적 환경에서는 서로 통합되어 구현될 수 있다.

다음으로, 회의록 열람 장치(600)는 회의록 관리 서버(300)로부터 회의록을 열람하기 위한 문서를 수신하여 출력할 수 있다. 보다 구체적으로, 회의록 열람 장치(600)는 사용자의 입력에 따라, 회의록 관리 서버(300)에 회의록의 열람 요청을 전송한다. 그리고, 회의록 열람 장치(600)는 회의록 관리 서버(300)로부터 열람 문서를 수신한다.

여기서, 열람 문서는 회의록 열람 장치(600)의 요청에 따라, 회의록 관리 서버(300)에 의해 생성된 문서이다. 이와 같은, 열람 문서에는 회의의 진행 과정, 발언 텍스트, 발언 시각 및 회의 결과가 포함될 수 있다. 이와 같은, 열람 문서는 HTML(HyperText Markup Language) 또는 XML(eXtensible Markup Language)과 같은 형식의 웹 문서가 될 수 있으나, 이에 한정되지 않고, PDF(Portable Document Format) 형식의 문서가 될 수도 있다. 또한 일 실시예에 따른 열람 문서에는, 키워드 검색을 위한 인터페이스가 제공될 수 있다.

그리고, 회의록 열람 장치(600)는 수신된 열람 문서를 화면에 출력할 수 있다. 회의록 열람 장치(600)는 열람 문서를 출력하기 위하여 웹 브라우저(Web browser) 또는 전용 애플리케이션이 설치되어 있을 수 있다.

회의록 열람 장치(600)는 네트워크를 통하여 회의록 관리 서버(300)로부터 수신된 열람 문서를 출력할 수 있는 장치라면, 어떠한 장치라도 허용될 수 있다. 예를 들어, 본 발명의 일 실시예에 따른 회의록 열람 장치(600)는 데스크탑(Desktop), 워크스테이션(Workstation), 서버(Server), 랩탑(Laptop), 태블릿(Tablet), 스마트폰(Smart Phone) 또는 패블릿(Phablet) 중 어느 하나가 될 수 있으나, 이에 한정되지 않고, 휴대용 멀티미디어 플레이어(Portable Multimedia Player, PMP), 개인용 휴대 단말기(Personal Digital Assistants, PDA) 또는 전자책 단말기(E-Book Reader) 등과 같은 형태의 장치가 될 수도 있다.

이하 도 2 내지 6을 참조하여, 본 발명의 일 실시예에 따른 회의록 작성 방법에 대해 보다 구체적으로 설명한다.

도 2는 본 발명의 다른 실시예에 따른 회의록 작성 방법의 순서도이다.

도 2를 참조하면, 제1 화자 및 제2 화자의 음성 데이터가 얻어지고(S110), 제1 화자의 음성 데이터는 제1 음성 엔진이 제공받고(S130), 제2 화자의 음성 데이터는 제2 음성 엔진이 제공받는다(S150).

제1 화자의 음성 데이터로부터 제1 발언 텍스트가 구성되고(S140), 제2 화자의 음성 데이터로부터 제2 발언 텍스트가 구성된다(S160). 발언 텍스트를 구성하는 구체적인 설명은 추후 도 3 내지 도 6을 참조하여 설명하기로 한다.

다음으로, 제1 발언 텍스트와 제2 발언 텍스트를 발언 시작 시간의 순서를 기준으로 연결하여 회의록이 작성된다(S170).

본 발명의 일 실시예에 따른 회의록 작성 방법은, 회의에 참석한 화자의 음성 데이터를 개별 마이크로부터 분리하여 입력 받아, 화자별로 분리하여 음성 데이터를 생성할 수 있다. 여기서 생성된 음성 데이터를 별개의 음성 인식 엔진으로 병렬 처리하여 발언 텍스트를 생성할 수 있다.

멀티 트랙 방식으로 STT 변환을 병렬적으로 수행함으로써, 회의 참석자의 음성이 중첩된 경우에도 텍스트 데이터로 변환할 수 있다. 또한, 회의 참석자의 음성이 중첩된 경우에도 화자를 구분할 수 있다. 나아가, 발언 텍스트 생성 시간이 단축되어, 회의록 작성 시간이 더욱 단축될 수 있다.

후술될 몇몇 실시예에 의해서 구체화될 발언 텍스트 구성 단계에 의해, 회의록 열람자가 인식하기 용이한 회의록이 작성될 수 있다. 복수의 화자의 발언이 중첩되는 경우라도, 화자 전환이 자연스럽게 회의록에 반영되어, 인식도가 향상된 회의록이 제공될 수 있다. 뿐만 아니라, 특정 화자가 발언한 텍스트의 개행이 명확히 표현되어 회의록에 반영될 수도 있다.

구성된 발언 텍스트에 따라 화자의 전환이 자연스러운 회의록이 작성됨으로써, 회의록의 인식도가 더욱 향상될 수 있다. 또한, 구성된 발언 텍스트의 개행이 자연스러운 회의록이 작성됨으로써, 회의록의 인식도가 더욱 향상될 수 있다.

후술될 몇몇 실시예에 의해서 구체화될 발언 텍스트 구성 단계에 의해, 음성 데이터가 적절히 반영된 회의록이 작성될 수도 있다. 음성 데이터를 적절히 반영함으로써, 회의록의 인식도가 향상될 수 있다.

이하, 도 3 내지 도 6을 참조하여 발언 텍스트 구성 단계를 보다 구체적으로 설명하기로 한다. 도 3은 도 2를 참조하여 설명된 회의록 작성 방법의 일부 구성을 보다 자세히 설명하기 위한 순서도이다.

도 3을 참조하면, 단계 S140이 구체화된다. 도 3을 참조하여 설명될 발언 텍스트 구성 단계는 단계 S160에서도 마찬가지로 적용되어 설명될 수 있다.

단계 S141에서, 음성 인식 엔진이 제공받은 음성 데이터가 발언 텍스트로 변환된다. 일 실시예에서, 발언 텍스트로의 변환은 음성 데이터가 녹음된 시간 순서로 순차적으로 변환될 수 있다.

단계 S142에서 묵음 구간이 발생한 경우, 단계 S143에서 발언 조각이 생성되고, 묵음 구간이 발생하지 않은 경우, 발언 텍스트 구성이 완료된다.

일 실시예에서, 묵음 구간은 음성 데이터가 제2 기준 시간 동안 입력되지 않는 구간일 수 있다. 예를 들어, 화자의 발언이 잠시 멈추게 되는 구간일 수 있다. 또한, 화자의 발언 사이 사이에 존재하는 단어를 띄어 읽는 구간일 수 있다.

일 실시예에서, 제2 기준 시간은 음성 데이터를 발언한 화자의 발언 속도를 이용하여 기준 규칙에 따라 결정되는 것일 수 있다.

일 실시예에서, 기준 규칙은 음성 데이터를 발언한 화자의 발언 속도가 빠르면 제2 기준 시간이 낮게 결정되고, 발언 속도가 느리면 제2 기준 시간이 높게 결정되는 것일 수 있다. 여기서, 발언 속도는 음성 데이터에서 재생되는 화자의 발언에 포함된 음절의 개수를 음성 데이터의 재생 시간으로 나눈 것일 수 있다. 또한, 발언 속도는 화자의 발언의 일부 구간에 대응하는 음성 데이터에서 재생되는 화자의 발언에 포함된 음절의 개수를 상기 일부 구간에 대응하는 음성 데이터의 재생 시간으로 나눈 것일 수도 있다. 다만, 본 발명이 이에 한정되는 것은 아니다. 화자별로 묵음 구간이 달리 설정됨으로써, 화자의 음성 데이터를 보다 자세히 반영하여 회의록의 인식도가 더욱 향상될 수 있다.

일 실시예에서, 묵음 구간에 의해 변환된 발언 텍스트를 이용하여 발언 조각이 생성될 수 있다. 여기서, 발언 조각은 묵음 구간에 의해 구분되는 발언 텍스트를 구성하는 최소 단위일 수 있다. 여기서, 발언 조각은 묵음 구간을 기준으로 앞과 뒤에 각각 생성될 수 있다.

복수의 발언 조각이 연결되어 발언 텍스트가 구성될 수 있다. 발언 조각을 최소 단위로 후술될 발언 완성 요건 만족 여부에 따라 발언 조각을 연결하거나 분리하여, 발언 텍스트를 구성함으로써, 화자의 발언이 중첩되는 경우라도, 화자의 전환이 자연스러운 회의록이 작성될 수 있다. 또한, 특정 화자가 발언한 텍스트의 개행이 명확히 표현되어 회의록이 작성될 수도 있다. 나아가, 음성 데이터가 적절히 반영된 회의록이 작성될 수도 있다.

다음으로, 단계 S144에서 발언 완성 요건이 만족된 경우, 묵음 구간을 기준으로 생성된 앞의 발언 조각을 종료 기준으로 발언 텍스트 구성이 완료된다. 여기서, 묵음 구간을 기준으로 생성된 뒤의 발언 조각은 별도의 발언 텍스트로 구성될 수 있다. 단계 S144에서 발언 완성 요건이 만족되지 않은 경우, 묵음 구간을 기준으로 생성된 앞의 발언 조각과 뒤의 발언 조각이 연결된다. 이후 다시 발언 텍스트로의 변환이 음성 데이터가 녹음된 시간 순서로 순차적으로 변환된다.

일 실시예에서, 발언 완성 요건은 묵음 구간이 제1 기준 시간 이상이면 충족될 수 있다. 묵음 구간이 기준 시간 이상인 경우, 문장이 완성되지 않더라도, 발언 완성 요건이 충족된 것으로 결정하여 발언 텍스트를 구성할 수 있다. 여기서, 음성 데이터를 적절히 반영한 회의록이 작성될 수 있다.

일 실시예에서, 제1 기준 시간은 화자의 발언 속도를 이용하여 기준 규칙에 따라 결정된 것일 수 있다.

일 실시예에서, 기준 규칙은 음성 데이터를 발언한 화자의 발언 속도가 빠르면 제1 기준 시간이 낮게 결정되고, 발언 속도가 느리면 제1 기준 시간이 높게 결정되는 것일 수 있다. 여기서, 발언 속도는 음성 데이터에서 재생되는 화자의 발언에 포함된 음절의 개수를 음성 데이터의 재생 시간으로 나눈 것일 수 있다. 또한, 발언 속도는 화자의 발언의 일부 구간에 대응하는 음성 데이터에서 재생되는 화자의 발언에 포함된 음절의 개수를 상기 일부 구간에 대응하는 음성 데이터의 재생 시간으로 나눈 것일 수도 있다. 다만, 본 발명이 이에 한정되는 것은 아니다. 화자별로 발언 완성 요건이 달리 설정됨으로써, 화자의 음성 데이터를 보다 적절히 반영하여 회의록의 인식도가 더욱 향상될 수 있다.

일 실시예에서, 발언 완성 요건은, 문장이 완성되면 충족되는 것일 수 있다. 여기서 문장의 완성 여부는 앞서 설명된 문법 검사 엔진에 의해 수행될 수 있다.

일 실시예에서, 발언 조각을 발언 시간 순서에 따라 묵음 구간으로 구분된 앞의 조각과 뒤의 조각을 연결하고, 연결된 발언 조각을 문법 검사 엔진이 제공받아 완성된 문장인지 여부를 결정하고, 완성된 문장으로 결정된 경우, 발언 완성 요건을 만족하는 것으로 결정할 수 있다. 문장이 완성된 경우에 발언 완성 요건을 만족한 것으로 판단하여, 발언 텍스트를 구성함으로써, 음성 데이터가 복수의 화자의 중첩된 발언을 포함하고 있는 경우에도, 문장 단위로 회의록이 작성되어 회의록의 인식도가 향상될 수 있다.

도 3을 참조하여 설명된 회의록 작성 방법을 구체적으로 예시하여 설명하기 위해 도 4 내지 도 6을 참조하기로 한다.

도 4를 참조하면, 음성 데이터(10) 및 예시적인 변환된 회의록(20)이 도시된다. 음성 데이터(10)는 본래 소리 데이터이지만, 설명의 편의를 위해 텍스트로 기재된다. 홍길동 의원(13)의 발언 시간(17)은 6초에서 8초사이에 발언이 이루어진다. 이순동 의원(15)의 발언 시간(19)은 7초에서 9초 사이에 이루어진다. 음성 데이터(10)에서 홍길동 의원(13)과 이순동 의원(15)의 음성 데이터가 중첩되어 입력된다.

예시적인 변환된 회의록(20)은 종래 기술에 의해 변환된 회의록의 일 예시일 수 있다. 다른 예시적인 회의록은 음성 데이터가 중첩되어 변환 오류가 발생할 수도 있다.

예시적인 변환된 회의록(20)을 참조하면, 음성 데이터가 중첩되는 부분에서 홍길동 의원(13)의 발언 및 이순동 의원(15)의 발언이 분리되어 변환됨으로써, 발언의 의미를 구체적으로 이해하기 어려운 문제가 있다.

보다 구체적인 예를 들어, 홍길동 의원(13)의 발언을 참조하면, 제1 분리 발언 텍스트(21a), '네, 그때 제가', 제2 분리 발언 텍스트(21b), '발언을 다 하지'및 제3 분리 발언 텍스트(21c), '못 했습니다.'로 분리되어 회의록이 작성된다. 음성 데이터가 중첩되어 음성 인식 엔진에 입력됨으로써, 화자별로 발언 텍스트가 구분되어 변환되지 않고, 발언 순서에 따라 그대로 변환되어 인식도가 현저히 낮은 회의록이 작성된다.

앞서 설명된 본 발명의 일 실시예에 따른 회의록 작성 방법은, 문장이 완성된 경우에 발언 완성 요건을 만족한 것으로 판단하여, 발언 텍스트를 구성함으로써, 음성 데이터가 복수의 화자의 중첩된 발언을 포함하고 있는 경우에도, 문장 단위로 회의록이 작성되어 회의록의 인식도가 향상될 수 있다.

본 발명의 일 실시예에 따른 회의록 작성 방법에 따르면, 음성 데이터(10)의 형태와 동일한 회의록이 작성되어, 회의록의 인식도가 향상될 수 있다.

도 5 및 도 6은 발언 조각과 묵음 구간을 보다 자세히 설명하기 위한 도면이다.

도 5를 참조하면, 묵음 구간(33)과 발언 조각(31)이 도시된다.

묵음 구간(33)에 의해 앞의 발언 조각과 뒤의 발언 조각으로 구분된다. 예를 들어, 두번째 묵음 구간에 의해, 앞의 발언 조각인, '그때'와 뒤의 발언 조각인 '제가'로 구분된다.

도 5에 도시된 예시에 따르면, 묵음 구간이 제1 기준 시간 미만에 해당하여, 발언 완성 요건을 만족하지 않아 개행되거나 화자가 전환되지 않고, 단일한 발언 텍스트로 구성된다.

도 6을 참조하면, 묵음 구간(37), 제1 발언 텍스트(35) 및 제2 발언 텍스트(39)가 도시된다. 도 6에 도시된 예시에 따르면, 제1 기준 시간 이상인 묵음 구간(37)에 따라, 발언 완성 요건을 만족하여 동일한 화자가 발언한 내용임에도 개행된다.

일 실시예에서, 기준 규칙에 따라 발언 완성 요건을 결정하여, 발언 텍스트를 구성함으로써, 특정 화자가 발언한 텍스트의 개행이 자연스럽게 회의록에 반영되어, 인식도가 향상된 회의록이 제공될 수 있다.

이하, 본 발명의 다른 실시예에 따른 회의록 작성 방법에 대해 도 7을 참조하여 설명하도록 한다. 도 7을 참조하여 설명될 회의록 작성 방법은, 복수의 화자가 참석한 회의에서, 특정 마이크에 인입된 복수의 화자의 음성 데이터를 처리하는 방법이다.

도 7을 참조하면, 제1 마이크를 이용하여 제1 음성 데이터를 얻되, 제1 음성 데이터는 제1 화자의 음성 데이터가 주된 음성 데이터이고, 제1 화자의 음성 데이터와 제2 화자의 음성 데이터가 적어도 일부 발언 시간이 중첩되어 입력된다(S210). 다음으로, 제2 마이크를 이용하여 제2 음성 데이터를 얻되, 제2 음성 데이터는 제2 화자의 음성 데이터가 주된 음성 데이터이고, 제2 화자의 음성 데이터와 제1 화자의 음성 데이터가 적어도 일부 발언 시간이 중첩되어 입력된다(S220). 다음으로, 제2 음성 데이터를 이용하여 제1 음성 데이터에 포함된 제1 화자의 음성 데이터가 얻어지고(S230), 제1 음성 데이터를 이용하여 제2 음성 데이터에 포함된 제2 화자의 음성 데이터가 얻어진다(S240).

이하, 도 8 내지 도 9를 참조하여, 마이크에 인입되는 노이즈를 제거하는 구체적인 방법을 설명하기로 한다. 도 8 내지 도 9는 본 발명의 몇몇 실시예에서 참조될 수 있는 노이즈 제거 방법을 설명하기 위한 도면이다.

도 8을 참조하면, 노이즈(41a) 및 음성 데이터 파형(43)이 도시된다. 회의에 참석하여 발언을 진행 중인 화자의 발언 외에도, 다양한 소리가 마이크에 인입되어 노이즈(41a)를 유발할 수 있다. 예를 들어, 노이즈(41a)는 회의의 참석한 다른 화자의 중첩된 발언일 수 있다.

일 실시예에서, 음성 데이터를 얻는 단계는, 회의장에 존재하는 복수의 마이크 출력을 실시간으로 합산하는 단계, 합산된 총 마이크 출력에서 차지하는 출력이 기준 비율 이상인 마이크 출력을 증폭하고, 상기 기준 비율 미만인 마이크 출력을 감쇄하는 단계를 포함할 수 있다. 합산된 총 마이크 출력에서 차지하는 출력이 기준 비율 이상인 마이크 출력만을 증폭함으로써, 실제 발언하고 있는 자의 마이크 출력은 증폭되고, 발언하고 있지 않은 자의 마이크 출력은 감쇄될 수 있다. 여기서, 출력의 감쇄는 마이크의 볼륨을 낮추는 방식일 수 있다. 또한, 출력의 감쇄는 게인(Gain)을 낮추는 방식일 수도 있다.

일 실시예에서, 회의장에 존재하는 복수의 마이크 각각에 의한 출력을 실시간으로 얻어, 상기 출력의 변화량이 기준치 이하인 마이크 출력을 감쇄하는 단계를 포함할 수도 있다. 출력의 변화량이 기준치 이하인 마이크는 실제 발언하고 있는 자의 마이크가 아니므로, 발언하고 있지 않은 자의 마이크 출력은 감쇄될 수 있다. 여기서, 변화량을 얻는 단계는 출력을 미분하는 단계를 포함할 수 있다. 여기서, 출력의 감쇄는 마이크의 볼륨을 낮추는 방식일 수 있다. 또한, 출력의 감쇄는 게인(Gain)을 낮추는 방식일 수도 있다.

본 실시예들에 따르면, 발언하고 있지 않은 자의 마이크 출력을 감쇄함으로써, 발언을 진행 중인 화자의 마이크에 인입되는 노이즈가 제거될 수 있다.

도 9를 참조하면, 노이즈 제거된 파형(41b)이 도시된다. 상술한 방법에 의해서 음성 데이터가 얻어질 수 있다. 노이즈가 제거된 음성 데이터가 얻어질 수 있다.

다시 도 7로 돌아가, 도 7을 참조하여 설명된 화자의 음성 데이터를 얻는 단계(S230, S240)에 대해 구체적으로 설명하기로 한다.

일 실시예에서, 제2 음성 데이터 파형을 얻고, 제2 음성 데이터 파형의 반대 위상 파형을 제1 음성 데이터에 중첩하여 제2 화자의 음성 데이터를 제거하고 제1 화자의 음성 데이터를 얻을 수 있다.

파형의 반대 위상을 이용하여 노이즈를 제거하는 ANC(Active Noise Cancellation)기술이 참조될 수 있다. 종래의 ANC 기술은 노이즈를 제거하기 위하여 별도의 마이크가 필수적으로 요구된다. 본 발명의 일 실시예에 따른 회의록 작성 방법은, 회의장에 구비되어 있는 복수의 마이크에 개별적으로 입력된 복수의 음성 데이터를 상호 신호 처리하여, 특정 화자의 음성 데이터를 얻을 수 있다. 따라서, 마이크에 인입되는 노이즈(예컨대, 다른 화자의 발언)가 제거되어 음성 엔진이 인식하기 용이한 화자의 음성 데이터가 추출될 수 있다. 추출된 화자의 음성 데이터를 이용하여 앞서 설명된 회의록 작성 방법이 적용될 수 있다. 인식도가 더욱더 향상된 회의록이 작성될 수 있다.

지금까지 도 1 내지 도 9를 참조하여, 본 발명의 몇몇 실시예에 따른 회의록 작성 방법 및 그 응용분야에 대해서 설명하였다. 이하에서는, 본 발명의 일 실시예에 따른 회의록 작성 장치를 구현할 수 있는 예시적인 컴퓨팅 장치(1500)에 대하여 설명하도록 한다.

도 10은 본 발명의 일 실시예에 따른 회의록 작성 장치를 구현할 수 있는 컴퓨팅 장치(1500)를 나타내는 하드웨어 구성도이다.

도 10에 도시된 바와 같이, 컴퓨팅 장치(1500)는 하나 이상의 프로세서(1510), 버스(1550), 통신 인터페이스(1570), 프로세서(1510)에 의하여 수행되는 컴퓨터 프로그램(1591)을 로드(load)하는 메모리(1530)와, 컴퓨터 프로그램(1591)을 저장하는 스토리지(1590)를 포함할 수 있다. 다만, 도 10에는 본 발명의 실시예와 관련 있는 구성 요소들만이 도시되어 있다. 따라서, 본 발명이 속한 기술분야의 통상의 기술자라면 도 10에 도시된 구성요소들 외에 다른 범용적인 구성 요소들이 더 포함될 수 있음을 알 수 있다.

프로세서(1510)는 컴퓨팅 장치(1500)의 각 구성의 전반적인 동작을 제어한다. 프로세서(1510)는 CPU(Central Processing Unit), MPU(Micro Processor Unit), MCU(Micro Controller Unit), GPU(Graphic Processing Unit) 또는 본 발명의 기술 분야에 잘 알려진 임의의 형태의 프로세서를 포함하여 구성될 수 있다. 또한, 프로세서(1510)는 본 발명의 실시예들에 따른 방법을 실행하기 위한 적어도 하나의 애플리케이션 또는 프로그램에 대한 연산을 수행할 수 있다. 컴퓨팅 장치(1500)는 하나 이상의 프로세서를 구비할 수 있다.

메모리(1530)는 각종 데이터, 명령 및/또는 정보를 저장한다. 메모리(1530)는 본 발명의 실시예들에 따른 방법을 실행하기 위하여 스토리지(1590)로부터 하나 이상의 프로그램(1591)을 로드할 수 있다. 메모리(1530)는 RAM과 같은 휘발성 메모리로 구현될 수 있을 것이나, 본 발명의 기술적 범위가 이에 한정되는 것은 아니다.

버스(1550)는 컴퓨팅 장치(1500)의 구성 요소 간 통신 기능을 제공한다. 버스(1550)는 주소 버스(Address Bus), 데이터 버스(Data Bus) 및 제어 버스(Control Bus) 등 다양한 형태의 버스로 구현될 수 있다.

통신 인터페이스(1570)는 컴퓨팅 장치(1500)의 유무선 인터넷 통신을 지원한다. 또한, 통신 인터페이스(1570)는 인터넷 통신 외의 다양한 통신 방식을 지원할 수도 있다. 이를 위해, 통신 인터페이스(1570)는 본 발명의 기술 분야에 잘 알려진 통신 모듈을 포함하여 구성될 수 있다.

몇몇 실시예들에 따르면, 통신 인터페이스(1570)는 생략될 수도 있다.

스토리지(1590)는 상기 하나 이상의 프로그램(1591)과 각종 데이터를 비임시적으로 저장할 수 있다.

스토리지(1590)는 ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 플래시 메모리 등과 같은 비휘발성 메모리, 하드 디스크, 착탈형 디스크, 또는 본 발명이 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터로 읽을 수 있는 기록 매체를 포함하여 구성될 수 있다.

컴퓨터 프로그램(1591)은 메모리(1530)에 로드 될 때 프로세서(1510)로 하여금 본 발명의 다양한 실시예에 따른 방법/동작을 수행하도록 하는 하나 이상의 인스트럭션들을 포함할 수 있다. 즉, 프로세서(1510)는 상기 하나 이상의 인스트럭션들을 실행함으로써, 본 발명의 다양한 실시예에 따른 방법/동작들을 수행할 수 있다.

위와 같은 경우, 컴퓨팅 장치(1500)를 통해 본 발명의 일 실시예에 따른 회의록 작성 장치가 구현될 수 있다.

지금까지 도 1 내지 도 10을 참조하여 본 발명의 다양한 실시예들 및 그 실시예들에 따른 효과들을 언급하였다. 본 발명의 기술적 사상에 따른 효과들은 이상에서 언급한 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

지금까지 도 1 내지 도 10을 참조하여 설명된 본 발명의 기술적 사상은 컴퓨터가 읽을 수 있는 매체 상에 컴퓨터가 읽을 수 있는 코드로 구현될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록 매체는, 예를 들어 이동형 기록 매체(CD, DVD, 블루레이 디스크, USB 저장 장치, 이동식 하드 디스크)이거나, 고정식 기록 매체(ROM, RAM, 컴퓨터 구비 형 하드 디스크)일 수 있다. 상기 컴퓨터로 읽을 수 있는 기록 매체에 기록된 상기 컴퓨터 프로그램은 인터넷 등의 네트워크를 통하여 다른 컴퓨팅 장치에 전송되어 상기 다른 컴퓨팅 장치에 설치될 수 있고, 이로써 상기 다른 컴퓨팅 장치에서 사용될 수 있다.

이상에서, 본 발명의 실시예를 구성하는 모든 구성 요소들이 하나로 결합되거나 결합되어 동작하는 것으로 설명되었다고 해서, 본 발명의 기술적 사상이 반드시 이러한 실시예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위 안에서라면, 그 모든 구성요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다.

도면에서 동작들이 특정한 순서로 도시되어 있지만, 반드시 동작들이 도시된 특정한 순서로 또는 순차적 순서로 실행되어야만 하거나 또는 모든 도시 된 동작들이 실행되어야만 원하는 결과를 얻을 수 있는 것으로 이해되어서는 안 된다. 특정 상황에서는, 멀티태스킹 및 병렬 처리가 유리할 수도 있다. 더욱이, 위에 설명한 실시예들에서 다양한 구성들의 분리는 그러한 분리가 반드시 필요한 것으로 이해되어서는 안 되고, 설명된 프로그램 컴포넌트들 및 시스템들은 일반적으로 단일 소프트웨어 제품으로 함께 통합되거나 다수의 소프트웨어 제품으로 패키지 될 수 있음을 이해하여야 한다.

이상 첨부된 도면을 참조하여 본 발명의 실시예들을 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 본 발명이 다른 구체적인 형태로도 실시될 수 있다는 것을 이해할 수 있다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로 이해해야만 한다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명에 의해 정의되는 기술적 사상의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims

컴퓨팅 장치에서 수행되는 방법에 있어서,
제1 화자의 음성 데이터와 제2 화자의 음성 데이터를 얻되, 상기 제1 화자의 음성 데이터와 상기 제2 화자의 음성 데이터는 적어도 일부 발언 시간이 겹치는 것인, 단계;
상기 제1 화자의 음성 데이터를 제1 음성 인식 엔진이 제공받는 단계;
상기 제1 음성 인식 엔진이 상기 제1 화자의 음성 데이터를 제1 발언 텍스트로 변환하되, 상기 제1 화자의 음성 데이터가 하나 이상의 묵음 구간에 의하여 구분되는 복수의 발언 조각을 포함하더라도 기 지정된 발언 완성 요건이 만족될 때까지 상기 발언 조각을 연결함으로써, 상기 제1 발언 텍스트를 구성하는 단계;
상기 제2 화자의 음성 데이터를 상기 제1 음성 인식 엔진과 별개의 제2 음성 인식 엔진이 제공받는 단계;
상기 제2 음성 인식 엔진이 상기 제2 화자의 음성 데이터를 제2 발언 텍스트로 변환하되, 상기 제2 화자의 음성 데이터가 하나 이상의 묵음 구간에 의하여 구분되는 복수의 발언 조각을 포함하더라도 기 지정된 상기 발언 완성 요건이 만족될 때까지 상기 발언 조각을 연결함으로써, 상기 제2 발언 텍스트를 구성하는 단계; 및
상기 제1 발언 텍스트와 상기 제2 발언 텍스트를 발언 시작 시간의 순서를 기준으로 연결하여 회의록을 작성하는 단계를 포함하고,
상기 제1 화자의 음성 데이터와 제2 화자의 음성 데이터를 얻는 단계는, 제1 화자의 음성 데이터와 제2 화자의 음성 데이터를 개별 마이크로부터 분리하여 입력 받는 단계를 포함하고,
상기 발언 텍스트를 구성하는 단계는, 상기 제1 화자의 음성 데이터와 제2 화자의 음성 데이터를 별개의 음성 인식 엔진으로 병렬 처리하여 발언 텍스트를 생성하는 단계를 포함하는,
회의록 작성 방법.
제1 항에 있어서,
상기 발언 완성 요건은,
상기 묵음 구간이 제1 기준 시간 이상이면, 충족되는 것인,
회의록 작성 방법.
제2 항에 있어서,
상기 제1 기준 시간은,
화자의 발언 속도를 이용하여 기준 규칙에 따라 결정되는 것인,
회의록 작성 방법.
제1 항에 있어서,
상기 발언 완성 요건은,
연결된 상기 발언 조각의 문장이 완성되면, 충족되는 것인,
회의록 작성 방법.
제1 항에 있어서,
상기 제1 발언 텍스트를 구성하는 단계는,
상기 발언 조각을 발언 시간 순서에 따라 연결하는 단계;
연결된 발언 조각을 문법 검사 엔진이 제공받는 단계;
상기 문법 검사 엔진에 의해 상기 연결된 발언 조각이 완성된 문장으로 결정된 경우, 상기 발언 완성 요건을 만족하는 것으로 결정하는 단계; 및
상기 연결된 발언 조각을 이용하여 제1 발언 텍스트를 구성하는 단계를 포함하는,
회의록 작성 방법.
제1 항에 있어서,
상기 묵음 구간은,
음성 데이터가 제2 기준 시간 이상 입력되지 않는 구간인,
회의록 작성 방법.
제6 항에 있어서,
상기 제2 기준 시간은,
화자의 발언 속도를 이용하여 기준 규칙에 따라 결정되는 것인,
회의록 작성 방법.
제7 항에 있어서,
상기 기준 규칙은,
상기 발언 속도가 빠르면 상기 제2 기준 시간이 낮게 결정되고, 상기 발언 속도가 느리면 상기 제2 기준 시간이 높게 결정되는 것인,
회의록 작성 방법.
컴퓨팅 장치에서 수행되는 방법에 있어서,
제1 마이크를 이용하여 제1 음성 데이터를 얻되, 상기 제1 음성 데이터는 제1 화자의 음성 데이터가 주된 음성 데이터이고, 상기 제1 화자의 음성 데이터와 제2 화자의 음성 데이터가 적어도 일부 발언 시간이 겹쳐 중첩되어 입력되는 것인, 단계;
상기 음성 데이터를 얻는 단계는, 회의장에 존재하는 복수의 마이크 각각에 의한 출력을 실시간으로 얻어, 상기 출력의 변화량이 기준치 이하인 마이크 출력을 감쇄하는 단계를 포함하고,
상기 제1 마이크와 별개의 제2 마이크를 이용하여 제2 음성 데이터를 얻되, 상기 제2 음성 데이터는 상기 제2 화자의 음성 데이터가 주된 음성 데이터이고, 상기 제1 화자의 음성 데이터와 상기 제2 화자의 음성 데이터가 적어도 일부 발언 시간이 겹쳐 중첩되어 입력되는 것인, 단계;
상기 제2 음성 데이터를 이용하여, 상기 제1 음성 데이터에 포함된 상기 제2화자의 음성 데이터를 제거하고 상기 제1 화자의 음성 데이터를 얻는 단계; 및
상기 제1 음성 데이터를 이용하여, 상기 제2 음성 데이터에 포함된 상기 제1화자의 음성 데이터를 제거하고 상기 제2 화자의 음성 데이터를 얻는 단계를 포함하는,
회의록 작성 방법.
제9 항에 있어서,
상기 제1 화자의 음성 데이터를 제1 음성 인식 엔진이 제공받는 단계;
상기 제1 음성 인식 엔진이 상기 제1 화자의 음성 데이터를 제1 발언 텍스트로 변환하되, 상기 제1 화자의 음성 데이터가 하나 이상의 묵음 구간에 의하여 구분되는 복수의 제1 발언 조각을 포함하더라도 기 지정된 발언 완성 요건이 만족될 때까지 상기 제1 발언 조각을 연결함으로써, 상기 제1 발언 텍스트를 구성하는 단계;
상기 제2 화자의 음성 데이터를 상기 제1 음성 인식 엔진과 별개의 제2 음성 인식 엔진이 제공받는 단계;
상기 제2 음성 인식 엔진이 상기 제2 화자의 음성 데이터를 제2 발언 텍스트로 변환하되, 상기 제2 화자의 음성 데이터가 하나 이상의 묵음 구간에 의하여 구분되는 복수의 제2 발언 조각을 포함하더라도 기 지정된 상기 발언 완성 요건이 만족될 때까지 상기 제2 발언 조각을 연결함으로써, 상기 제2 발언 텍스트를 구성하는 단계; 및
상기 제1 발언 텍스트와 상기 제2 발언 텍스트를 발언 시작 시간의 순서를 기준으로 연결하여 회의록을 작성하는 단계를 포함하는,
회의록 작성 방법.
제9 항에 있어서,
상기 제1 화자의 음성 데이터를 얻는 단계는,
제2 음성 데이터 파형을 얻는 단계; 및
상기 제2 음성 데이터 파형의 반대 위상 파형을 상기 제1 음성 데이터에 중첩하여, 상기 제2 화자의 음성 데이터를 제거하고 상기 제1 화자의 음성 데이터를 얻는 단계를 포함하는,
회의록 작성 방법.
제9 항에 있어서,
음성 데이터를 얻는 단계는,
회의장에 존재하는 복수의 마이크 출력을 실시간으로 합산하는 단계;
합산된 총 마이크 출력에서 차지하는 출력이 기준 비율 이상인 마이크 출력을 증폭하고, 상기 기준 비율 미만인 마이크 출력을 감쇄하는 단계를 포함하는,
회의록 작성 방법.
삭제
프로세서;
네트워크 인터페이스;
메모리; 및
상기 메모리에 로드(load)되고, 상기 프로세서에 의해 실행되는 컴퓨터 프로그램을 포함하되,
상기 컴퓨터 프로그램은,
제1 화자의 음성 데이터와 제2 화자의 음성 데이터를 얻는 인스트럭션(instruction) - 상기 제1 화자의 음성 데이터와 상기 제2 화자의 음성 데이터는 적어도 일부 시구간이 중복되는 데이터임 - ;
상기 제1 화자의 음성 데이터를 제1 음성 인식 엔진이 제공받는 인스트럭션;
상기 제1 음성 인식 엔진이 상기 제1 화자의 음성 데이터를 제1 발언 텍스트로 변환하되, 상기 제1 화자의 음성 데이터가 하나 이상의 묵음 구간에 의하여 구분되는 복수의 발언 조각을 포함하더라도 기 지정된 발언 완성 요건이 만족될 때까지 상기 발언 조각을 연결함으로써, 상기 제1 발언 텍스트를 구성하는 인스트럭션;
상기 제2 화자의 음성 데이터를 상기 제1 음성 인식 엔진과 별개의 제2 음성 인식 엔진이 제공받는 인스트럭션;
상기 제2 음성 인식 엔진이 상기 제2 화자의 음성 데이터를 제2 발언 텍스트로 변환하되, 상기 제2 화자의 음성 데이터가 하나 이상의 묵음 구간에 의하여 구분되는 복수의 발언 조각을 포함하더라도 기 지정된 상기 발언 완성 요건이 만족될 때까지 상기 발언 조각을 연결함으로써, 상기 제2 발언 텍스트를 구성하는 인스트럭션; 및
상기 제1 발언 텍스트와 상기 제2 발언 텍스트를 발언 시작 시간의 순서를 기준으로 연결하여 회의록을 작성하는 인스트럭션을 포함하고,
상기 제1 화자의 음성 데이터와 제2 화자의 음성 데이터를 얻는 인스트럭션은, 제1 화자의 음성 데이터와 제2 화자의 음성 데이터를 개별 마이크로부터 분리하여 입력 받는 인스트럭션을 포함하고,
상기 발언 텍스트를 구성하는 인스트럭션은, 상기 제1 화자의 음성 데이터와 제2 화자의 음성 데이터를 별개의 음성 인식 엔진으로 병렬 처리하여 발언 텍스트를 생성하는 인스트럭션을 포함하는,
회의록 작성 장치.
프로세서;
네트워크 인터페이스;
메모리; 및
상기 메모리에 로드(load)되고, 상기 프로세서에 의해 실행되는 컴퓨터 프로그램을 포함하되,
상기 컴퓨터 프로그램은,
제1 마이크를 이용하여 제1 음성 데이터를 얻되, 상기 제1 음성 데이터는 제1 화자의 음성 데이터가 주된 음성 데이터이고, 상기 제1 화자의 음성 데이터와 제2 화자의 음성 데이터가 적어도 일부 발언 시간이 겹쳐 중첩되어 입력되는 것인, 인스트럭션(instruction);
상기 음성 데이터를 얻는 인스트럭션은, 회의장에 존재하는 복수의 마이크 각각에 의한 출력을 실시간으로 얻어, 상기 출력의 변화량이 기준치 이하인 마이크 출력을 감쇄하는 인스트럭션을 포함하고,
상기 제1 마이크와 별개의 제2 마이크를 이용하여 제2 음성 데이터를 얻되, 상기 제2 음성 데이터는 상기 제2 화자의 음성 데이터가 주된 음성 데이터이고, 상기 제1 화자의 음성 데이터와 상기 제2 화자의 음성 데이터가 적어도 일부 발언 시간이 겹쳐 중첩되어 입력되는 것인, 인스트럭션;
상기 제2 음성 데이터를 이용하여, 상기 제1 음성 데이터에 포함된 상기 제2 화자의 음성 데이터를 제거하고 상기 제1 화자의 음성 데이터를 얻는 인스트럭션; 및
상기 제1 음성 데이터를 이용하여, 상기 제2 음성 데이터에 포함된 상기 제1 화자의 음성 데이터를 제거하고 상기 제2 화자의 음성 데이터를 얻는 인스트럭션을 포함하는,
회의록 작성 장치.