KR20220029877A - Apparatus for taking minutes and method thereof - Google Patents

Apparatus for taking minutes and method thereof Download PDF

Info

Publication number
KR20220029877A
KR20220029877A KR1020200111374A KR20200111374A KR20220029877A KR 20220029877 A KR20220029877 A KR 20220029877A KR 1020200111374 A KR1020200111374 A KR 1020200111374A KR 20200111374 A KR20200111374 A KR 20200111374A KR 20220029877 A KR20220029877 A KR 20220029877A
Authority
KR
South Korea
Prior art keywords
voice data
speaker
speech
text
data
Prior art date
Application number
KR1020200111374A
Other languages
Korean (ko)
Other versions
KR102474690B1 (en
Inventor
윤태원
윤효경
김주현
Original Assignee
주식회사 제윤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 제윤 filed Critical 주식회사 제윤
Priority to KR1020200111374A priority Critical patent/KR102474690B1/en
Publication of KR20220029877A publication Critical patent/KR20220029877A/en
Application granted granted Critical
Publication of KR102474690B1 publication Critical patent/KR102474690B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Telephonic Communication Services (AREA)

Abstract

The present invention relates to a method and a device for taking minutes. The method according to one embodiment of the present invention is executed by a computing device. The method includes: a step of obtaining voice data of a first speaker and voice data of a second speaker, wherein the voice data of the first speaker and the voice data of the second speaker overlap in speaking time at least in part; a step in which a first voice recognition engine is provided with the voice data of the first speaker; a step in which the first voice recognition engine converts the voice data of the first speaker into a first utterance text, wherein, even if the voice data of the first speaker includes utterance fragments separated by at least one silent section, the first utterance text is configured by connecting the utterance fragment until a pre-designated utterance completion requirement is satisfied; a step in which the voice data of the second speaker is provided to a second voice recognition engine separate from the first voice recognition engine; a step in which the second voice recognition engine converts the voice data of the second speaker into a second utterance text, wherein, even if the voice data of the second speaker includes utterance fragments separated by at least one silent section, the second utterance text is configured by connecting the utterance fragment until the pre-designated utterance completion requirement is satisfied; and a step of taking minutes by connecting the first utterance text and the second utterance text based on the order of utterance start time.

Description

회의록 작성 방법 및 장치{APPARATUS FOR TAKING MINUTES AND METHOD THEREOF}METHOD AND APPARATUS FOR TAKING MINUTES AND METHOD THEREOF

본 발명은 회의록을 작성하는 방법 및 그 장치에 관한 것이다. 보다 구체적으로는, 회의에 참석한 복수의 화자의 발언이 겹치는 경우에도 인식 가능한 회의록을 작성하는 방법 및 그 장치에 관한 것이다.The present invention relates to a method and apparatus for taking minutes. More specifically, the present invention relates to a method and apparatus for creating recognizable meeting minutes even when remarks of a plurality of speakers attending a meeting overlap.

국회, 광역지방의회 또는 기초지방의회에서 열린 회의의 진행 과정 및 발언 내용 등은 서기에 의해 기록된다. 그리고, 이와 같이 기록된 회의록은 일반인에게 공개됨이 일반적이다.The progress of meetings held at the National Assembly, regional councils, or basic local councils, and the contents of speeches, etc. are recorded by the secretary. And, the minutes recorded in this way are generally open to the public.

회의 참석자의 발언을 텍스트로 변환하여 회의록을 작성하는 종래의 회의록 작성 방법은, 회의에 참석한 복수의 화자의 발언이 겹치는 경우에 겹쳐진 음성을 단순히 시간 순으로 변환하여 회의록을 제공함으로써, 회의록에 작성된 내용을 인식하는데 어려움이 있다.In the conventional method of creating minutes by converting the remarks of conference participants into text, when remarks of a plurality of speakers attending the conference overlap, the overlapping voices are simply converted in chronological order to provide the minutes, so that the minutes are written in the minutes. Difficulty recognizing content.

한국등록특허 제10-1618084호Korean Patent Registration No. 10-1618084

본 발명이 해결하고자 하는 기술적 과제는, 회의에 참석한 복수의 화자의 발언이 겹치는 경우에도, 인식 가능한 회의록을 작성하는 방법 및 그 장치를 제공하기 위한 것이다.SUMMARY OF THE INVENTION The technical problem to be solved by the present invention is to provide a method and an apparatus for creating recognizable meeting minutes even when remarks of a plurality of speakers attending a meeting overlap.

본 발명이 해결하고자 하는 다른 기술적 과제는, 회의에 참석한 복수의 화자의 발언이 겹치는 경우에도, 중첩된 음성을 화자별로 분리하는 회의록 작성 방법 및 그 장치를 제공하기 위한 것이다.Another technical problem to be solved by the present invention is to provide a method and apparatus for creating meeting minutes for separating overlapping voices for each speaker even when the remarks of a plurality of speakers attending a meeting overlap.

본 발명이 해결하고자 하는 또 다른 기술적 과제는, 회의에 참석한 복수의 화자의 발언을 화자별로 병렬 처리하여 회의록을 작성하는 방법 및 그 장치를 제공하기 위한 것이다.Another technical problem to be solved by the present invention is to provide a method and an apparatus for creating minutes by parallel processing the remarks of a plurality of speakers attending a meeting for each speaker.

본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.The technical problems of the present invention are not limited to the technical problems mentioned above, and other technical problems not mentioned will be clearly understood by those skilled in the art from the following description.

상기 기술적 과제를 해결하기 위한 본 발명의 일 실시예에 따른 회의록 작성 방법은, 컴퓨팅 장치에서 수행되는 방법에 있어서, 제1 화자의 음성 데이터와 제2 화자의 음성 데이터를 얻되, 상기 제1 화자의 음성 데이터와 상기 제2 화자의 음성 데이터는 적어도 일부 발언 시간이 겹치는 것인, 단계, 상기 제1 화자의 음성 데이터를 제1 음성 인식 엔진이 제공받는 단계, 상기 제1 음성 인식 엔진이 상기 제1 화자의 음성 데이터를 제1 발언 텍스트로 변환하되, 상기 제1 화자의 음성 데이터가 하나 이상의 묵음 구간에 의하여 구분되는 복수의 발언 조각을 포함하더라도 기 지정된 발언 완성 요건이 만족될 때까지 상기 발언 조각을 연결함으로써, 상기 제1 발언 텍스트를 구성하는 단계, 상기 제2 화자의 음성 데이터를 상기 제1 음성 인식 엔진과 별개의 제2 음성 인식 엔진이 제공받는 단계, 상기 제2 음성 인식 엔진이 상기 제2 화자의 음성 데이터를 제2 발언 텍스트로 변환하되, 상기 제2 화자의 음성 데이터가 하나 이상의 묵음 구간에 의하여 구분되는 복수의 발언 조각을 포함하더라도 기 지정된 상기 발언 완성 요건이 만족될 때까지 상기 발언 조각을 연결함으로써, 상기 제2 발언 텍스트를 구성하는 단계 및 상기 제1 발언 텍스트와 상기 제2 발언 텍스트를 발언 시작 시간의 순서를 기준으로 연결하여 회의록을 작성하는 단계를 포함할 수 있다.In a meeting minutes writing method according to an embodiment of the present invention for solving the above technical problem, in a method performed by a computing device, voice data of a first speaker and voice data of a second speaker are obtained, The voice data and the voice data of the second speaker overlap at least a partial speaking time, the step of receiving the voice data of the first speaker by a first voice recognition engine, the first voice recognition engine of the first Convert the speaker's voice data into the first speech text, but even if the first speaker's speech data includes a plurality of speech pieces separated by one or more silence sections, the speech pieces are processed until a predetermined speech completion requirement is satisfied. Constructing the first speech text by concatenating, receiving the speech data of the second speaker by a second speech recognition engine separate from the first speech recognition engine, the second speech recognition engine using the second speech recognition engine The speech data of the speaker is converted into a second speech text, and even if the speech data of the second speaker includes a plurality of speech pieces separated by one or more silence sections, the speech fragments until the predetermined speech completion requirement is satisfied. By linking, the step of composing the second speech text and the step of connecting the first speech text and the second speech text based on the order of speech start times may include the steps of creating a meeting minute.

일 실시예에서, 상기 발언 완성 요건은 상기 묵음 구간이 제1 기준 시간 이상이면, 충족되는 것일 수 있다. 여기서, 상기 제1 기준 시간은 화자의 발언 속도를 이용하여 기준 규칙에 따라 결정되는 것일 수 있다.In an embodiment, the speech completion requirement may be satisfied if the silence period is equal to or longer than the first reference time. Here, the first reference time may be determined according to a reference rule using the speaker's speaking speed.

일 실시예에서, 상기 발언 완성 요건은 연결된 상기 발언 조각의 문장이 완성되면, 충족되는 것일 수 있다.In one embodiment, the speech completion requirement may be satisfied when the sentence of the linked speech fragment is completed.

일 실시예에서, 상기 제1 발언 텍스트를 구성하는 단계는 상기 발언 조각을 발언 시간 순서에 따라 연결하는 단계, 연결된 발언 조각을 문법 검사 엔진이 제공받는 단계, 상기 문법 검사 엔진에 의해 상기 연결된 발언 조각이 완성된 문장으로 결정된 경우, 상기 발언 완성 요건을 만족하는 것으로 결정하는 단계 및 상기 연결된 발언 조각을 이용하여 제1 발언 텍스트를 구성하는 단계를 포함할 수 있다.In an embodiment, the step of constructing the first speech text includes linking the speech fragments according to the order of speech time, receiving the connected speech pieces from a grammar check engine, and the speech pieces connected by the grammar checking engine. If it is determined as the completed sentence, determining that the utterance completion requirement is satisfied and constructing a first utterance text by using the linked utterance fragment.

일 실시예에서, 상기 묵음 구간은 음성 데이터가 제2 기준 시간 이상 입력되지 않는 구간일 수 있다. 여기서, 상기 제2 기준 시간은 화자의 발언 속도를 이용하여 기준 규칙에 따라 결정되는 것일 수 있다. 이때, 상기 기준 규칙은 상기 발언 속도가 빠르면 상기 제2 기준 시간이 낮게 결정되고, 상기 발언 속도가 느리면 상기 제2 기준 시간이 높게 결정되는 것일 수 있다.In an embodiment, the silent section may be a section in which voice data is not input for more than a second reference time. Here, the second reference time may be determined according to a reference rule using the speaker's speaking speed. In this case, the reference rule may be that when the speaking speed is fast, the second reference time is determined to be low, and when the speaking speed is slow, the second reference time is determined to be high.

일 실시예에서, 제1 마이크를 이용하여 제1 음성 데이터를 얻되, 상기 제1 음성 데이터는 제1 화자의 음성 데이터가 주된 음성 데이터이고, 상기 제1 화자의 음성 데이터와 제2 화자의 음성 데이터가 적어도 일부 발언 시간이 겹쳐 중첩되어 입력되는 것인, 단계, 상기 제1 마이크와 별개의 제2 마이크를 이용하여 제2 음성 데이터를 얻되, 상기 제2 음성 데이터는 상기 제2 화자의 음성 데이터가 주된 음성 데이터이고, 상기 제1 화자의 음성 데이터와 상기 제2 화자의 음성 데이터가 적어도 일부 발언 시간이 겹쳐 중첩되어 입력되는 것인, 단계, 상기 제2 음성 데이터를 이용하여, 상기 제1 음성 데이터에 포함된 상기 제2 화자의 음성 데이터를 제거하고 상기 제1 화자의 음성 데이터를 얻는 단계 및 상기 제1 음성 데이터를 이용하여, 상기 제2 음성 데이터에 포함된 상기 제1 화자의 음성 데이터를 제거하고 상기 제2 화자의 음성 데이터를 얻는 단계를 포함할 수 있다. 여기서, 상기 제1 화자의 음성 데이터를 제1 음성 인식 엔진이 제공받는 단계, 상기 제1 음성 인식 엔진이 상기 제1 화자의 음성 데이터를 제1 발언 텍스트로 변환하되, 상기 제1 화자의 음성 데이터가 하나 이상의 묵음 구간에 의하여 구분되는 복수의 제1 발언 조각을 포함하더라도 기 지정된 발언 완성 요건이 만족될 때까지 상기 제1 발언 조각을 연결함으로써, 상기 제1 발언 텍스트를 구성하는 단계, 상기 제2 화자의 음성 데이터를 상기 제1 음성 인식 엔진과 별개의 제2 음성 인식 엔진이 제공받는 단계, 상기 제2 음성 인식 엔진이 상기 제2 화자의 음성 데이터를 제2 발언 텍스트로 변환하되, 상기 제2 화자의 음성 데이터가 하나 이상의 묵음 구간에 의하여 구분되는 복수의 제2 발언 조각을 포함하더라도 기 지정된 상기 발언 완성 요건이 만족될 때까지 상기 제2 발언 조각을 연결함으로써, 상기 제2 발언 텍스트를 구성하는 단계 및 상기 제1 발언 텍스트와 상기 제2 발언 텍스트를 발언 시작 시간의 순서를 기준으로 연결하여 회의록을 작성하는 단계를 포함할 수 있다.In one embodiment, the first voice data is obtained using the first microphone, wherein the first voice data includes the voice data of the first speaker as main voice data, and the voice data of the first speaker and the voice data of the second speaker is input with overlapping at least some speaking time, obtaining second voice data using a second microphone separate from the first microphone, wherein the second voice data includes the voice data of the second speaker the main voice data, wherein the voice data of the first speaker and the voice data of the second speaker overlap at least a partial speech time and are inputted, using the second voice data, the first voice data removing the voice data of the second speaker included in the and obtaining voice data of the second speaker. Here, the step of receiving the voice data of the first speaker by a first voice recognition engine, wherein the first voice recognition engine converts the voice data of the first speaker into a first speech text, and the voice data of the first speaker Constructing the first speech text by concatenating the first speech pieces until a predetermined speech completion requirement is satisfied even if includes a plurality of first speech pieces separated by one or more silence sections, the second receiving the speaker's speech data by a second speech recognition engine separate from the first speech recognition engine, wherein the second speech recognition engine converts the second speaker's speech data into second speech text, wherein the second speech recognition engine Even if the speaker's voice data includes a plurality of second speech fragments separated by one or more silence sections, by concatenating the second speech pieces until the predetermined speech completion requirement is satisfied, the second speech text is constructed and connecting the first remark text and the second remark text based on the order of speech start times to create meeting minutes.

일 실시예에서, 상기 제1 화자의 음성 데이터를 얻는 단계는 제2 음성 데이터 파형을 얻는 단계 및 상기 제2 음성 데이터 파형의 반대 위상 파형을 상기 제1 음성 데이터에 중첩하여, 상기 제2 화자의 음성 데이터를 제거하고 상기 제1 화자의 음성 데이터를 얻는 단계를 포함할 수 있다. In an embodiment, the obtaining of the voice data of the first speaker includes obtaining a second voice data waveform and superimposing an opposite phase waveform of the second voice data waveform on the first voice data, so that the second speaker It may include removing voice data and obtaining voice data of the first speaker.

일 실시예에서, 음성 데이터를 얻는 단계는, 회의장에 존재하는 복수의 마이크 출력을 실시간으로 합산하는 단계, 합산된 총 마이크 출력에서 차지하는 출력이 기준 비율 이상인 마이크 출력을 증폭하고, 상기 기준 비율 미만인 마이크 출력을 감쇄하는 단계를 포함할 수 있다. 또한, 회의장에 존재하는 복수의 마이크 각각에 의한 출력을 실시간으로 얻어, 상기 출력의 변화량이 기준치 이하인 마이크 출력을 감쇄하는 단계를 포함할 수 있다. In one embodiment, the step of obtaining the voice data includes: summing the outputs of a plurality of microphones existing in the conference hall in real time; amplifying the microphone output whose output occupies the summed total microphone output is greater than or equal to a reference ratio; and a microphone that is less than the reference ratio It may include attenuating the output. In addition, the method may include obtaining the output of each of the plurality of microphones present in the conference hall in real time, and attenuating the output of the microphone having the amount of change in the output equal to or less than a reference value.

일 실시예에서, 상기 회의록 작성 방법을 실행하기 위한 컴퓨터 프로그램이 기록된 컴퓨터 판독 가능한 기록 매체일 수 있다.In one embodiment, it may be a computer-readable recording medium in which a computer program for executing the method for making meeting minutes is recorded.

일 실시예에서 회의록 작성 장치는, 프로세서, 네트워크 인터페이스, 메모리 및 상기 메모리에 로드(load)되고, 상기 프로세서에 의해 실행되는 컴퓨터 프로그램을 포함하되, 상기 컴퓨터 프로그램은 제1 화자의 음성 데이터와 제2 화자의 음성 데이터를 얻되, 상기 제1 화자의 음성 데이터와 상기 제2 화자의 음성 데이터는 적어도 일부 발언 시간이 겹치는 것인, 인스트럭션(instruction), 상기 제1 화자의 음성 데이터를 제1 음성 인식 엔진이 제공받는 인스트럭션, 상기 제1 음성 인식 엔진이 상기 제1 화자의 음성 데이터를 제1 발언 텍스트로 변환하되, 상기 제1 화자의 음성 데이터가 하나 이상의 묵음 구간에 의하여 구분되는 복수의 발언 조각을 포함하더라도 기 지정된 발언 완성 요건이 만족될 때까지 상기 발언 조각을 연결함으로써, 상기 제1 발언 텍스트를 구성하는 인스트럭션, 상기 제2 화자의 음성 데이터를 상기 제1 음성 인식 엔진과 별개의 제2 음성 인식 엔진이 제공받는 인스트럭션, 상기 제2 음성 인식 엔진이 상기 제2 화자의 음성 데이터를 제2 발언 텍스트로 변환하되, 상기 제2 화자의 음성 데이터가 하나 이상의 묵음 구간에 의하여 구분되는 복수의 발언 조각을 포함하더라도 기 지정된 상기 발언 완성 요건이 만족될 때까지 상기 발언 조각을 연결함으로써, 상기 제2 발언 텍스트를 구성하는 인스트럭션 및 상기 제1 발언 텍스트와 상기 제2 발언 텍스트를 발언 시작 시간의 순서를 기준으로 연결하여 회의록을 작성하는 인스트럭션을 포함할 수 있다.In one embodiment, the apparatus for taking meeting minutes includes a processor, a network interface, a memory, and a computer program loaded into the memory and executed by the processor, wherein the computer program includes voice data of a first speaker and a second an instruction to obtain voice data of a speaker, wherein the voice data of the first speaker and the voice data of the second speaker overlap at least a part of speech time; The received instruction includes a plurality of speech fragments in which the first speech recognition engine converts the speech data of the first speaker into a first speech text, wherein the speech data of the first speaker is separated by one or more silence sections However, by concatenating the speech fragments until a predetermined speech completion requirement is satisfied, the instructions constituting the first speech text and the speech data of the second speaker are transferred to a second speech recognition engine separate from the first speech recognition engine. The received instruction, the second speech recognition engine converts the speech data of the second speaker into second speech text, and includes a plurality of speech fragments in which the speech data of the second speaker is separated by one or more silence sections However, by linking the speech fragments until the specified speech completion requirement is satisfied, the instructions constituting the second speech text and the first speech text and the second speech text are connected based on the order of speech start time and may include instructions for writing the minutes of the meeting.

일 실시예에서, 프로세서, 네트워크 인터페이스, 메모리, 및 상기 메모리에 로드(load)되고, 상기 프로세서에 의해 실행되는 컴퓨터 프로그램을 포함하되, 상기 컴퓨터 프로그램은, 제1 마이크를 이용하여 제1 음성 데이터를 얻되, 상기 제1 음성 데이터는 제1 화자의 음성 데이터가 주된 음성 데이터이고, 상기 제1 화자의 음성 데이터와 제2 화자의 음성 데이터가 적어도 일부 발언 시간이 겹쳐 중첩되어 입력되는 것인, 인스트럭션, 상기 제1 마이크와 별개의 제2 마이크를 이용하여 제2 음성 데이터를 얻되, 상기 제2 음성 데이터는 상기 제2 화자의 음성 데이터가 주된 음성 데이터이고, 상기 제1 화자의 음성 데이터와 상기 제2 화자의 음성 데이터가 적어도 일부 발언 시간이 겹쳐 중첩되어 입력되는 것인, 인스트럭션, 상기 제2 음성 데이터를 이용하여, 상기 제1 음성 데이터에 포함된 상기 제2 화자의 음성 데이터를 제거하고 상기 제1 화자의 음성 데이터를 얻는 인스트럭션 및 상기 제1 음성 데이터를 이용하여, 상기 제2 음성 데이터에 포함된 상기 제1 화자의 음성 데이터를 제거하고 상기 제2 화자의 음성 데이터를 얻는 인스트럭션을 포함할 수 있다.In one embodiment, a processor, a network interface, a memory, and a computer program loaded into the memory and executed by the processor, wherein the computer program receives first voice data using a first microphone obtaining, wherein, in the first voice data, the voice data of the first speaker is the main voice data, and the voice data of the first speaker and the voice data of the second speaker are input by overlapping at least part of the speaking time. Obtaining second voice data using a second microphone separate from the first microphone, wherein, in the second voice data, the voice data of the second speaker is the main voice data, and the voice data of the first speaker and the second voice data Remove the second speaker's voice data included in the first voice data using the instruction, wherein the speaker's voice data is input with overlapping at least a partial speech time, and the second voice data, and an instruction for obtaining the speaker's voice data and an instruction for removing the first speaker's voice data included in the second voice data and obtaining the second speaker's voice data by using the first voice data .

도 1은 본 발명의 일 실시예에 따른 회의록 작성 시스템을 설명하기 위한 도면이다.
도 2는 본 발명의 다른 실시예에 따른 회의록 작성 방법의 순서도이다.
도 3은 도 2를 참조하여 설명된 회의록 작성 방법의 일부 구성을 보다 자세히 설명하기 위한 순서도이다.
도 4 내지 6은 도 3을 참조하여 구체화된 회의록 작성 방법을 예시하기 위한 도면이다.
도 7은 본 발명의 또 다른 실시예에 따른 회의록 작성 방법의 순서도이다.
도 8 내지 도 9는 본 발명의 몇몇 실시예에서 참조될 수 있는 노이즈 제거 방법을 설명하기 위한 도면이다.
도 10은 본 발명의 또 다른 실시예에 따른 회의록 작성 장치를 구현할 수 있는 컴퓨팅 장치를 설명하기 위한 예시도이다.
1 is a view for explaining a system for creating meeting minutes according to an embodiment of the present invention.
2 is a flowchart of a method for creating meeting minutes according to another embodiment of the present invention.
FIG. 3 is a flowchart for explaining in more detail some configurations of the method for creating meeting minutes described with reference to FIG. 2 .
4 to 6 are diagrams for illustrating a method for writing meeting minutes embodied with reference to FIG. 3 .
7 is a flowchart of a method for creating a meeting minute according to another embodiment of the present invention.
8 to 9 are diagrams for explaining a noise removal method that may be referred to in some embodiments of the present invention.
10 is an exemplary diagram for explaining a computing device capable of implementing an apparatus for creating meeting minutes according to another embodiment of the present invention.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예들을 상세히 설명한다. 본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명의 기술적 사상은 이하의 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 이하의 실시예들은 본 발명의 기술적 사상을 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명의 기술적 사상은 청구항의 범주에 의해 정의될 뿐이다.Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings. Advantages and features of the present invention and methods of achieving them will become apparent with reference to the embodiments described below in detail in conjunction with the accompanying drawings. However, the technical spirit of the present invention is not limited to the following embodiments, but may be implemented in various different forms, and only the following embodiments complete the technical spirit of the present invention, and in the technical field to which the present invention belongs It is provided to fully inform those of ordinary skill in the art of the scope of the present invention, and the technical spirit of the present invention is only defined by the scope of the claims.

각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.In adding reference numerals to the components of each drawing, it should be noted that the same components are given the same reference numerals as much as possible even though they are indicated on different drawings. In addition, in describing the present invention, if it is determined that a detailed description of a related known configuration or function may obscure the gist of the present invention, the detailed description thereof will be omitted.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다. 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다.Unless otherwise defined, all terms (including technical and scientific terms) used herein may be used with the meaning commonly understood by those of ordinary skill in the art to which the present invention belongs. In addition, terms defined in a commonly used dictionary are not to be interpreted ideally or excessively unless clearly defined in particular. The terminology used herein is for the purpose of describing the embodiments and is not intended to limit the present invention. In this specification, the singular also includes the plural unless specifically stated otherwise in the phrase.

또한, 본 발명의 구성 요소를 설명하는 데 있어서, 제1, 제2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 어떤 구성 요소가 다른 구성요소에 "연결", "결합" 또는 "접속"된다고 기재된 경우, 그 구성 요소는 그 다른 구성요소에 직접적으로 연결되거나 또는 접속될 수 있지만, 각 구성 요소 사이에 또 다른 구성 요소가 "연결", "결합" 또는 "접속"될 수도 있다고 이해되어야 할 것이다.In addition, in describing the components of the present invention, terms such as first, second, A, B, (a), (b), etc. may be used. These terms are only for distinguishing the elements from other elements, and the essence, order, or order of the elements are not limited by the terms. When it is described that a component is “connected”, “coupled” or “connected” to another component, the component may be directly connected or connected to the other component, but another component is formed between each component. It should be understood that elements may also be “connected,” “coupled,” or “connected.”

명세서에서 사용되는 "포함한다 (comprises)" 및/또는 "포함하는 (comprising)"은 언급된 구성 요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성 요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.As used herein, "comprises" and/or "comprising" refers to the presence of one or more other components, steps, operations and/or elements mentioned. or addition is not excluded.

본 명세서에 대한 설명에 앞서, 본 명세서에서 사용되는 몇몇 용어들에 대하여 명확하게 하기로 한다.Prior to the description of the present specification, some terms used in the present specification will be clarified.

본 명세서에서, 회의(Council)는 상정된 하나 이상의 안건에 대하여 둘 이상의 참여자들이 의견 및 정보를 교환하고 의사 결정을 진행하는 절차이다. 본 발명의 일 실시예에 따른 회의에는 본회의, 법제사법위원회, 당해위원회, 특별위원회, 상임위원회, 행정사무감사 및 조사, 국정감사 및 조사 등이 포함될 수 있으나, 이에 한정되는 것은 아니다. 또한, 본 발명의 일 실시예에 따른 회의의 참여자에는 의장 또는 위원장, 의원 또는 위원 등이 포함될 수 있으나, 이에 한정되는 것도 아니다.In the present specification, a conference is a procedure in which two or more participants exchange opinions and information and make decisions on one or more proposed agendas. The meeting according to an embodiment of the present invention may include, but is not limited to, a plenary session, the Legislative and Judiciary Committee, the relevant committee, a special committee, a standing committee, administrative affairs audit and investigation, state audit and investigation, and the like. In addition, the participants of the meeting according to an embodiment of the present invention may include, but is not limited to, a chairperson or a chairperson, a member of the council or a member of the committee.

회의록(Minutes)은 상기 회의의 진행 과정, 회의 참여자의 발언 내용 또는 회의 결과 등이 기록된 문서이다. 본 발명의 일 실시예에 따른 회의록은 상기 회의의 진행 과정, 발언 내용 또는 회의 결과가 텍스트로 기록될 수 있으나, 이에 한정되는 것은 아니다.Minutes are documents in which the progress of the meeting, remarks of meeting participants, or results of the meeting are recorded. In the meeting minutes according to an embodiment of the present invention, the progress of the meeting, remarks, or meeting results may be recorded in text, but the present invention is not limited thereto.

의장 또는 위원장(Chairman)은 상기 회의를 주재하는 사람이다. 의장 또는 위원장은 회의를 공정하게 진행시킬 의무를 가진 자로, 회의의 진행을 위한 의사진행 발언을 할 수 있으며, 회의의 개회, 개의, 산회 또는 폐회를 선언할 수 있다.The Chairman or Chairman is the person who presides over the above meeting. The chairperson or the chairperson is a person who has the duty to conduct the meeting fairly, and can make a statement for the progress of the meeting and declare the opening, closing, adjournment, or adjournment of the meeting.

의원 또는 위원(Member)은 상기 회의에 참여하여 상정된 안건에 대해 결정하는 사람이다. 의원 또는 위원은 선거, 임명 또는 추천에 의하여 지명되어 회의에 참여할 수 있다.A legislator or member is a person who participates in the above meeting and decides on the proposed agenda. Members or members may be nominated by election, appointment or recommendation to participate in the meeting.

이하, 본 발명의 몇몇 실시예들에 대하여 첨부된 도면에 따라 상세하게 설명한다.Hereinafter, some embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명의 일 실시예에 따른 회의록 작성 시스템을 설명하기 위한 도면이다. 도 1에 개시된 회의록 작성 시스템의 각각의 구성 요소들은 기능적으로 구분되는 기능 요소들을 나타낸 것으로서, 어느 하나 이상의 구성 요소가 실제 물리적 환경에서는 서로 통합되어 구현될 수 있다.1 is a view for explaining a system for creating meeting minutes according to an embodiment of the present invention. Each of the components of the meeting minutes preparation system disclosed in FIG. 1 represents functionally distinct functional elements, and any one or more components may be implemented by being integrated with each other in an actual physical environment.

도 1을 참조하면, 회의록 작성 시스템은 회의 기록 장치(100), 로그 관리 서버(200), 회의록 관리 서버(300), 음성 인식 장치(400), 문법 검사 장치(500) 및 회의록 열람 장치(600a, 600b, 600c, 이하 설명의 편의상 600)를 포함할 수 있다. 이하 각각의 구성 요소에 대하여 구체적으로 설명한다.Referring to FIG. 1 , the meeting minutes writing system includes a meeting recording device 100 , a log management server 200 , a meeting minutes management server 300 , a voice recognition device 400 , a grammar checking device 500 , and a meeting minutes reading device 600a , 600b, 600c, and 600) for convenience of description below. Hereinafter, each component will be described in detail.

회의 기록 장치(100)는 회의록에 관한 데이터를 생성하여 회의록 관리 서버(300)에 전송할 수 있다. 보다 구체적으로, 회의 기록 장치(100)는 발언 텍스트를 생성할 수 있다. 여기서 발언 텍스트는, 기록 또는 변환된 회의 참석자의 발언을 의미하는 것으로 텍스트 기반의 문자열 데이터이다. The meeting recording apparatus 100 may generate data about the meeting minutes and transmit it to the meeting minutes management server 300 . More specifically, the conference recording apparatus 100 may generate speech text. Here, the speech text means a recorded or converted speech of a conference participant, and is text-based string data.

회의 기록 장치(100)는 서기에 의해 속기 된 텍스트 데이터를 기초로, 발언 텍스트를 생성할 수 있다. 그리고, 회의 기록 장치(100)는 생성된 발언 텍스트를 회의록 관리 서버(300)에 전송할 수 있다.The conference recording apparatus 100 may generate a speech text based on the text data transcribed by the clerk. In addition, the conference recording apparatus 100 may transmit the generated speech text to the conference minutes management server 300 .

다음으로, 로그 관리 서버(200)는 회의 진행에 따라 발생된 로그 데이터를 생성하여 회의록 관리 서버(300)에 전송할 수 있다. 보다 구체적으로, 로그 관리 서버(200)는 로그 데이터를 생성할 수 있다. 여기서, 로그 데이터는 회의의 진행 과정에서 발생된 이벤트의 로그(Log)가 기록된 문자열 데이터이다. 이와 같은, 로그 데이터에는 회의장에 설치된 복수 개의 마이크(201, 202, 20n)의 식별자(ID) 및 각 마이크(201, 202, 20n)의 활성화 시각이 포함될 수 있으나, 이에 한정되는 것은 아니다.Next, the log management server 200 may generate log data generated according to the progress of the meeting and transmit it to the meeting minutes management server 300 . More specifically, the log management server 200 may generate log data. Here, the log data is string data in which a log of an event generated in the course of a meeting is recorded. Such log data may include, but is not limited to, identifiers (IDs) of the plurality of microphones 201, 202, and 20n installed in the conference hall and activation times of the respective microphones 201, 202, and 20n.

로그 관리 서버(200)는 회의장에 설치된 복수개의 마이크(201, 202, 20n)로부터 녹음된 음성 데이터를 생성하여 회의록 관리 서버(300)에 전송할 수 있다. 또한, 로그 관리 서버(200)는 회의장에 설치된 복수개의 마이크(201, 202, 20n)로부터 녹음된 음성 데이터를 생성하여 음성 인식 장치(400)에 전송할 수도 있다. 여기서, 음성 데이터는 마이크별로 분리되어 생성될 수 있다. 예를 들어, 1번 마이크(201)에 입력된 음성 데이터를 제1 음성 데이터로, 2번 마이크(202)에 입력된 음성 데이터를 제2 음성 데이터로 생성할 수 있다. 또한, 1번 마이크(201)에 입력된 음성 데이터를 제1 화자의 데이터로, 2번 마이크(202)에 입력된 음성 데이터를 제2 화자의 음성 데이터로 생성할 수도 있다.The log management server 200 may generate recorded voice data from the plurality of microphones 201 , 202 , and 20n installed in the conference hall and transmit it to the meeting minutes management server 300 . In addition, the log management server 200 may generate recorded voice data from the plurality of microphones 201 , 202 , and 20n installed in the conference hall and transmit it to the voice recognition apparatus 400 . Here, the voice data may be generated separately for each microphone. For example, voice data input to the first microphone 201 may be generated as first voice data, and voice data input to the second microphone 202 may be generated as second voice data. Also, voice data input to the first microphone 201 may be generated as data of the first speaker, and voice data input to the second microphone 202 may be generated as voice data of the second speaker.

로그 관리 서버(200)는 회의장에 설치된 복수개의 마이크(201, 202, 20n)로부터 입력 받은 음성 데이터를 실시간으로 회의록 관리 서버(300)에 전송할 수 있다. 또한, 로그 관리 서버(200)는 회의장에 설치된 복수개의 마이크(201, 202, 20n)로부터 입력 받은 음성 데이터를 실시간으로 음성 인식 장치(300)에 전송할 수도 있다.The log management server 200 may transmit the voice data received from the plurality of microphones 201 , 202 , and 20n installed in the conference hall to the meeting minutes management server 300 in real time. Also, the log management server 200 may transmit voice data received from the plurality of microphones 201 , 202 , and 20n installed in the conference hall to the voice recognition apparatus 300 in real time.

로그 관리 서버(200)는 회의록 관리 서버(300)로부터 전송된 복수개의 마이크(201, 202, 20n)를 제어하는 신호를 입력 받아 복수개의 마이크(201, 202, 20n)를 제어할 수 있다.The log management server 200 may receive a signal for controlling the plurality of microphones 201 , 202 , and 20n transmitted from the meeting minutes management server 300 to control the plurality of microphones 201 , 202 , and 20n .

회의장에 설치된 복수 개의 마이크(201, 202, 20n)는 회의에 참여한 의원 또는 위원이 발언을 위하여 마이크(201, 202, 20n)의 버튼을 누른 경우 활성화될 수 있다. 또한, 기준치 이상의 음성이 인식되면 자동적으로 마이크가 활성화될 수 있다. 다만, 이에 한정되는 것은 아니다. The plurality of microphones 201, 202, and 20n installed in the conference hall may be activated when a member or member participating in the conference presses the button of the microphones 201, 202, 20n to speak. In addition, when a voice exceeding the reference value is recognized, the microphone may be automatically activated. However, the present invention is not limited thereto.

로그 관리 서버(200)는 회의에 참여한 의원 또는 위원의 마이크(201, 202, 20n)가 활성화된 경우, 활성화된 마이크(201, 202, 20n)의 식별자 및 해당 마이크(201, 202, 20n)의 활성화 시각을 누적 기록하여 로그 데이터를 생성할 수 있다. 로그 데이터에 포함된 마이크의 식별자는 기 지정된 크기의 문자열로 구성될 수 있으나, 이에 한정되지 않는다. 그리고, 마이크의 활성화 시각은 세계 협정시(Universal Time Coordinated, UTC)의 형식을 가질 수 있으나, 이에 한정되지도 않는다.When the microphones 201, 202, and 20n of the members or members participating in the meeting are activated, the log management server 200 determines the identifiers of the activated microphones 201, 202, and 20n and the corresponding microphones 201, 202, and 20n. Log data can be generated by cumulatively recording the activation time. The microphone identifier included in the log data may consist of a character string of a predetermined size, but is not limited thereto. In addition, the activation time of the microphone may have a format of Universal Time Coordinated (UTC), but is not limited thereto.

다음으로, 회의록 관리 서버(300)는 회의 기록 장치(100)로부터 수신된 발언 텍스트를 기초로, 회의록에 관한 데이터를 생성 및 관리할 수 있다. 또한, 로그 관리 서버(200)로부터 음성 데이터 및 로그 데이터를 기초로, 회의록에 관한 데이터를 생성 및 관리할 수도 있다. 또한, 음성 인식 장치(400)로부터 수신된 발언 텍스트를 기초로, 회의록에 관한 데이터를 생성 및 관리할 수도 있다. Next, the meeting minutes management server 300 may generate and manage the meeting minutes data based on the speech text received from the meeting recording device 100 . In addition, based on the voice data and log data from the log management server 200, it is also possible to generate and manage data related to the meeting minutes. In addition, based on the speech text received from the voice recognition device 400, it is also possible to generate and manage data related to the meeting minutes.

회의록 관리 서버(300)는 로그 관리 서버(200)로부터 수신된 음성 데이터를 음성 인식 장치(400)에 전송할 수 있다. The meeting minutes management server 300 may transmit the voice data received from the log management server 200 to the voice recognition apparatus 400 .

나아가, 회의록 관리 서버(300)는 관리되는 회의록에 관한 데이터를 기초로, 회의록을 열람하기 위한 문서를 생성하여 회의록 열람 장치(600)에 전송할 수도 있다.Furthermore, the meeting minutes management server 300 may generate a document for reading the meeting minutes based on the data related to the managed meeting minutes and transmit it to the meeting minutes viewing device 600 .

회의록 관리 서버(300)는 회의장에 설치된 복수 개의 마이크(201, 202, 20n)를 제어하는 신호를 출력할 수 있다. 복수 개의 마이크(201, 202, 20n)를 제어하는 신호는 로그 관리 서버(200)에 전송될 수 있다. The meeting minutes management server 300 may output a signal for controlling the plurality of microphones 201 , 202 , and 20n installed in the meeting hall. A signal for controlling the plurality of microphones 201 , 202 , and 20n may be transmitted to the log management server 200 .

다음으로, 음성 인식 장치(400)는 로그 관리 서버(200)에 의해 전송된 음성 데이터를 Speech-To-Text(STT)변환하여 발언 텍스트를 생성할 수 있다. 또한, 회의록 관리 서버(300)로부터 전송된 음성 데이터를 STT변환하여 발언 텍스트를 생성할 수도 있다. 여기서, 음성 데이터는 마이크별로 분리되어 생성되고, 전송된 것일 수 있다. 음성 인식 장치(400)는 로그 관리 서버(200)에 의해 실시간으로 전송된 회의의 음성 데이터를 STT변환 하여 실시간으로 발언 텍스트를 생성할 수도 있다.Next, the speech recognition apparatus 400 may generate speech text by converting speech data transmitted by the log management server 200 to Speech-To-Text (STT). In addition, the speech data transmitted from the meeting minutes management server 300 may be converted to STT to generate speech text. Here, the voice data may be generated and transmitted separately for each microphone. The voice recognition device 400 may generate speech text in real time by converting the voice data of the meeting transmitted in real time by the log management server 200 to STT.

음성 인식 장치(400)는 복수의 음성 인식 엔진을 포함할 수 있다. 여기서, 음성 인식 장치(400)는 마이크별로 분리되어 생성되고 전송된 음성 데이터를 병렬적으로 처리하여 STT변환할 수 있다. The voice recognition apparatus 400 may include a plurality of voice recognition engines. Here, the voice recognition apparatus 400 may perform STT conversion by processing the voice data generated and transmitted separately for each microphone in parallel.

음성 인식 장치(400)는 묵음 구간에 의하여 구분되는 발언 조각을 연결하여 문법 검사 장치(500)에 전송할 수 있다. 또한, 음성 인식 장치(400)는 문법 검사 장치(500)로부터 수신된 발언 완성 요건 만족 여부에 대한 데이터를 기초로, 발언 텍스트를 생성할 수 있다.The speech recognition apparatus 400 may connect the speech fragments divided by the silence section and transmit them to the grammar checking apparatus 500 . Also, the speech recognition apparatus 400 may generate the speech text based on the data on whether the speech completion requirement received from the grammar checking apparatus 500 is satisfied.

음성 인식 장치(400)는 생성된 발언 텍스트를 회의록 관리 서버(300)에 전송할 수 있다.The voice recognition device 400 may transmit the generated speech text to the meeting minutes management server 300 .

다음으로, 문법 검사 장치(500)는 음성 인식 장치(400)로부터 수신된 발언 조각의 연결의 문법을 검사할 수 있다. 또한, 수신된 발언 조각의 연결의 문장 완성 여부를 검사할 수 있다. Next, the grammar checking apparatus 500 may check the grammar of the connection of the speech fragments received from the speech recognition apparatus 400 . In addition, it is possible to check whether the sentence completion of the connection of the received speech fragments.

문법 검사 장치(500)는 하나 이상의 문법 검사 엔진을 포함할 수 있다. 문법 검사 엔진과 관련된 공지된 기술이 본 발명에 이용될 수 있다. The grammar checking apparatus 500 may include one or more grammar checking engines. Known techniques related to grammar checking engines can be used with the present invention.

문법 검사 장치(500)는 발언 완성 요건 만족 여부에 대한 데이터를 생성하여 음성 인식 장치(400)에 전송할 수 있다. The grammar checking apparatus 500 may generate data on whether a speech completion requirement is satisfied and transmit it to the speech recognition apparatus 400 .

일 실시예에서, 앞서 설명된 회의록 관리 서버(300), 음성 인식 장치(400) 및 문법 검사 장치(500)는 기능적으로 구분되는 기능 요소들을 나타낸 것으로서, 실제 물리적 환경에서는 서로 통합되어 구현될 수 있다.In one embodiment, the meeting minutes management server 300 , the voice recognition device 400 , and the grammar check device 500 described above represent functional elements that are functionally separated, and may be implemented by being integrated with each other in an actual physical environment. .

다음으로, 회의록 열람 장치(600)는 회의록 관리 서버(300)로부터 회의록을 열람하기 위한 문서를 수신하여 출력할 수 있다. 보다 구체적으로, 회의록 열람 장치(600)는 사용자의 입력에 따라, 회의록 관리 서버(300)에 회의록의 열람 요청을 전송한다. 그리고, 회의록 열람 장치(600)는 회의록 관리 서버(300)로부터 열람 문서를 수신한다.Next, the meeting minutes reading apparatus 600 may receive and output a document for reading the meeting minutes from the meeting minutes management server 300 . More specifically, the meeting minutes viewing device 600 transmits a meeting minutes reading request to the meeting minutes management server 300 according to a user's input. In addition, the meeting minutes reading device 600 receives a reading document from the meeting minutes management server 300 .

여기서, 열람 문서는 회의록 열람 장치(600)의 요청에 따라, 회의록 관리 서버(300)에 의해 생성된 문서이다. 이와 같은, 열람 문서에는 회의의 진행 과정, 발언 텍스트, 발언 시각 및 회의 결과가 포함될 수 있다. 이와 같은, 열람 문서는 HTML(HyperText Markup Language) 또는 XML(eXtensible Markup Language)과 같은 형식의 웹 문서가 될 수 있으나, 이에 한정되지 않고, PDF(Portable Document Format) 형식의 문서가 될 수도 있다. 또한 일 실시예에 따른 열람 문서에는, 키워드 검색을 위한 인터페이스가 제공될 수 있다. Here, the reading document is a document generated by the meeting minutes management server 300 in response to the request of the meeting minutes reading device 600 . Such a reading document may include the progress of the meeting, the text of the speech, the time of the speech, and the results of the meeting. Such a reading document may be a web document in a format such as HyperText Markup Language (HTML) or eXtensible Markup Language (XML), but is not limited thereto, and may be a document in a Portable Document Format (PDF) format. Also, in the browsing document according to an embodiment, an interface for keyword search may be provided.

그리고, 회의록 열람 장치(600)는 수신된 열람 문서를 화면에 출력할 수 있다. 회의록 열람 장치(600)는 열람 문서를 출력하기 위하여 웹 브라우저(Web browser) 또는 전용 애플리케이션이 설치되어 있을 수 있다.In addition, the meeting minutes reading apparatus 600 may output the received reading document to the screen. The meeting minutes reading device 600 may have a web browser or a dedicated application installed in order to output a reading document.

회의록 열람 장치(600)는 네트워크를 통하여 회의록 관리 서버(300)로부터 수신된 열람 문서를 출력할 수 있는 장치라면, 어떠한 장치라도 허용될 수 있다. 예를 들어, 본 발명의 일 실시예에 따른 회의록 열람 장치(600)는 데스크탑(Desktop), 워크스테이션(Workstation), 서버(Server), 랩탑(Laptop), 태블릿(Tablet), 스마트폰(Smart Phone) 또는 패블릿(Phablet) 중 어느 하나가 될 수 있으나, 이에 한정되지 않고, 휴대용 멀티미디어 플레이어(Portable Multimedia Player, PMP), 개인용 휴대 단말기(Personal Digital Assistants, PDA) 또는 전자책 단말기(E-Book Reader) 등과 같은 형태의 장치가 될 수도 있다.The meeting minutes reading device 600 may be any device as long as it is capable of outputting a reading document received from the meeting minutes management server 300 through a network. For example, the meeting minutes reading apparatus 600 according to an embodiment of the present invention includes a desktop, a workstation, a server, a laptop, a tablet, and a smart phone. ) or a phablet (Phablet), but is not limited thereto, but is not limited thereto, and a portable multimedia player (PMP), a personal digital assistant (PDA), or an e-book reader (E-Book Reader). ) may be a device of the same type.

이하 도 2 내지 6을 참조하여, 본 발명의 일 실시예에 따른 회의록 작성 방법에 대해 보다 구체적으로 설명한다.Hereinafter, with reference to FIGS. 2 to 6 , a method for writing meeting minutes according to an embodiment of the present invention will be described in more detail.

도 2는 본 발명의 다른 실시예에 따른 회의록 작성 방법의 순서도이다.2 is a flowchart of a method for creating meeting minutes according to another embodiment of the present invention.

도 2를 참조하면, 제1 화자 및 제2 화자의 음성 데이터가 얻어지고(S110), 제1 화자의 음성 데이터는 제1 음성 엔진이 제공받고(S130), 제2 화자의 음성 데이터는 제2 음성 엔진이 제공받는다(S150). Referring to FIG. 2 , voice data of a first speaker and a second speaker are obtained ( S110 ), the voice data of the first speaker is provided by the first voice engine ( S130 ), and the voice data of the second speaker is obtained by the second A voice engine is provided (S150).

제1 화자의 음성 데이터로부터 제1 발언 텍스트가 구성되고(S140), 제2 화자의 음성 데이터로부터 제2 발언 텍스트가 구성된다(S160). 발언 텍스트를 구성하는 구체적인 설명은 추후 도 3 내지 도 6을 참조하여 설명하기로 한다.A first speech text is constructed from the voice data of the first speaker (S140), and a second speech text is constructed from the voice data of the second speaker (S160). A detailed description of constituting the speech text will be described later with reference to FIGS. 3 to 6 .

다음으로, 제1 발언 텍스트와 제2 발언 텍스트를 발언 시작 시간의 순서를 기준으로 연결하여 회의록이 작성된다(S170). Next, by connecting the first remark text and the second remark text based on the order of speech start time, the minutes are created (S170).

본 발명의 일 실시예에 따른 회의록 작성 방법은, 회의에 참석한 화자의 음성 데이터를 개별 마이크로부터 분리하여 입력 받아, 화자별로 분리하여 음성 데이터를 생성할 수 있다. 여기서 생성된 음성 데이터를 별개의 음성 인식 엔진으로 병렬 처리하여 발언 텍스트를 생성할 수 있다. The method for creating minutes according to an embodiment of the present invention may receive voice data of a speaker attending a meeting by separating it from an individual microphone, and may generate voice data by separating the voice data for each speaker. Speech text can be generated by parallel processing the speech data generated here with a separate speech recognition engine.

멀티 트랙 방식으로 STT 변환을 병렬적으로 수행함으로써, 회의 참석자의 음성이 중첩된 경우에도 텍스트 데이터로 변환할 수 있다. 또한, 회의 참석자의 음성이 중첩된 경우에도 화자를 구분할 수 있다. 나아가, 발언 텍스트 생성 시간이 단축되어, 회의록 작성 시간이 더욱 단축될 수 있다. By performing the STT conversion in parallel in a multi-track method, it is possible to convert the voices of the conference participants into text data even when they are overlapped. In addition, even when the voices of the conference participants overlap, the speaker can be distinguished. Furthermore, the time for generating speech text can be shortened, so that the time for creating meeting minutes can be further shortened.

후술될 몇몇 실시예에 의해서 구체화될 발언 텍스트 구성 단계에 의해, 회의록 열람자가 인식하기 용이한 회의록이 작성될 수 있다. 복수의 화자의 발언이 중첩되는 경우라도, 화자 전환이 자연스럽게 회의록에 반영되어, 인식도가 향상된 회의록이 제공될 수 있다. 뿐만 아니라, 특정 화자가 발언한 텍스트의 개행이 명확히 표현되어 회의록에 반영될 수도 있다.By the step of constructing speech text to be embodied by some embodiments to be described later, minutes can be easily recognized by the minutes readers. Even when the remarks of a plurality of speakers overlap, the speaker switch is naturally reflected in the meeting minutes, so that the meeting minutes with improved recognition can be provided. In addition, newlines in text uttered by a specific speaker can be clearly expressed and reflected in the meeting minutes.

구성된 발언 텍스트에 따라 화자의 전환이 자연스러운 회의록이 작성됨으로써, 회의록의 인식도가 더욱 향상될 수 있다. 또한, 구성된 발언 텍스트의 개행이 자연스러운 회의록이 작성됨으로써, 회의록의 인식도가 더욱 향상될 수 있다.Since the minutes of a meeting in which the speaker is naturally switched according to the constructed speech text are prepared, the recognition of the minutes can be further improved. In addition, by creating meeting minutes in which line breaks in the constructed speech text are natural, the recognition level of the minutes can be further improved.

후술될 몇몇 실시예에 의해서 구체화될 발언 텍스트 구성 단계에 의해, 음성 데이터가 적절히 반영된 회의록이 작성될 수도 있다. 음성 데이터를 적절히 반영함으로써, 회의록의 인식도가 향상될 수 있다.By the step of constructing speech text, which will be embodied by some embodiments to be described later, meeting minutes in which voice data is appropriately reflected may be created. By properly reflecting the voice data, the recognition of the minutes can be improved.

이하, 도 3 내지 도 6을 참조하여 발언 텍스트 구성 단계를 보다 구체적으로 설명하기로 한다. 도 3은 도 2를 참조하여 설명된 회의록 작성 방법의 일부 구성을 보다 자세히 설명하기 위한 순서도이다.Hereinafter, the step of constructing the speech text will be described in more detail with reference to FIGS. 3 to 6 . FIG. 3 is a flowchart for explaining in more detail some configurations of the method for creating meeting minutes described with reference to FIG. 2 .

도 3을 참조하면, 단계 S140이 구체화된다. 도 3을 참조하여 설명될 발언 텍스트 구성 단계는 단계 S160에서도 마찬가지로 적용되어 설명될 수 있다. Referring to FIG. 3 , step S140 is embodied. The step of constructing the speech text to be described with reference to FIG. 3 may be similarly applied and described in step S160.

단계 S141에서, 음성 인식 엔진이 제공받은 음성 데이터가 발언 텍스트로 변환된다. 일 실시예에서, 발언 텍스트로의 변환은 음성 데이터가 녹음된 시간 순서로 순차적으로 변환될 수 있다. In step S141, the voice data provided by the voice recognition engine is converted into speech text. In one embodiment, the conversion to speech text may be converted sequentially in the chronological order in which the voice data was recorded.

단계 S142에서 묵음 구간이 발생한 경우, 단계 S143에서 발언 조각이 생성되고, 묵음 구간이 발생하지 않은 경우, 발언 텍스트 구성이 완료된다. When the silence section occurs in step S142, a speech fragment is generated in step S143, and when the silence section does not occur, the speech text configuration is completed.

일 실시예에서, 묵음 구간은 음성 데이터가 제2 기준 시간 동안 입력되지 않는 구간일 수 있다. 예를 들어, 화자의 발언이 잠시 멈추게 되는 구간일 수 있다. 또한, 화자의 발언 사이 사이에 존재하는 단어를 띄어 읽는 구간일 수 있다. In an embodiment, the silence section may be a section in which voice data is not input for the second reference time. For example, it may be a section in which the speaker's speech is paused. Also, it may be a section in which words existing between the speaker's utterances are read with a space.

일 실시예에서, 제2 기준 시간은 음성 데이터를 발언한 화자의 발언 속도를 이용하여 기준 규칙에 따라 결정되는 것일 수 있다. In an embodiment, the second reference time may be determined according to a reference rule using the speech speed of a speaker who has spoken the voice data.

일 실시예에서, 기준 규칙은 음성 데이터를 발언한 화자의 발언 속도가 빠르면 제2 기준 시간이 낮게 결정되고, 발언 속도가 느리면 제2 기준 시간이 높게 결정되는 것일 수 있다. 여기서, 발언 속도는 음성 데이터에서 재생되는 화자의 발언에 포함된 음절의 개수를 음성 데이터의 재생 시간으로 나눈 것일 수 있다. 또한, 발언 속도는 화자의 발언의 일부 구간에 대응하는 음성 데이터에서 재생되는 화자의 발언에 포함된 음절의 개수를 상기 일부 구간에 대응하는 음성 데이터의 재생 시간으로 나눈 것일 수도 있다. 다만, 본 발명이 이에 한정되는 것은 아니다. 화자별로 묵음 구간이 달리 설정됨으로써, 화자의 음성 데이터를 보다 자세히 반영하여 회의록의 인식도가 더욱 향상될 수 있다. In an embodiment, the reference rule may be that when the speaking speed of the speaker who has spoken the voice data is fast, the second reference time is determined to be low, and when the speaking speed is slow, the second reference time is determined to be high. Here, the speech speed may be the number of syllables included in the speaker's remarks reproduced from the speech data divided by the reproduction time of the speech data. In addition, the speech speed may be obtained by dividing the number of syllables included in the speaker's speech reproduced from voice data corresponding to a partial section of the speaker's speech by the reproduction time of the voice data corresponding to the partial section. However, the present invention is not limited thereto. Since the silence section is set differently for each speaker, the recognition of the meeting minutes may be further improved by reflecting the speaker's voice data in more detail.

일 실시예에서, 묵음 구간에 의해 변환된 발언 텍스트를 이용하여 발언 조각이 생성될 수 있다. 여기서, 발언 조각은 묵음 구간에 의해 구분되는 발언 텍스트를 구성하는 최소 단위일 수 있다. 여기서, 발언 조각은 묵음 구간을 기준으로 앞과 뒤에 각각 생성될 수 있다. In an embodiment, a speech fragment may be generated using the speech text converted by the silence section. Here, the speech fragment may be a minimum unit constituting the speech text divided by the silence section. Here, the speech fragment may be generated respectively before and after the silence section.

복수의 발언 조각이 연결되어 발언 텍스트가 구성될 수 있다. 발언 조각을 최소 단위로 후술될 발언 완성 요건 만족 여부에 따라 발언 조각을 연결하거나 분리하여, 발언 텍스트를 구성함으로써, 화자의 발언이 중첩되는 경우라도, 화자의 전환이 자연스러운 회의록이 작성될 수 있다. 또한, 특정 화자가 발언한 텍스트의 개행이 명확히 표현되어 회의록이 작성될 수도 있다. 나아가, 음성 데이터가 적절히 반영된 회의록이 작성될 수도 있다. A plurality of speech fragments may be connected to form a speech text. By concatenating or separating speech fragments according to whether or not the speech completion requirements to be described later are satisfied as a minimum unit to compose speech text, even if the speaker's remarks overlap, meeting minutes can be created in which the speaker's transition is natural. In addition, newlines in text spoken by a specific speaker can be clearly expressed to create meeting minutes. Furthermore, meeting minutes in which voice data is appropriately reflected may be prepared.

다음으로, 단계 S144에서 발언 완성 요건이 만족된 경우, 묵음 구간을 기준으로 생성된 앞의 발언 조각을 종료 기준으로 발언 텍스트 구성이 완료된다. 여기서, 묵음 구간을 기준으로 생성된 뒤의 발언 조각은 별도의 발언 텍스트로 구성될 수 있다. 단계 S144에서 발언 완성 요건이 만족되지 않은 경우, 묵음 구간을 기준으로 생성된 앞의 발언 조각과 뒤의 발언 조각이 연결된다. 이후 다시 발언 텍스트로의 변환이 음성 데이터가 녹음된 시간 순서로 순차적으로 변환된다. Next, when the speech completion requirement is satisfied in step S144, the speech text configuration is completed based on the previous speech fragment generated based on the silence section. Here, the speech fragment generated based on the silence section may be composed of a separate speech text. If the speech completion requirement is not satisfied in step S144, the previous speech fragment and the rear speech fragment generated based on the silence section are connected. After that, the conversion back to speech text is sequentially converted in the order of time in which the voice data was recorded.

일 실시예에서, 발언 완성 요건은 묵음 구간이 제1 기준 시간 이상이면 충족될 수 있다. 묵음 구간이 기준 시간 이상인 경우, 문장이 완성되지 않더라도, 발언 완성 요건이 충족된 것으로 결정하여 발언 텍스트를 구성할 수 있다. 여기서, 음성 데이터를 적절히 반영한 회의록이 작성될 수 있다. In an embodiment, the speech completion requirement may be satisfied if the silence period is equal to or longer than the first reference time. When the silence period is longer than the reference time, even if the sentence is not completed, it is determined that the speech completion requirement is satisfied and the speech text can be configured. Here, the minutes of the meeting appropriately reflecting the voice data can be prepared.

일 실시예에서, 제1 기준 시간은 화자의 발언 속도를 이용하여 기준 규칙에 따라 결정된 것일 수 있다. In an embodiment, the first reference time may be determined according to a reference rule using the speaker's speaking speed.

일 실시예에서, 기준 규칙은 음성 데이터를 발언한 화자의 발언 속도가 빠르면 제1 기준 시간이 낮게 결정되고, 발언 속도가 느리면 제1 기준 시간이 높게 결정되는 것일 수 있다. 여기서, 발언 속도는 음성 데이터에서 재생되는 화자의 발언에 포함된 음절의 개수를 음성 데이터의 재생 시간으로 나눈 것일 수 있다. 또한, 발언 속도는 화자의 발언의 일부 구간에 대응하는 음성 데이터에서 재생되는 화자의 발언에 포함된 음절의 개수를 상기 일부 구간에 대응하는 음성 데이터의 재생 시간으로 나눈 것일 수도 있다. 다만, 본 발명이 이에 한정되는 것은 아니다. 화자별로 발언 완성 요건이 달리 설정됨으로써, 화자의 음성 데이터를 보다 적절히 반영하여 회의록의 인식도가 더욱 향상될 수 있다. In an embodiment, the reference rule may be that when the speaking speed of the speaker who uttered the voice data is fast, the first reference time is determined to be low, and when the speaking speed is slow, the first reference time is determined to be high. Here, the speech speed may be the number of syllables included in the speaker's remarks reproduced from the speech data divided by the reproduction time of the speech data. In addition, the speech speed may be obtained by dividing the number of syllables included in the speaker's speech reproduced from voice data corresponding to a partial section of the speaker's speech by the reproduction time of the voice data corresponding to the partial section. However, the present invention is not limited thereto. Since speech completion requirements are set differently for each speaker, the recognition of the minutes may be further improved by more appropriately reflecting the speaker's voice data.

일 실시예에서, 발언 완성 요건은, 문장이 완성되면 충족되는 것일 수 있다. 여기서 문장의 완성 여부는 앞서 설명된 문법 검사 엔진에 의해 수행될 수 있다. In one embodiment, the speech completion requirement may be satisfied when the sentence is completed. Here, whether the sentence is complete may be performed by the grammar check engine described above.

일 실시예에서, 발언 조각을 발언 시간 순서에 따라 묵음 구간으로 구분된 앞의 조각과 뒤의 조각을 연결하고, 연결된 발언 조각을 문법 검사 엔진이 제공받아 완성된 문장인지 여부를 결정하고, 완성된 문장으로 결정된 경우, 발언 완성 요건을 만족하는 것으로 결정할 수 있다. 문장이 완성된 경우에 발언 완성 요건을 만족한 것으로 판단하여, 발언 텍스트를 구성함으로써, 음성 데이터가 복수의 화자의 중첩된 발언을 포함하고 있는 경우에도, 문장 단위로 회의록이 작성되어 회의록의 인식도가 향상될 수 있다. In one embodiment, the speech fragment is connected to the front piece and the back piece divided into silence sections according to the order of speech time, and the grammar check engine receives the connected speech piece to determine whether it is a completed sentence, If it is determined as a sentence, it may be determined that the statement completion requirement is satisfied. When the sentence is completed, it is judged that the speech completion requirement is satisfied and the speech text is constituted, so that even if the voice data contains overlapping remarks of a plurality of speakers, the minutes are created in sentence units to increase the recognition of the minutes. can be improved

도 3을 참조하여 설명된 회의록 작성 방법을 구체적으로 예시하여 설명하기 위해 도 4 내지 도 6을 참조하기로 한다. 4 to 6 will be referred to specifically exemplify and describe the method of writing the minutes described with reference to FIG. 3 .

도 4를 참조하면, 음성 데이터(10) 및 예시적인 변환된 회의록(20)이 도시된다. 음성 데이터(10)는 본래 소리 데이터이지만, 설명의 편의를 위해 텍스트로 기재된다. 홍길동 의원(13)의 발언 시간(17)은 6초에서 8초사이에 발언이 이루어진다. 이순동 의원(15)의 발언 시간(19)은 7초에서 9초 사이에 이루어진다. 음성 데이터(10)에서 홍길동 의원(13)과 이순동 의원(15)의 음성 데이터가 중첩되어 입력된다. Referring to FIG. 4 , voice data 10 and exemplary converted minutes 20 are shown. The voice data 10 is originally sound data, but is written in text for convenience of explanation. Rep. Hong Gil-dong (13) speaks during the speaking time (17) between 6 and 8 seconds. Rep. Lee Soon-dong (15) speaks for 19 seconds between 7 and 9 seconds. In the voice data 10, the voice data of Representatives Hong Gil-dong (13) and Lee Soon-dong (15) are superimposed and input.

예시적인 변환된 회의록(20)은 종래 기술에 의해 변환된 회의록의 일 예시일 수 있다. 다른 예시적인 회의록은 음성 데이터가 중첩되어 변환 오류가 발생할 수도 있다. The exemplary converted meeting minutes 20 may be an example of meeting minutes converted by the prior art. In other exemplary meeting minutes, audio data may be overlapped, and conversion errors may occur.

예시적인 변환된 회의록(20)을 참조하면, 음성 데이터가 중첩되는 부분에서 홍길동 의원(13)의 발언 및 이순동 의원(15)의 발언이 분리되어 변환됨으로써, 발언의 의미를 구체적으로 이해하기 어려운 문제가 있다.Referring to the exemplary converted meeting minutes 20, the remarks of Rep. Gil-dong Hong (13) and Rep. Soon-dong Lee (15) are separated and converted at the part where the voice data overlaps, so it is difficult to understand the meaning of the remarks in detail. there is

보다 구체적인 예를 들어, 홍길동 의원(13)의 발언을 참조하면, 제1 분리 발언 텍스트(21a), '네, 그때 제가', 제2 분리 발언 텍스트(21b), '발언을 다 하지'및 제3 분리 발언 텍스트(21c), '못 했습니다.'로 분리되어 회의록이 작성된다. 음성 데이터가 중첩되어 음성 인식 엔진에 입력됨으로써, 화자별로 발언 텍스트가 구분되어 변환되지 않고, 발언 순서에 따라 그대로 변환되어 인식도가 현저히 낮은 회의록이 작성된다.As a more specific example, referring to Rep. Hong Gil-dong's remarks (13), the first split remark text 21a, 'Yes, then I', the second split remark text 21b, 'don't finish' and the second split speech text 21a 3 Separate speech text (21c), separated by 'Didn't', the minutes of the meeting are made. As the voice data is superimposed and input to the voice recognition engine, the speech text is not divided and converted for each speaker, but is converted according to the order of speech, thereby creating meeting minutes with a remarkably low degree of recognition.

앞서 설명된 본 발명의 일 실시예에 따른 회의록 작성 방법은, 문장이 완성된 경우에 발언 완성 요건을 만족한 것으로 판단하여, 발언 텍스트를 구성함으로써, 음성 데이터가 복수의 화자의 중첩된 발언을 포함하고 있는 경우에도, 문장 단위로 회의록이 작성되어 회의록의 인식도가 향상될 수 있다. The method for writing minutes according to an embodiment of the present invention described above determines that the speech completion requirement is satisfied when the sentence is completed, and configures the speech text, so that the voice data includes overlapping remarks of a plurality of speakers. Even in the case of doing this, the minutes of the meeting are written in sentence units, so that the recognition of the minutes can be improved.

본 발명의 일 실시예에 따른 회의록 작성 방법에 따르면, 음성 데이터(10)의 형태와 동일한 회의록이 작성되어, 회의록의 인식도가 향상될 수 있다. According to the method for creating meeting minutes according to an embodiment of the present invention, the same meeting minutes as those in the form of the voice data 10 are created, so that the recognition of the minutes can be improved.

도 5 및 도 6은 발언 조각과 묵음 구간을 보다 자세히 설명하기 위한 도면이다.5 and 6 are diagrams for explaining in more detail a speech fragment and a silence section.

도 5를 참조하면, 묵음 구간(33)과 발언 조각(31)이 도시된다.Referring to FIG. 5 , a silence section 33 and a speech fragment 31 are shown.

묵음 구간(33)에 의해 앞의 발언 조각과 뒤의 발언 조각으로 구분된다. 예를 들어, 두번째 묵음 구간에 의해, 앞의 발언 조각인, '그때'와 뒤의 발언 조각인 '제가'로 구분된다. The silence section 33 divides the previous speech fragment and the rear speech fragment. For example, by the second silence section, the previous speech fragment, 'then', and the second speech fragment, 'I', are divided.

도 5에 도시된 예시에 따르면, 묵음 구간이 제1 기준 시간 미만에 해당하여, 발언 완성 요건을 만족하지 않아 개행되거나 화자가 전환되지 않고, 단일한 발언 텍스트로 구성된다.According to the example shown in FIG. 5 , since the silence section is less than the first reference time, the speech completion requirement is not satisfied, so a line break or a speaker is not switched, and a single speech text is formed.

도 6을 참조하면, 묵음 구간(37), 제1 발언 텍스트(35) 및 제2 발언 텍스트(39)가 도시된다. 도 6에 도시된 예시에 따르면, 제1 기준 시간 이상인 묵음 구간(37)에 따라, 발언 완성 요건을 만족하여 동일한 화자가 발언한 내용임에도 개행된다. Referring to FIG. 6 , a silent section 37 , a first utterance text 35 and a second utterance text 39 are shown. According to the example shown in FIG. 6 , according to the silence section 37 that is equal to or longer than the first reference time, the speech completion requirement is satisfied and the line breaks even though the content is spoken by the same speaker.

일 실시예에서, 기준 규칙에 따라 발언 완성 요건을 결정하여, 발언 텍스트를 구성함으로써, 특정 화자가 발언한 텍스트의 개행이 자연스럽게 회의록에 반영되어, 인식도가 향상된 회의록이 제공될 수 있다. In an embodiment, by configuring the speech text by determining the speech completion requirement according to the standard rule, the newline of the text uttered by a specific speaker is naturally reflected in the minutes, so that the minutes of improved recognition can be provided.

이하, 본 발명의 다른 실시예에 따른 회의록 작성 방법에 대해 도 7을 참조하여 설명하도록 한다. 도 7을 참조하여 설명될 회의록 작성 방법은, 복수의 화자가 참석한 회의에서, 특정 마이크에 인입된 복수의 화자의 음성 데이터를 처리하는 방법이다. Hereinafter, a method of writing a meeting minute according to another embodiment of the present invention will be described with reference to FIG. 7 . The method of creating meeting minutes, which will be described with reference to FIG. 7 , is a method of processing voice data of a plurality of speakers introduced into a specific microphone in a meeting attended by a plurality of speakers.

도 7을 참조하면, 제1 마이크를 이용하여 제1 음성 데이터를 얻되, 제1 음성 데이터는 제1 화자의 음성 데이터가 주된 음성 데이터이고, 제1 화자의 음성 데이터와 제2 화자의 음성 데이터가 적어도 일부 발언 시간이 중첩되어 입력된다(S210). 다음으로, 제2 마이크를 이용하여 제2 음성 데이터를 얻되, 제2 음성 데이터는 제2 화자의 음성 데이터가 주된 음성 데이터이고, 제2 화자의 음성 데이터와 제1 화자의 음성 데이터가 적어도 일부 발언 시간이 중첩되어 입력된다(S220). 다음으로, 제2 음성 데이터를 이용하여 제1 음성 데이터에 포함된 제1 화자의 음성 데이터가 얻어지고(S230), 제1 음성 데이터를 이용하여 제2 음성 데이터에 포함된 제2 화자의 음성 데이터가 얻어진다(S240).Referring to FIG. 7 , first voice data is obtained using a first microphone, and the first voice data includes the voice data of the first speaker as the main voice data, and the voice data of the first speaker and the voice data of the second speaker. At least a portion of the speaking time is input to overlap (S210). Next, second voice data is obtained using the second microphone, wherein the second voice data is mainly voice data of the second speaker, and the voice data of the second speaker and the voice data of the first speaker are at least partially uttered. The overlapping time is input (S220). Next, voice data of the first speaker included in the first voice data is obtained using the second voice data ( S230 ), and voice data of the second speaker included in the second voice data is obtained using the first voice data ( S230 ). is obtained (S240).

이하, 도 8 내지 도 9를 참조하여, 마이크에 인입되는 노이즈를 제거하는 구체적인 방법을 설명하기로 한다. 도 8 내지 도 9는 본 발명의 몇몇 실시예에서 참조될 수 있는 노이즈 제거 방법을 설명하기 위한 도면이다.Hereinafter, a specific method of removing noise introduced into the microphone will be described with reference to FIGS. 8 to 9 . 8 to 9 are diagrams for explaining a noise removal method that may be referred to in some embodiments of the present invention.

도 8을 참조하면, 노이즈(41a) 및 음성 데이터 파형(43)이 도시된다. 회의에 참석하여 발언을 진행 중인 화자의 발언 외에도, 다양한 소리가 마이크에 인입되어 노이즈(41a)를 유발할 수 있다. 예를 들어, 노이즈(41a)는 회의의 참석한 다른 화자의 중첩된 발언일 수 있다.Referring to Fig. 8, noise 41a and voice data waveform 43 are shown. In addition to the speaker's speech who is attending the meeting and is speaking, various sounds may be introduced into the microphone to cause the noise 41a. For example, the noise 41a may be a superimposed speech of another speaker attending a meeting.

일 실시예에서, 음성 데이터를 얻는 단계는, 회의장에 존재하는 복수의 마이크 출력을 실시간으로 합산하는 단계, 합산된 총 마이크 출력에서 차지하는 출력이 기준 비율 이상인 마이크 출력을 증폭하고, 상기 기준 비율 미만인 마이크 출력을 감쇄하는 단계를 포함할 수 있다. 합산된 총 마이크 출력에서 차지하는 출력이 기준 비율 이상인 마이크 출력만을 증폭함으로써, 실제 발언하고 있는 자의 마이크 출력은 증폭되고, 발언하고 있지 않은 자의 마이크 출력은 감쇄될 수 있다. 여기서, 출력의 감쇄는 마이크의 볼륨을 낮추는 방식일 수 있다. 또한, 출력의 감쇄는 게인(Gain)을 낮추는 방식일 수도 있다. In one embodiment, the step of obtaining the voice data includes: summing the outputs of a plurality of microphones existing in the conference hall in real time; amplifying the microphone output whose output occupies the summed total microphone output is greater than or equal to a reference ratio; and a microphone that is less than the reference ratio It may include attenuating the output. By amplifying only the microphone output whose output occupies the summed total microphone output is equal to or greater than the reference ratio, the microphone output of the person who is actually speaking may be amplified and the microphone output of the person who is not speaking may be attenuated. Here, the attenuation of the output may be a method of lowering the volume of the microphone. Also, the attenuation of the output may be a method of lowering the gain.

일 실시예에서, 회의장에 존재하는 복수의 마이크 각각에 의한 출력을 실시간으로 얻어, 상기 출력의 변화량이 기준치 이하인 마이크 출력을 감쇄하는 단계를 포함할 수도 있다. 출력의 변화량이 기준치 이하인 마이크는 실제 발언하고 있는 자의 마이크가 아니므로, 발언하고 있지 않은 자의 마이크 출력은 감쇄될 수 있다. 여기서, 변화량을 얻는 단계는 출력을 미분하는 단계를 포함할 수 있다. 여기서, 출력의 감쇄는 마이크의 볼륨을 낮추는 방식일 수 있다. 또한, 출력의 감쇄는 게인(Gain)을 낮추는 방식일 수도 있다.In one embodiment, the method may include obtaining the output of each of a plurality of microphones present in the conference hall in real time, and attenuating the output of the microphone having the amount of change in the output equal to or less than a reference value. Since the microphone whose output change amount is less than the reference value is not the microphone of the person who is actually speaking, the microphone output of the person who is not speaking may be attenuated. Here, the step of obtaining the amount of change may include differentiating the output. Here, the attenuation of the output may be a method of lowering the volume of the microphone. In addition, the attenuation of the output may be a method of lowering the gain.

본 실시예들에 따르면, 발언하고 있지 않은 자의 마이크 출력을 감쇄함으로써, 발언을 진행 중인 화자의 마이크에 인입되는 노이즈가 제거될 수 있다.According to the present embodiments, by attenuating the microphone output of the person who is not speaking, noise entering the microphone of the speaker who is speaking can be removed.

도 9를 참조하면, 노이즈 제거된 파형(41b)이 도시된다. 상술한 방법에 의해서 음성 데이터가 얻어질 수 있다. 노이즈가 제거된 음성 데이터가 얻어질 수 있다. Referring to FIG. 9 , a denoised waveform 41b is shown. Voice data can be obtained by the method described above. Voice data from which noise has been removed can be obtained.

다시 도 7로 돌아가, 도 7을 참조하여 설명된 화자의 음성 데이터를 얻는 단계(S230, S240)에 대해 구체적으로 설명하기로 한다.Returning to FIG. 7 again, the steps ( S230 and S240 ) of obtaining the speaker's voice data described with reference to FIG. 7 will be described in detail.

일 실시예에서, 제2 음성 데이터 파형을 얻고, 제2 음성 데이터 파형의 반대 위상 파형을 제1 음성 데이터에 중첩하여 제2 화자의 음성 데이터를 제거하고 제1 화자의 음성 데이터를 얻을 수 있다.In an embodiment, the second voice data waveform may be obtained, and the second voice data waveform may be superimposed on the first voice data to remove the voice data of the second speaker, and the voice data of the first speaker may be obtained.

파형의 반대 위상을 이용하여 노이즈를 제거하는 ANC(Active Noise Cancellation)기술이 참조될 수 있다. 종래의 ANC 기술은 노이즈를 제거하기 위하여 별도의 마이크가 필수적으로 요구된다. 본 발명의 일 실시예에 따른 회의록 작성 방법은, 회의장에 구비되어 있는 복수의 마이크에 개별적으로 입력된 복수의 음성 데이터를 상호 신호 처리하여, 특정 화자의 음성 데이터를 얻을 수 있다. 따라서, 마이크에 인입되는 노이즈(예컨대, 다른 화자의 발언)가 제거되어 음성 엔진이 인식하기 용이한 화자의 음성 데이터가 추출될 수 있다. 추출된 화자의 음성 데이터를 이용하여 앞서 설명된 회의록 작성 방법이 적용될 수 있다. 인식도가 더욱더 향상된 회의록이 작성될 수 있다.An Active Noise Cancellation (ANC) technology that removes noise by using the opposite phase of a waveform may be referred to. In the conventional ANC technology, a separate microphone is essential in order to remove noise. In the meeting minutes preparation method according to an embodiment of the present invention, a plurality of voice data individually input to a plurality of microphones provided in a conference hall are mutually signal-processed to obtain voice data of a specific speaker. Accordingly, noise (eg, another speaker's speech) introduced into the microphone is removed, so that the speaker's voice data that is easy to be recognized by the voice engine can be extracted. Using the extracted speaker's voice data, the above-described method for writing meeting minutes may be applied. Minutes with improved awareness can be prepared.

지금까지 도 1 내지 도 9를 참조하여, 본 발명의 몇몇 실시예에 따른 회의록 작성 방법 및 그 응용분야에 대해서 설명하였다. 이하에서는, 본 발명의 일 실시예에 따른 회의록 작성 장치를 구현할 수 있는 예시적인 컴퓨팅 장치(1500)에 대하여 설명하도록 한다.So far, with reference to FIGS. 1 to 9 , a method for writing meeting minutes and an application field thereof according to some embodiments of the present invention have been described. Hereinafter, an exemplary computing device 1500 capable of implementing the apparatus for creating meeting minutes according to an embodiment of the present invention will be described.

도 10은 본 발명의 일 실시예에 따른 회의록 작성 장치를 구현할 수 있는 컴퓨팅 장치(1500)를 나타내는 하드웨어 구성도이다.10 is a hardware configuration diagram illustrating a computing device 1500 capable of implementing the apparatus for creating meeting minutes according to an embodiment of the present invention.

도 10에 도시된 바와 같이, 컴퓨팅 장치(1500)는 하나 이상의 프로세서(1510), 버스(1550), 통신 인터페이스(1570), 프로세서(1510)에 의하여 수행되는 컴퓨터 프로그램(1591)을 로드(load)하는 메모리(1530)와, 컴퓨터 프로그램(1591)을 저장하는 스토리지(1590)를 포함할 수 있다. 다만, 도 10에는 본 발명의 실시예와 관련 있는 구성 요소들만이 도시되어 있다. 따라서, 본 발명이 속한 기술분야의 통상의 기술자라면 도 10에 도시된 구성요소들 외에 다른 범용적인 구성 요소들이 더 포함될 수 있음을 알 수 있다.As shown in FIG. 10 , the computing device 1500 loads one or more processors 1510 , a bus 1550 , a communication interface 1570 , and a computer program 1591 executed by the processor 1510 . It may include a memory 1530 and a storage 1590 for storing the computer program 1591 . However, only the components related to the embodiment of the present invention are illustrated in FIG. 10 . Accordingly, a person skilled in the art to which the present invention pertains can know that other general-purpose components other than the components shown in FIG. 10 may be further included.

프로세서(1510)는 컴퓨팅 장치(1500)의 각 구성의 전반적인 동작을 제어한다. 프로세서(1510)는 CPU(Central Processing Unit), MPU(Micro Processor Unit), MCU(Micro Controller Unit), GPU(Graphic Processing Unit) 또는 본 발명의 기술 분야에 잘 알려진 임의의 형태의 프로세서를 포함하여 구성될 수 있다. 또한, 프로세서(1510)는 본 발명의 실시예들에 따른 방법을 실행하기 위한 적어도 하나의 애플리케이션 또는 프로그램에 대한 연산을 수행할 수 있다. 컴퓨팅 장치(1500)는 하나 이상의 프로세서를 구비할 수 있다.The processor 1510 controls the overall operation of each component of the computing device 1500 . The processor 1510 includes a central processing unit (CPU), a micro processor unit (MPU), a micro controller unit (MCU), a graphic processing unit (GPU), or any type of processor well known in the art. can be In addition, the processor 1510 may perform an operation on at least one application or program for executing the method according to the embodiments of the present invention. The computing device 1500 may include one or more processors.

메모리(1530)는 각종 데이터, 명령 및/또는 정보를 저장한다. 메모리(1530)는 본 발명의 실시예들에 따른 방법을 실행하기 위하여 스토리지(1590)로부터 하나 이상의 프로그램(1591)을 로드할 수 있다. 메모리(1530)는 RAM과 같은 휘발성 메모리로 구현될 수 있을 것이나, 본 발명의 기술적 범위가 이에 한정되는 것은 아니다.The memory 1530 stores various data, commands, and/or information. The memory 1530 may load one or more programs 1591 from the storage 1590 to execute a method according to embodiments of the present invention. The memory 1530 may be implemented as a volatile memory such as RAM, but the technical scope of the present invention is not limited thereto.

버스(1550)는 컴퓨팅 장치(1500)의 구성 요소 간 통신 기능을 제공한다. 버스(1550)는 주소 버스(Address Bus), 데이터 버스(Data Bus) 및 제어 버스(Control Bus) 등 다양한 형태의 버스로 구현될 수 있다.The bus 1550 provides a communication function between components of the computing device 1500 . The bus 1550 may be implemented as various types of buses, such as an address bus, a data bus, and a control bus.

통신 인터페이스(1570)는 컴퓨팅 장치(1500)의 유무선 인터넷 통신을 지원한다. 또한, 통신 인터페이스(1570)는 인터넷 통신 외의 다양한 통신 방식을 지원할 수도 있다. 이를 위해, 통신 인터페이스(1570)는 본 발명의 기술 분야에 잘 알려진 통신 모듈을 포함하여 구성될 수 있다.The communication interface 1570 supports wired/wireless Internet communication of the computing device 1500 . Also, the communication interface 1570 may support various communication methods other than Internet communication. To this end, the communication interface 1570 may be configured to include a communication module well-known in the art.

몇몇 실시예들에 따르면, 통신 인터페이스(1570)는 생략될 수도 있다.According to some embodiments, the communication interface 1570 may be omitted.

스토리지(1590)는 상기 하나 이상의 프로그램(1591)과 각종 데이터를 비임시적으로 저장할 수 있다. The storage 1590 may non-temporarily store the one or more programs 1591 and various data.

스토리지(1590)는 ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 플래시 메모리 등과 같은 비휘발성 메모리, 하드 디스크, 착탈형 디스크, 또는 본 발명이 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터로 읽을 수 있는 기록 매체를 포함하여 구성될 수 있다.The storage 1590 is a non-volatile memory such as a read only memory (ROM), an erasable programmable ROM (EPROM), an electrically erasable programmable ROM (EEPROM), a flash memory, a hard disk, a removable disk, or well in the art to which the present invention pertains. It may be configured to include any known computer-readable recording medium.

컴퓨터 프로그램(1591)은 메모리(1530)에 로드 될 때 프로세서(1510)로 하여금 본 발명의 다양한 실시예에 따른 방법/동작을 수행하도록 하는 하나 이상의 인스트럭션들을 포함할 수 있다. 즉, 프로세서(1510)는 상기 하나 이상의 인스트럭션들을 실행함으로써, 본 발명의 다양한 실시예에 따른 방법/동작들을 수행할 수 있다.The computer program 1591, when loaded into the memory 1530, may include one or more instructions that cause the processor 1510 to perform methods/operations according to various embodiments of the present invention. That is, the processor 1510 may perform the methods/operations according to various embodiments of the present disclosure by executing the one or more instructions.

위와 같은 경우, 컴퓨팅 장치(1500)를 통해 본 발명의 일 실시예에 따른 회의록 작성 장치가 구현될 수 있다.In this case, the meeting minutes writing apparatus according to an embodiment of the present invention may be implemented through the computing device 1500 .

지금까지 도 1 내지 도 10을 참조하여 본 발명의 다양한 실시예들 및 그 실시예들에 따른 효과들을 언급하였다. 본 발명의 기술적 사상에 따른 효과들은 이상에서 언급한 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.So far, various embodiments of the present invention and effects according to the embodiments have been described with reference to FIGS. 1 to 10 . Effects according to the technical spirit of the present invention are not limited to the above-mentioned effects, and other effects not mentioned will be clearly understood by those skilled in the art from the following description.

지금까지 도 1 내지 도 10을 참조하여 설명된 본 발명의 기술적 사상은 컴퓨터가 읽을 수 있는 매체 상에 컴퓨터가 읽을 수 있는 코드로 구현될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록 매체는, 예를 들어 이동형 기록 매체(CD, DVD, 블루레이 디스크, USB 저장 장치, 이동식 하드 디스크)이거나, 고정식 기록 매체(ROM, RAM, 컴퓨터 구비 형 하드 디스크)일 수 있다. 상기 컴퓨터로 읽을 수 있는 기록 매체에 기록된 상기 컴퓨터 프로그램은 인터넷 등의 네트워크를 통하여 다른 컴퓨팅 장치에 전송되어 상기 다른 컴퓨팅 장치에 설치될 수 있고, 이로써 상기 다른 컴퓨팅 장치에서 사용될 수 있다.The technical ideas of the present invention described with reference to FIGS. 1 to 10 may be implemented as computer-readable codes on a computer-readable medium. The computer-readable recording medium may be, for example, a removable recording medium (CD, DVD, Blu-ray disk, USB storage device, removable hard disk) or a fixed recording medium (ROM, RAM, computer-equipped hard disk). can The computer program recorded on the computer-readable recording medium may be transmitted to another computing device through a network such as the Internet and installed in the other computing device, thereby being used in the other computing device.

이상에서, 본 발명의 실시예를 구성하는 모든 구성 요소들이 하나로 결합되거나 결합되어 동작하는 것으로 설명되었다고 해서, 본 발명의 기술적 사상이 반드시 이러한 실시예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위 안에서라면, 그 모든 구성요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다.In the above, even though all the components constituting the embodiment of the present invention are described as being combined or operating in combination, the technical spirit of the present invention is not necessarily limited to this embodiment. That is, within the scope of the object of the present invention, all the components may operate by selectively combining one or more.

도면에서 동작들이 특정한 순서로 도시되어 있지만, 반드시 동작들이 도시된 특정한 순서로 또는 순차적 순서로 실행되어야만 하거나 또는 모든 도시 된 동작들이 실행되어야만 원하는 결과를 얻을 수 있는 것으로 이해되어서는 안 된다. 특정 상황에서는, 멀티태스킹 및 병렬 처리가 유리할 수도 있다. 더욱이, 위에 설명한 실시예들에서 다양한 구성들의 분리는 그러한 분리가 반드시 필요한 것으로 이해되어서는 안 되고, 설명된 프로그램 컴포넌트들 및 시스템들은 일반적으로 단일 소프트웨어 제품으로 함께 통합되거나 다수의 소프트웨어 제품으로 패키지 될 수 있음을 이해하여야 한다.Although acts are shown in a particular order in the drawings, it should not be understood that the acts must be performed in the specific order or sequential order shown, or that all illustrated acts must be performed to obtain a desired result. In certain circumstances, multitasking and parallel processing may be advantageous. Moreover, the separation of the various components in the embodiments described above should not be construed as necessarily requiring such separation, and the described program components and systems may generally be integrated together into a single software product or packaged into multiple software products. It should be understood that there is

이상 첨부된 도면을 참조하여 본 발명의 실시예들을 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 본 발명이 다른 구체적인 형태로도 실시될 수 있다는 것을 이해할 수 있다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로 이해해야만 한다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명에 의해 정의되는 기술적 사상의 권리범위에 포함되는 것으로 해석되어야 할 것이다.Although embodiments of the present invention have been described above with reference to the accompanying drawings, those of ordinary skill in the art to which the present invention pertains can practice the present invention in other specific forms without changing the technical spirit or essential features. can understand that there is Therefore, it should be understood that the embodiments described above are illustrative in all respects and not restrictive. The protection scope of the present invention should be interpreted by the following claims, and all technical ideas within the equivalent range should be interpreted as being included in the scope of the technical ideas defined by the present invention.

Claims (15)

컴퓨팅 장치에서 수행되는 방법에 있어서,
제1 화자의 음성 데이터와 제2 화자의 음성 데이터를 얻되, 상기 제1 화자의 음성 데이터와 상기 제2 화자의 음성 데이터는 적어도 일부 발언 시간이 겹치는 것인, 단계;
상기 제1 화자의 음성 데이터를 제1 음성 인식 엔진이 제공받는 단계;
상기 제1 음성 인식 엔진이 상기 제1 화자의 음성 데이터를 제1 발언 텍스트로 변환하되, 상기 제1 화자의 음성 데이터가 하나 이상의 묵음 구간에 의하여 구분되는 복수의 발언 조각을 포함하더라도 기 지정된 발언 완성 요건이 만족될 때까지 상기 발언 조각을 연결함으로써, 상기 제1 발언 텍스트를 구성하는 단계;
상기 제2 화자의 음성 데이터를 상기 제1 음성 인식 엔진과 별개의 제2 음성 인식 엔진이 제공받는 단계;
상기 제2 음성 인식 엔진이 상기 제2 화자의 음성 데이터를 제2 발언 텍스트로 변환하되, 상기 제2 화자의 음성 데이터가 하나 이상의 묵음 구간에 의하여 구분되는 복수의 발언 조각을 포함하더라도 기 지정된 상기 발언 완성 요건이 만족될 때까지 상기 발언 조각을 연결함으로써, 상기 제2 발언 텍스트를 구성하는 단계; 및
상기 제1 발언 텍스트와 상기 제2 발언 텍스트를 발언 시작 시간의 순서를 기준으로 연결하여 회의록을 작성하는 단계를 포함하는,
회의록 작성 방법.
A method performed on a computing device, comprising:
obtaining voice data of a first speaker and voice data of a second speaker, wherein the voice data of the first speaker and the voice data of the second speaker overlap at least some speaking times;
receiving, by a first voice recognition engine, the voice data of the first speaker;
The first speech recognition engine converts the speech data of the first speaker into first speech text, and completes a predetermined speech even if the speech data of the first speaker includes a plurality of speech fragments separated by one or more silence sections constructing the first utterance text by concatenating the utterance fragments until a requirement is met;
receiving, by a second voice recognition engine separate from the first voice recognition engine, the voice data of the second speaker;
The second speech recognition engine converts the speech data of the second speaker into second speech text, and the speech data of the second speaker includes a plurality of speech fragments separated by one or more silence sections, but the preset speech constructing the second utterance text by concatenating the utterance fragments until a completion requirement is satisfied; and
Comprising the step of linking the first speech text and the second speech text based on the order of speech start time to create a meeting minutes,
How to take minutes.
제1 항에 있어서,
상기 발언 완성 요건은,
상기 묵음 구간이 제1 기준 시간 이상이면, 충족되는 것인,
회의록 작성 방법.
According to claim 1,
The requirement to complete the statement is:
If the silence interval is longer than the first reference time, it will be satisfied,
How to take minutes.
제2 항에 있어서,
상기 제1 기준 시간은,
화자의 발언 속도를 이용하여 기준 규칙에 따라 결정되는 것인,
회의록 작성 방법.
3. The method of claim 2,
The first reference time is,
which is determined according to the standard rule using the speaker's speaking speed,
How to take minutes.
제1 항에 있어서,
상기 발언 완성 요건은,
연결된 상기 발언 조각의 문장이 완성되면, 충족되는 것인,
회의록 작성 방법.
According to claim 1,
The requirement to complete the statement is:
When the sentence of the linked speech fragment is complete, it will be satisfied,
How to take minutes.
제1 항에 있어서,
상기 제1 발언 텍스트를 구성하는 단계는,
상기 발언 조각을 발언 시간 순서에 따라 연결하는 단계;
연결된 발언 조각을 문법 검사 엔진이 제공받는 단계;
상기 문법 검사 엔진에 의해 상기 연결된 발언 조각이 완성된 문장으로 결정된 경우, 상기 발언 완성 요건을 만족하는 것으로 결정하는 단계; 및
상기 연결된 발언 조각을 이용하여 제1 발언 텍스트를 구성하는 단계를 포함하는,
회의록 작성 방법.
According to claim 1,
The step of composing the first remark text is,
concatenating the speech fragments according to speech time sequence;
receiving, by the grammar check engine, the linked speech fragment;
determining that the speech completion requirement is satisfied when the connected speech fragment is determined as a completed sentence by the grammar checking engine; and
Constructing a first utterance text using the linked utterance fragments,
How to take minutes.
제1 항에 있어서,
상기 묵음 구간은,
음성 데이터가 제2 기준 시간 이상 입력되지 않는 구간인,
회의록 작성 방법.
According to claim 1,
The silent section is
A section in which voice data is not input for more than the second reference time,
How to take minutes.
제6 항에 있어서,
상기 제2 기준 시간은,
화자의 발언 속도를 이용하여 기준 규칙에 따라 결정되는 것인,
회의록 작성 방법.
7. The method of claim 6,
The second reference time is,
which is determined according to the standard rule using the speaker's speaking speed,
How to take minutes.
제7 항에 있어서,
상기 기준 규칙은,
상기 발언 속도가 빠르면 상기 제2 기준 시간이 낮게 결정되고, 상기 발언 속도가 느리면 상기 제2 기준 시간이 높게 결정되는 것인,
회의록 작성 방법.
8. The method of claim 7,
The standard rule is,
If the speaking speed is fast, the second reference time is determined to be low, and if the speaking speed is slow, the second reference time is determined to be high,
How to take minutes.
컴퓨팅 장치에서 수행되는 방법에 있어서,
제1 마이크를 이용하여 제1 음성 데이터를 얻되, 상기 제1 음성 데이터는 제1 화자의 음성 데이터가 주된 음성 데이터이고, 상기 제1 화자의 음성 데이터와 제2 화자의 음성 데이터가 적어도 일부 발언 시간이 겹쳐 중첩되어 입력되는 것인, 단계;
상기 제1 마이크와 별개의 제2 마이크를 이용하여 제2 음성 데이터를 얻되, 상기 제2 음성 데이터는 상기 제2 화자의 음성 데이터가 주된 음성 데이터이고, 상기 제1 화자의 음성 데이터와 상기 제2 화자의 음성 데이터가 적어도 일부 발언 시간이 겹쳐 중첩되어 입력되는 것인, 단계;
상기 제2 음성 데이터를 이용하여, 상기 제1 음성 데이터에 포함된 상기 제2 화자의 음성 데이터를 제거하고 상기 제1 화자의 음성 데이터를 얻는 단계; 및
상기 제1 음성 데이터를 이용하여, 상기 제2 음성 데이터에 포함된 상기 제1 화자의 음성 데이터를 제거하고 상기 제2 화자의 음성 데이터를 얻는 단계를 포함하는,
회의록 작성 방법.
A method performed on a computing device, comprising:
Obtaining first voice data using a first microphone, wherein the first voice data is mainly voice data of the first speaker, and the voice data of the first speaker and the voice data of the second speaker are at least part of speech time This will be input overlapped and overlapped, step;
Obtaining second voice data using a second microphone separate from the first microphone, wherein, in the second voice data, the voice data of the second speaker is the main voice data, and the voice data of the first speaker and the second voice data a step in which the speaker's voice data is input by overlapping at least part of the speaking time;
removing voice data of the second speaker included in the first voice data by using the second voice data and obtaining voice data of the first speaker; and
removing voice data of the first speaker included in the second voice data by using the first voice data and obtaining voice data of the second speaker;
How to take minutes.
제9 항에 있어서,
상기 제1 화자의 음성 데이터를 제1 음성 인식 엔진이 제공받는 단계;
상기 제1 음성 인식 엔진이 상기 제1 화자의 음성 데이터를 제1 발언 텍스트로 변환하되, 상기 제1 화자의 음성 데이터가 하나 이상의 묵음 구간에 의하여 구분되는 복수의 제1 발언 조각을 포함하더라도 기 지정된 발언 완성 요건이 만족될 때까지 상기 제1 발언 조각을 연결함으로써, 상기 제1 발언 텍스트를 구성하는 단계;
상기 제2 화자의 음성 데이터를 상기 제1 음성 인식 엔진과 별개의 제2 음성 인식 엔진이 제공받는 단계;
상기 제2 음성 인식 엔진이 상기 제2 화자의 음성 데이터를 제2 발언 텍스트로 변환하되, 상기 제2 화자의 음성 데이터가 하나 이상의 묵음 구간에 의하여 구분되는 복수의 제2 발언 조각을 포함하더라도 기 지정된 상기 발언 완성 요건이 만족될 때까지 상기 제2 발언 조각을 연결함으로써, 상기 제2 발언 텍스트를 구성하는 단계; 및
상기 제1 발언 텍스트와 상기 제2 발언 텍스트를 발언 시작 시간의 순서를 기준으로 연결하여 회의록을 작성하는 단계를 포함하는,
회의록 작성 방법.
10. The method of claim 9,
receiving, by a first voice recognition engine, the voice data of the first speaker;
The first speech recognition engine converts the speech data of the first speaker into first speech text, and even if the speech data of the first speaker includes a plurality of first speech fragments separated by one or more silence sections, a preset constructing the first utterance text by concatenating the first utterance fragments until a utterance completion requirement is satisfied;
receiving, by a second voice recognition engine separate from the first voice recognition engine, the voice data of the second speaker;
The second speech recognition engine converts the second speaker's speech data into second speech text, and even if the second speaker's speech data includes a plurality of second speech fragments separated by one or more silence sections, a preset constructing the second utterance text by concatenating the second utterance fragments until the utterance completion requirement is satisfied; and
Comprising the step of linking the first speech text and the second speech text based on the order of speech start time to create a meeting minutes,
How to take minutes.
제9 항에 있어서,
상기 제1 화자의 음성 데이터를 얻는 단계는,
제2 음성 데이터 파형을 얻는 단계; 및
상기 제2 음성 데이터 파형의 반대 위상 파형을 상기 제1 음성 데이터에 중첩하여, 상기 제2 화자의 음성 데이터를 제거하고 상기 제1 화자의 음성 데이터를 얻는 단계를 포함하는,
회의록 작성 방법.
10. The method of claim 9,
The step of obtaining the voice data of the first speaker comprises:
obtaining a second voice data waveform; and
superimposing an opposite phase waveform of the second voice data waveform on the first voice data to remove voice data of the second speaker and obtain voice data of the first speaker;
How to take minutes.
제9 항에 있어서,
음성 데이터를 얻는 단계는,
회의장에 존재하는 복수의 마이크 출력을 실시간으로 합산하는 단계;
합산된 총 마이크 출력에서 차지하는 출력이 기준 비율 이상인 마이크 출력을 증폭하고, 상기 기준 비율 미만인 마이크 출력을 감쇄하는 단계를 포함하는,
회의록 작성 방법.
10. The method of claim 9,
The steps to obtain voice data are:
summing the outputs of a plurality of microphones existing in the conference hall in real time;
Amplifying a microphone output having an output equal to or greater than a reference ratio in the summed total microphone output, and attenuating a microphone output that is less than the reference ratio,
How to take minutes.
제9 항에 있어서,
음성 데이터를 얻는 단계는,
회의장에 존재하는 복수의 마이크 각각에 의한 출력을 실시간으로 얻어, 상기 출력의 변화량이 기준치 이하인 마이크 출력을 감쇄하는 단계를 포함하는,
회의록 작성 방법.
10. The method of claim 9,
The steps to obtain voice data are:
Obtaining the output by each of a plurality of microphones present in the conference hall in real time, and attenuating the output of the microphone whose output change amount is less than or equal to a reference value,
How to take minutes.
프로세서;
네트워크 인터페이스;
메모리; 및
상기 메모리에 로드(load)되고, 상기 프로세서에 의해 실행되는 컴퓨터 프로그램을 포함하되,
상기 컴퓨터 프로그램은,
제1 화자의 음성 데이터와 제2 화자의 음성 데이터를 얻되, 상기 제1 화자의 음성 데이터와 상기 제2 화자의 음성 데이터는 적어도 일부 발언 시간이 겹치는 것인, 인스트럭션(instruction);
상기 제1 화자의 음성 데이터를 제1 음성 인식 엔진이 제공받는 인스트럭션;
상기 제1 음성 인식 엔진이 상기 제1 화자의 음성 데이터를 제1 발언 텍스트로 변환하되, 상기 제1 화자의 음성 데이터가 하나 이상의 묵음 구간에 의하여 구분되는 복수의 발언 조각을 포함하더라도 기 지정된 발언 완성 요건이 만족될 때까지 상기 발언 조각을 연결함으로써, 상기 제1 발언 텍스트를 구성하는 인스트럭션;
상기 제2 화자의 음성 데이터를 상기 제1 음성 인식 엔진과 별개의 제2 음성 인식 엔진이 제공받는 인스트럭션;
상기 제2 음성 인식 엔진이 상기 제2 화자의 음성 데이터를 제2 발언 텍스트로 변환하되, 상기 제2 화자의 음성 데이터가 하나 이상의 묵음 구간에 의하여 구분되는 복수의 발언 조각을 포함하더라도 기 지정된 상기 발언 완성 요건이 만족될 때까지 상기 발언 조각을 연결함으로써, 상기 제2 발언 텍스트를 구성하는 인스트럭션; 및
상기 제1 발언 텍스트와 상기 제2 발언 텍스트를 발언 시작 시간의 순서를 기준으로 연결하여 회의록을 작성하는 인스트럭션을 포함하는,
회의록 작성 장치.
processor;
network interface;
Memory; and
A computer program loaded into the memory and executed by the processor,
The computer program is
an instruction to obtain voice data of a first speaker and voice data of a second speaker, wherein the voice data of the first speaker and the voice data of the second speaker overlap at least some speaking times;
instructions for receiving the voice data of the first speaker from a first voice recognition engine;
The first speech recognition engine converts the speech data of the first speaker into first speech text, and completes a predetermined speech even if the speech data of the first speaker includes a plurality of speech fragments separated by one or more silence sections constructs the first utterance text by concatenating the utterance fragments until a requirement is satisfied;
instructions for receiving the second speaker's voice data from a second voice recognition engine separate from the first voice recognition engine;
The second speech recognition engine converts the speech data of the second speaker into second speech text, and the speech data of the second speaker includes a plurality of speech fragments separated by one or more silence sections, but the preset speech constructing the second utterance text by concatenating the utterance fragments until a completion requirement is satisfied; and
Containing instructions for creating meeting minutes by connecting the first speech text and the second speech text based on the order of speech start time,
meeting minutes device.
프로세서;
네트워크 인터페이스;
메모리; 및
상기 메모리에 로드(load)되고, 상기 프로세서에 의해 실행되는 컴퓨터 프로그램을 포함하되,
상기 컴퓨터 프로그램은,
제1 마이크를 이용하여 제1 음성 데이터를 얻되, 상기 제1 음성 데이터는 제1 화자의 음성 데이터가 주된 음성 데이터이고, 상기 제1 화자의 음성 데이터와 제2 화자의 음성 데이터가 적어도 일부 발언 시간이 겹쳐 중첩되어 입력되는 것인, 인스트럭션;
상기 제1 마이크와 별개의 제2 마이크를 이용하여 제2 음성 데이터를 얻되, 상기 제2 음성 데이터는 상기 제2 화자의 음성 데이터가 주된 음성 데이터이고, 상기 제1 화자의 음성 데이터와 상기 제2 화자의 음성 데이터가 적어도 일부 발언 시간이 겹쳐 중첩되어 입력되는 것인, 인스트럭션;
상기 제2 음성 데이터를 이용하여, 상기 제1 음성 데이터에 포함된 상기 제2 화자의 음성 데이터를 제거하고 상기 제1 화자의 음성 데이터를 얻는 인스트럭션; 및
상기 제1 음성 데이터를 이용하여, 상기 제2 음성 데이터에 포함된 상기 제1 화자의 음성 데이터를 제거하고 상기 제2 화자의 음성 데이터를 얻는 인스트럭션을 포함하는,
회의록 작성 장치.
processor;
network interface;
Memory; and
A computer program loaded into the memory and executed by the processor,
The computer program is
Obtaining first voice data using a first microphone, wherein the first voice data is mainly voice data of the first speaker, and the voice data of the first speaker and the voice data of the second speaker are at least part of speech time This will be input overlapped and overlapped, instructions;
Obtaining second voice data using a second microphone separate from the first microphone, wherein, in the second voice data, the voice data of the second speaker is the main voice data, and the voice data of the first speaker and the second voice data an instruction that the speaker's voice data is input by overlapping at least a portion of the speaking time;
instructions for removing the second speaker's voice data included in the first voice data and obtaining the first speaker's voice data by using the second voice data; and
and instructions for removing voice data of the first speaker included in the second voice data by using the first voice data and obtaining voice data of the second speaker,
meeting minutes device.
KR1020200111374A 2020-09-02 2020-09-02 Apparatus for taking minutes and method thereof KR102474690B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200111374A KR102474690B1 (en) 2020-09-02 2020-09-02 Apparatus for taking minutes and method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200111374A KR102474690B1 (en) 2020-09-02 2020-09-02 Apparatus for taking minutes and method thereof

Publications (2)

Publication Number Publication Date
KR20220029877A true KR20220029877A (en) 2022-03-10
KR102474690B1 KR102474690B1 (en) 2022-12-06

Family

ID=80816302

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200111374A KR102474690B1 (en) 2020-09-02 2020-09-02 Apparatus for taking minutes and method thereof

Country Status (1)

Country Link
KR (1) KR102474690B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102549882B1 (en) * 2022-05-23 2023-06-30 브레인소프트주식회사 System and method for automatically generating meeting minutes based on voice recognition using multiple mobile phones

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101618084B1 (en) 2015-08-31 2016-05-04 주식회사 제윤 Method and apparatus for managing minutes
KR20200087514A (en) * 2019-01-11 2020-07-21 주식회사 액션파워 Coputer device for providing dialogues services

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101618084B1 (en) 2015-08-31 2016-05-04 주식회사 제윤 Method and apparatus for managing minutes
KR20200087514A (en) * 2019-01-11 2020-07-21 주식회사 액션파워 Coputer device for providing dialogues services

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102549882B1 (en) * 2022-05-23 2023-06-30 브레인소프트주식회사 System and method for automatically generating meeting minutes based on voice recognition using multiple mobile phones

Also Published As

Publication number Publication date
KR102474690B1 (en) 2022-12-06

Similar Documents

Publication Publication Date Title
US10552118B2 (en) Context based identification of non-relevant verbal communications
US11183187B2 (en) Dialog method, dialog system, dialog apparatus and program that gives impression that dialog system understands content of dialog
US20140365200A1 (en) System and method for automatic speech translation
US20040230410A1 (en) Method and system for simulated interactive conversation
US11810585B2 (en) Systems and methods for filtering unwanted sounds from a conference call using voice synthesis
JP2021144218A (en) Voice interaction reconstitution method and device
KR102020773B1 (en) Multimedia Speech Recognition automatic evaluation system based using TTS
AU2022203531B1 (en) Real-time speech-to-speech generation (rssg) apparatus, method and a system therefore
US20240029753A1 (en) Systems and methods for filtering unwanted sounds from a conference call
US7308407B2 (en) Method and system for generating natural sounding concatenative synthetic speech
KR102474690B1 (en) Apparatus for taking minutes and method thereof
Kwint et al. How Different Elements of Audio Affect the Word Error Rate of Transcripts in Automated Medical Reporting.
JP3706112B2 (en) Speech synthesizer and computer program
US11710476B2 (en) System and method for automatic testing of conversational assistance
Charfuelan MARY TTS HMMbased voices for the Blizzard Challenge 2012
US20220319516A1 (en) Conversation method, conversation system, conversation apparatus, and program
Beça et al. Evaluating the performance of ASR systems for TV interactions in several domestic noise scenarios
KR102528621B1 (en) Apparatus for managing council and method thereof
Kobayashi et al. Semantic parser for easy understandable speech broadcasting
US11501752B2 (en) Enhanced reproduction of speech on a computing system
Mizukami et al. A study toward an evaluation method for spoken dialogue systems considering user criteria
Vuppala et al. Outcomes of Speech to Speech Translation for Broadcast Speeches and Crowd Source Based Speech Data Collection Pilot Projects
JP2022169071A (en) Robot and robot system
Motyka et al. Information Technology of Transcribing Ukrainian-Language Content Based on Deep Learning
JP2024031442A (en) Audio processing device, audio processing method, audio processing program, and communication system

Legal Events

Date Code Title Description
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant