JP2021144218A - 音声対話再構成方法及び装置 - Google Patents
音声対話再構成方法及び装置 Download PDFInfo
- Publication number
- JP2021144218A JP2021144218A JP2021038052A JP2021038052A JP2021144218A JP 2021144218 A JP2021144218 A JP 2021144218A JP 2021038052 A JP2021038052 A JP 2021038052A JP 2021038052 A JP2021038052 A JP 2021038052A JP 2021144218 A JP2021144218 A JP 2021144218A
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- blocks
- voice
- dialogue
- specific
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003993 interaction Effects 0.000 title abstract 5
- 238000003168 reconstitution method Methods 0.000 title abstract 2
- 238000000034 method Methods 0.000 claims abstract description 47
- 238000004590 computer program Methods 0.000 claims description 13
- 230000002452 interceptive effect Effects 0.000 claims description 8
- 238000001514 detection method Methods 0.000 claims description 4
- 230000000877 morphologic effect Effects 0.000 claims description 4
- 230000006870 function Effects 0.000 description 9
- 238000006243 chemical reaction Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000007781 pre-processing Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L12/00—Data switching networks
- H04L12/02—Details
- H04L12/16—Arrangements for providing special services to substations
- H04L12/18—Arrangements for providing special services to substations for broadcast or conference, e.g. multicast
- H04L12/1813—Arrangements for providing special services to substations for broadcast or conference, e.g. multicast for computer conferences, e.g. chat rooms
- H04L12/1831—Tracking arrangements for later retrieval, e.g. recording contents, participants activities or behavior, network status
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
Description
110 入力部
120 処理部
121 話者別データ処理部
122 ブロック分割部
123 ブロック整列部
124 ブロック併合部
125 対話再構成部
130 出力部
140 記憶部
Claims (10)
- 音声対話再構成装置の音声対話再構成方法において、
音声対話に対する話者別音声認識データを獲得するステップと、
前記獲得された話者別音声認識データを既設定された分割基準によってトークン間境界を利用して複数のブロックに分割するステップと、
前記分割された複数のブロックを話者と関係なく時刻順に整列するステップと、
前記整列された複数のブロックに対して同一話者の連続発話による複数のロックを併合するステップと、
前記併合の結果が反映された複数のブロックを前記時刻順と話者を区分して対話形式に再構成するステップと、を含む音声対話再構成方法。 - 前記話者別音声認識データを獲得するステップは、
前記音声対話に対してEPD(End Point Detection)単位に生成された話者別第1認識結果と既設定時間ごとに生成された話者別第2認識結果を獲得するステップと、
前記話者別第1認識結果と前記話者別第2認識結果を重なり及び重複することなく集めて前記話者別音声認識データを生成するステップと、を含む請求項1に記載の音声対話再構成方法。 - 前記話者別第2認識結果は最後のEPDが発生された後に生成されたことである請求項2に記載の音声対話再構成方法。
- 前記既設定された分割基準は、一定時間以上の黙音区間や前のトークンとの形態素的特性である請求項1に記載の音声対話再構成方法。
- 前記併合するステップは、一定時間以下の黙音区間や前のブロックとの構文特性によって前記同一話者の連続発話を判別する請求項1に記載の音声対話再構成方法。
- 前記対話形式に再構成された音声認識データを画面に出力するステップをさらに含み、前記画面の更新時に前記話者別音声認識データを一括更新するか前記話者別第1認識結果を反映する更新を実行する請求項2に記載の音声対話再構成方法。
- 音声対話が入力され入力部と、
前記入力部を通じて入力された前記音声対話に対する音声認識を処理する処理部とを含み、
前記処理部は、
前記音声対話に対する話者別音声認識データを獲得し、前記獲得された話者別音声認識データを既設定された分割基準によってトークン間境界を利用して複数のブロックに分割し、前記分割された複数のブロックを話者と関係なく時刻順に整列し、前記整列された複数のブロックに対して同一話者の連続発話による複数のロックを併合し、前記併合の結果が反映された複数のブロックを前記時刻順と話者を区分して対話形式に再構成する音声対話再構成装置。 - 前記処理部は、
前記音声対話に対してEPD(End Point Detection)単位に生成された話者別第1認識結果と既設定時間ごとに生成された話者別第2認識結果を獲得し、
前記話者別第1認識結果と前記話者別第2認識結果を重なり及び重複することなく集めて前記話者別音声認識データを生成する請求項7に記載の音声対話再構成装置。 - コンピュータープログラムを記憶しているコンピュータ読み取り可能な記録媒体において、
前記コンピュータープログラムは、プロセッサーによって実行される場合、
音声対話に対する話者別音声認識データを獲得するステップと、
前記獲得された話者別音声認識データを既設定された分割基準によってトークン間境界を利用して複数のブロックに分割するステップと、
前記分割された複数のブロックを話者と関係なく時刻順に整列するステップと、
前記整列された複数のブロックに対して同一話者の連続発話による複数のロックを併合するステップと、
前記併合の結果が反映された複数のブロックを前記時刻順と話者を区分して対話形式に再構成するステップとを含む方法を前記プロセッサーが実行するようにするための命令語を含む、コンピュータ読み取り可能な記録媒体。 - コンピュータ読み取り可能な記録媒体に記憶されているコンピュータープログラムにおいて、
前記コンピュータープログラムは、プロセッサーによって実行される場合、
音声対話に対する話者別音声認識データを獲得するステップと、
前記獲得された話者別音声認識データを既設定された分割基準によってトークン間境界を利用して複数のブロックに分割するステップと、
前記分割された複数のブロックを話者と関係なく時刻順に整列するステップと、
前記整列された複数のブロックに対して同一話者の連続発話による複数のブロックを併合するステップと、
前記併合の結果が反映された複数のブロックを前記時刻順と話者を区分して対話形式に再構成するステップとを含む方法を前記プロセッサーが実行するようにするための命令語を含む、コンピュータープログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2020-0029826 | 2020-03-10 | ||
KR1020200029826A KR102208387B1 (ko) | 2020-03-10 | 2020-03-10 | 음성 대화 재구성 방법 및 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021144218A true JP2021144218A (ja) | 2021-09-24 |
JP2021144218A5 JP2021144218A5 (ja) | 2024-03-14 |
Family
ID=74239261
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021038052A Pending JP2021144218A (ja) | 2020-03-10 | 2021-03-10 | 音声対話再構成方法及び装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20210327446A1 (ja) |
EP (1) | EP3879526A1 (ja) |
JP (1) | JP2021144218A (ja) |
KR (1) | KR102208387B1 (ja) |
CN (1) | CN113450772B (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102577346B1 (ko) * | 2021-02-08 | 2023-09-12 | 네이버 주식회사 | 텍스트 기반의 화자변경검출을 활용한 화자분할 보정 방법 및 시스템 |
KR20230050807A (ko) | 2021-10-08 | 2023-04-17 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
KR102598304B1 (ko) * | 2022-06-09 | 2023-11-03 | 주식회사 엘솔루 | Stt 변환 방법 및 장치 |
KR102539256B1 (ko) * | 2022-12-07 | 2023-06-02 | 주식회사 하이 | 음성 데이터에서 특정 화자의 음성을 구분하는 모델을 학습시키는 기법 |
KR102526173B1 (ko) * | 2022-12-07 | 2023-04-26 | 주식회사 하이 | 음성 데이터에서 특정 화자의 음성을 추출하는 기법 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2838158C3 (de) * | 1978-09-01 | 1982-12-16 | Jagenberg-Werke AG, 4000 Düsseldorf | Beleimungsvorrichtung für eine Etikettiermaschine |
US7133521B2 (en) * | 2002-10-25 | 2006-11-07 | Dilithium Networks Pty Ltd. | Method and apparatus for DTMF detection and voice mixing in the CELP parameter domain |
US20040162724A1 (en) * | 2003-02-11 | 2004-08-19 | Jeffrey Hill | Management of conversations |
KR20050059766A (ko) * | 2003-12-15 | 2005-06-21 | 엘지전자 주식회사 | 동적 시간 워핑을 이용한 음성 인식 방법 |
JP4827721B2 (ja) * | 2006-12-26 | 2011-11-30 | ニュアンス コミュニケーションズ,インコーポレイテッド | 発話分割方法、装置およびプログラム |
JP2010230695A (ja) * | 2007-10-22 | 2010-10-14 | Toshiba Corp | 音声の境界推定装置及び方法 |
KR20140078258A (ko) | 2012-12-17 | 2014-06-25 | 한국전자통신연구원 | 대화 인식을 통한 이동 단말 제어 장치 및 방법, 회의 중 대화 인식을 통한 정보 제공 장치 |
US10504509B2 (en) * | 2015-05-27 | 2019-12-10 | Google Llc | Providing suggested voice-based action queries |
US10083697B2 (en) * | 2015-05-27 | 2018-09-25 | Google Llc | Local persisting of data for selectively offline capable voice action in a voice-enabled electronic device |
JP6312942B2 (ja) * | 2015-10-09 | 2018-04-18 | 三菱電機株式会社 | 言語モデル生成装置、言語モデル生成方法とそのプログラム |
US10516938B2 (en) * | 2016-07-16 | 2019-12-24 | Ron Zass | System and method for assessing speaker spatial orientation |
US10558421B2 (en) * | 2017-05-22 | 2020-02-11 | International Business Machines Corporation | Context based identification of non-relevant verbal communications |
KR102199423B1 (ko) * | 2018-04-27 | 2021-01-06 | 아토머스 주식회사 | 심리 상담 데이터를 기계 학습한 자동 대화 장치 및 그 방법 |
US10636427B2 (en) * | 2018-06-22 | 2020-04-28 | Microsoft Technology Licensing, Llc | Use of voice recognition to generate a transcript of conversation(s) |
KR20200011198A (ko) * | 2018-07-24 | 2020-02-03 | 주식회사 리턴제로 | 대화형 메시지 구현 방법, 장치 및 프로그램 |
-
2020
- 2020-03-10 KR KR1020200029826A patent/KR102208387B1/ko active IP Right Grant
-
2021
- 2021-03-09 CN CN202110255584.7A patent/CN113450772B/zh active Active
- 2021-03-09 EP EP21161423.5A patent/EP3879526A1/en active Pending
- 2021-03-10 US US17/198,046 patent/US20210327446A1/en not_active Abandoned
- 2021-03-10 JP JP2021038052A patent/JP2021144218A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
CN113450772A (zh) | 2021-09-28 |
US20210327446A1 (en) | 2021-10-21 |
KR102208387B1 (ko) | 2021-01-28 |
EP3879526A1 (en) | 2021-09-15 |
CN113450772B (zh) | 2024-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2021144218A (ja) | 音声対話再構成方法及び装置 | |
US11900943B2 (en) | System and method of text zoning | |
JP6837298B2 (ja) | 音響点数を計算する装置及び方法、音声を認識する装置及び方法並びに電子装置 | |
CN105788589B (zh) | 一种音频数据的处理方法及装置 | |
CN104157285B (zh) | 语音识别方法、装置及电子设备 | |
JP4987623B2 (ja) | ユーザと音声により対話する装置および方法 | |
US8825486B2 (en) | Method and apparatus for generating synthetic speech with contrastive stress | |
US9679564B2 (en) | Human transcriptionist directed posterior audio source separation | |
JP6280312B2 (ja) | 議事録記録装置、議事録記録方法及びプログラム | |
Havard et al. | Speech-coco: 600k visually grounded spoken captions aligned to mscoco data set | |
JPH05216618A (ja) | 音声対話システム | |
JP2005196134A (ja) | 音声対話システム及び方法並びに音声対話プログラム | |
JP2021144218A5 (ja) | ||
CN116312471A (zh) | 语音迁移、语音交互方法、装置、电子设备及存储介质 | |
Levy et al. | The effect of pitch, intensity and pause duration in punctuation detection | |
KR102020773B1 (ko) | 음성합성엔진을 이용한 멀티미디어 음성인식 자동 평가시스템 | |
US11176943B2 (en) | Voice recognition device, voice recognition method, and computer program product | |
CN116978381A (zh) | 音频数据处理方法、装置、计算机设备和存储介质 | |
JP4964695B2 (ja) | 音声合成装置及び音声合成方法並びにプログラム | |
US20220399030A1 (en) | Systems and Methods for Voice Based Audio and Text Alignment | |
JP2017198790A (ja) | 音声評定装置、音声評定方法、教師変化情報の生産方法、およびプログラム | |
KR102474690B1 (ko) | 회의록 작성 방법 및 장치 | |
JP5713782B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
CN112397053B (zh) | 语音识别方法、装置、电子设备及可读存储介质 | |
US20230223032A1 (en) | Method and apparatus for reconstructing voice conversation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210312 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240306 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240306 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20240306 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240605 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20240731 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240802 |