EA201290082A1 - Способ идентификации говорящего по фонограммам произвольной устной речи на основе формантного выравнивания - Google Patents

Способ идентификации говорящего по фонограммам произвольной устной речи на основе формантного выравнивания

Info

Publication number
EA201290082A1
EA201290082A1 EA201290082A EA201290082A EA201290082A1 EA 201290082 A1 EA201290082 A1 EA 201290082A1 EA 201290082 A EA201290082 A EA 201290082A EA 201290082 A EA201290082 A EA 201290082A EA 201290082 A1 EA201290082 A1 EA 201290082A1
Authority
EA
Eurasian Patent Office
Prior art keywords
phonograms
formant
similarity
speaker
identification
Prior art date
Application number
EA201290082A
Other languages
English (en)
Other versions
EA019949B1 (ru
Inventor
Сергей Львович КОВАЛЬ
Original Assignee
Общество с ограниченной ответственностью "Центр речевых технологий"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Общество с ограниченной ответственностью "Центр речевых технологий" filed Critical Общество с ограниченной ответственностью "Центр речевых технологий"
Publication of EA201290082A1 publication Critical patent/EA201290082A1/ru
Publication of EA019949B1 publication Critical patent/EA019949B1/ru

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/20Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Television Signal Processing For Recording (AREA)
  • Television Receiver Circuits (AREA)
  • Telephonic Communication Services (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

Предлагаемый способ идентификации говорящего по фонограммам произвольной устной речи на основе формантного выравнивания позволяет осуществлять надежную идентификацию говорящего как для длинных, так и для коротких фонограмм, фонограмм, записанных в различных каналах с высоким уровнем помех и искажений, а также фонограмм с произвольной устной речью дикторов, находящихся в различных психофизиологических состояниях, говорящих на различающихся языках, что обеспечивает широкую область применения предлагаемого способа, в том числе в криминалистических исследованиях. Идентификация говорящего по фонограммам устной речи осуществляют путем оценки сходства между первой фонограммой говорящего и второй, эталонной фонограммой. Для указанной оценки на первой и второй фонограммах выбирают опорные фрагменты речевых сигналов, на которых присутствуют формантные траектории по крайней мере трех формант, сравнивают между собой опорные фрагменты, в которых совпадают значения по крайней мере двух формантных частот, оценивают сходство сравниваемых опорных фрагментов по совпадению значений остальных формантных частот, а сходство фонограмм в целом определяют по суммарной оценке сходства всех сравниваемых опорных фрагментов.
EA201290082A 2009-09-24 2010-11-03 Способ идентификации говорящего по фонограммам произвольной устной речи на основе формантного выравнивания EA019949B1 (ru)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
RU2009136387/09A RU2419890C1 (ru) 2009-09-24 2009-09-24 Способ идентификации говорящего по фонограммам произвольной устной речи на основе формантного выравнивания
PCT/RU2010/000661 WO2011046474A2 (ru) 2009-09-24 2010-11-03 Способ идентификации говорящего по фонограммам произвольной устной речи на основе формантного выравнивания

Publications (2)

Publication Number Publication Date
EA201290082A1 true EA201290082A1 (ru) 2012-07-30
EA019949B1 EA019949B1 (ru) 2014-07-30

Family

ID=43876755

Family Applications (1)

Application Number Title Priority Date Filing Date
EA201290082A EA019949B1 (ru) 2009-09-24 2010-11-03 Способ идентификации говорящего по фонограммам произвольной устной речи на основе формантного выравнивания

Country Status (6)

Country Link
US (2) US9047866B2 (ru)
EP (1) EP2482277B1 (ru)
EA (1) EA019949B1 (ru)
ES (1) ES2547731T3 (ru)
RU (1) RU2419890C1 (ru)
WO (1) WO2011046474A2 (ru)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2419890C1 (ru) 2009-09-24 2011-05-27 Общество с ограниченной ответственностью "Центр речевых технологий" Способ идентификации говорящего по фонограммам произвольной устной речи на основе формантного выравнивания
JP5589537B2 (ja) * 2010-04-30 2014-09-17 ソニー株式会社 情報処理装置、情報処理方法、プログラム、情報提供装置および情報処理システム
RU2459281C1 (ru) * 2011-09-15 2012-08-20 Общество с ограниченной ответственностью "Цифрасофт" Устройство и способ формирования сигнатуры акустического сигнала, устройство идентификации акустического сигнала
DE102011085280A1 (de) * 2011-10-27 2013-05-02 Robert Bosch Gmbh Überwachung einer differentiellen mehrkanalübertragungsstrecke
US20140095161A1 (en) * 2012-09-28 2014-04-03 At&T Intellectual Property I, L.P. System and method for channel equalization using characteristics of an unknown signal
US20140188468A1 (en) * 2012-12-28 2014-07-03 Dmitry Dyrmovskiy Apparatus, system and method for calculating passphrase variability
US9015045B2 (en) * 2013-03-11 2015-04-21 Nuance Communications, Inc. Method for refining a search
US9728182B2 (en) * 2013-03-15 2017-08-08 Setem Technologies, Inc. Method and system for generating advanced feature discrimination vectors for use in speech recognition
US20140309992A1 (en) * 2013-04-16 2014-10-16 University Of Rochester Method for detecting, identifying, and enhancing formant frequencies in voiced speech
RU2530314C1 (ru) * 2013-04-23 2014-10-10 Общество с ограниченной ответственностью "ЦРТ-инновации" Способ гибридной генеративно-дискриминативной сегментации дикторов в аудио-потоке
RU2598314C2 (ru) * 2013-08-05 2016-09-20 Общество с ограниченной ответственностью "Центр речевых технологий" (ООО "ЦРТ") Способ оценки вариативности парольной фразы (варианты)
JP6316685B2 (ja) * 2014-07-04 2018-04-25 日本電信電話株式会社 声まね音声評価装置、声まね音声評価方法及びプログラム
BR102014023647B1 (pt) * 2014-09-24 2022-12-06 Fundacao Cpqd - Centro De Pesquisa E Desenvolvimento Em Telecomunicacoes Método e sistema para detecção de fraudes em aplicações baseadas em processamento de voz
GB2552722A (en) * 2016-08-03 2018-02-07 Cirrus Logic Int Semiconductor Ltd Speaker recognition
US10672402B2 (en) * 2017-04-11 2020-06-02 International Business Machines Corporation Speech with context authenticator
WO2019063547A1 (en) * 2017-09-26 2019-04-04 Sony Europe Limited METHOD AND ELECTRONIC DEVICE FOR ATTENUATION / AMPLIFICATION OF FORMER
CN108670199B (zh) * 2018-05-28 2023-05-23 暨南大学 一种构音障碍元音评估模板及评估方法
CN111986698B (zh) * 2019-05-24 2023-06-30 腾讯科技(深圳)有限公司 音频片段的匹配方法、装置、计算机可读介质及电子设备
WO2021127976A1 (zh) * 2019-12-24 2021-07-01 广州国音智能科技有限公司 一种可供比对音素选取方法和装置
CN111933172A (zh) * 2020-08-10 2020-11-13 广州九四智能科技有限公司 人声分离提取方法方法、装置、计算机设备及存储介质
CN111879397B (zh) * 2020-09-01 2022-05-13 国网河北省电力有限公司检修分公司 高压断路器储能机构故障诊断方法

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3466394A (en) 1966-05-02 1969-09-09 Ibm Voice verification system
US3700815A (en) * 1971-04-20 1972-10-24 Bell Telephone Labor Inc Automatic speaker verification by non-linear time alignment of acoustic parameters
DE2431458C2 (de) 1974-07-01 1986-05-28 Philips Patentverwaltung Gmbh, 2000 Hamburg Verfahren und Anordnung zur automatischen Sprechererkennung
WO1992015090A1 (en) * 1991-02-22 1992-09-03 Seaway Technologies, Inc. Acoustic method and apparatus for identifying human sonic sources
US5265191A (en) 1991-09-17 1993-11-23 At&T Bell Laboratories Technique for voice-based security systems
US5339385A (en) 1992-07-22 1994-08-16 Itt Corporation Speaker verifier using nearest-neighbor distance measure
RU2047912C1 (ru) 1994-04-20 1995-11-10 Виктор Николаевич Сорокин Способ распознавания изолированных слов речи с адаптацией к диктору
SE515447C2 (sv) * 1996-07-25 2001-08-06 Telia Ab Metod och anordning för talverifiering
RU2107950C1 (ru) * 1996-08-08 1998-03-27 Николай Владимирович Байчаров Способ идентификации личности по фонограммам произвольной устной речи
US5995927A (en) 1997-03-14 1999-11-30 Lucent Technologies Inc. Method for performing stochastic matching for use in speaker verification
CA2304747C (en) 1997-10-15 2007-08-14 British Telecommunications Public Limited Company Pattern recognition using multiple reference models
RU2161826C2 (ru) 1998-08-17 2001-01-10 Пензенский научно-исследовательский электротехнический институт Способ автоматической идентификации личности
US6411930B1 (en) 1998-11-18 2002-06-25 Lucent Technologies Inc. Discriminative gaussian mixture models for speaker verification
GB9913773D0 (en) * 1999-06-14 1999-08-11 Simpson Mark C Speech signal processing
WO2003000015A2 (en) * 2001-06-25 2003-01-03 Science Applications International Corporation Identification by analysis of physiometric variation
RU2230375C2 (ru) * 2002-09-03 2004-06-10 Общество с ограниченной ответственностью "Центр речевых технологий" Метод распознавания диктора и устройство для его осуществления
US20050171774A1 (en) * 2004-01-30 2005-08-04 Applebaum Ted H. Features and techniques for speaker authentication
JP4455417B2 (ja) * 2005-06-13 2010-04-21 株式会社東芝 移動ロボット、プログラム及びロボット制御方法
WO2008084476A2 (en) * 2007-01-09 2008-07-17 Avraham Shpigel Vowel recognition system and method in speech to text applications
RU2419890C1 (ru) 2009-09-24 2011-05-27 Общество с ограниченной ответственностью "Центр речевых технологий" Способ идентификации говорящего по фонограммам произвольной устной речи на основе формантного выравнивания

Also Published As

Publication number Publication date
EP2482277A2 (en) 2012-08-01
US9047866B2 (en) 2015-06-02
EP2482277B1 (en) 2015-06-24
WO2011046474A2 (ru) 2011-04-21
US20130325470A1 (en) 2013-12-05
RU2419890C1 (ru) 2011-05-27
EP2482277A4 (en) 2013-04-10
EA019949B1 (ru) 2014-07-30
ES2547731T3 (es) 2015-10-08
WO2011046474A3 (ru) 2011-06-16
US20120232899A1 (en) 2012-09-13

Similar Documents

Publication Publication Date Title
EA201290082A1 (ru) Способ идентификации говорящего по фонограммам произвольной устной речи на основе формантного выравнивания
WO2007035183A3 (en) Method, system, and program product for measuring audio video synchronization independent of speaker characteristics
EP2806425A3 (en) System and method for speaker verification
MX2008013078A (es) Metodos y aparatos para codificar y descodificar señales de audio basadas en objeto.
NO20083580L (no) Autentisering av taler
BRPI0507207A8 (pt) Equipamento e método para o processamento de um sinal multicanais
HK1158804A1 (en) Method and discriminator for classifying different segments of a signal
CN104123115A (zh) 一种音频信息处理方法及电子设备
DE602006015376D1 (de) Vorrichtung zur ausblendung von signalausfällen für eine mehrkanalanordnung
WO2006091551A3 (en) Audio signal de-identification
WO2006082868A3 (en) Method and system for identifying speech sound and non-speech sound in an environment
JP2014515833A5 (ru)
WO2010148141A3 (en) Apparatus and method for speech analysis
EP2458584A3 (en) Audio visual signature, method of deriving a signature, and method of comparing audio-visual data
Chiba et al. Amplitude-based speech enhancement with nonnegative matrix factorization for asynchronous distributed recording
WO2014145960A3 (en) Method and system for generating advanced feature discrimination vectors for use in speech recognition
WO2007135198A3 (en) Method for adjusting a hearing device with frequency transposition and corresponding arrangement
WO2008036768A3 (en) System and method for identifying perceptual features
WO2009098181A3 (en) Audio recording analysis and rating
Stupakov et al. The design and collection of COSINE, a multi-microphone in situ speech corpus recorded in noisy environments
EP2823481A2 (en) Formant based speech reconstruction from noisy signals
Fan et al. Acoustic analysis for speaker identification of whispered speech
EA202091595A1 (ru) Способ и устройство для построения голосовой модели целевого диктора
Sahidullah Enhancement of speaker recognition performance using block level, relative and temporal information of subband energies
Vijayalakshmi et al. Selective pole modification-based technique for the analysis and detection of hypernasality

Legal Events

Date Code Title Description
MM4A Lapse of a eurasian patent due to non-payment of renewal fees within the time limit in the following designated state(s)

Designated state(s): KG MD

MM4A Lapse of a eurasian patent due to non-payment of renewal fees within the time limit in the following designated state(s)

Designated state(s): AM AZ TJ TM