EA202091595A1

EA202091595A1 - METHOD AND DEVICE FOR BUILDING VOICE MODEL OF A TARGET ANNOUNCER

Info

Publication number: EA202091595A1
Application number: EA202091595A
Authority: EA
Inventors: Сергей Александрович НОВОСЕЛОВ; Александр Викторович КОЗЛОВ; Дмитрий Александрович РУМЯНЦЕВ; Олег Юрьевич КУДАШЕВ
Original assignee: Общество с ограниченной ответственностью "Центр речевых технологий"
Priority date: 2017-12-27
Filing date: 2017-12-27
Publication date: 2020-09-18
Also published as: WO2019132690A1; KR20200140235A

Abstract

Изобретение относится к области голосовой биометрии, в частности к задаче автоматической оценки голосовых моделей дикторов по записям их телефонных переговоров с автоматической привязкой голосовой модели диктора к номеру телефона. Предложен способ получения голосовой модели целевого диктора, согласно которому осуществляют сегментацию по голосам дикторов по меньшей мере двух фонограмм телефонных переговоров с получением сегментов речи; строят голосовые модели дикторов по полученным сегментам речи; осуществляют кластеризацию построенных голосовых моделей дикторов с использованием метаданных телефонных переговоров с получением кластеров; определяют связи между кластерами на основании фонограмм телефонных переговоров и выделяют кластер с наибольшим количеством связей как кластер целевого диктора. Также предложено устройство для получения голосовой модели целевого диктора.The invention relates to the field of voice biometrics, in particular to the problem of automatic assessment of voice models of speakers based on the recordings of their telephone conversations with automatic binding of the voice model of the speaker to a telephone number. A method for obtaining a voice model of a target speaker is proposed, according to which segmentation is carried out according to the voices of the speakers of at least two phonograms of telephone conversations to obtain speech segments; build voice models of speakers based on the received speech segments; clustering the constructed voice models of speakers using the metadata of telephone conversations to obtain clusters; determine connections between clusters on the basis of phonograms of telephone conversations and select the cluster with the greatest number of connections as a target speaker's cluster. Also proposed is a device for obtaining a target speaker's voice model.