EA004352B1 - Система и способ автоматизированной записи речи с использованием двух экземпляров преобразования речи и автоматизированной коррекции - Google Patents
Система и способ автоматизированной записи речи с использованием двух экземпляров преобразования речи и автоматизированной коррекции Download PDFInfo
- Publication number
- EA004352B1 EA004352B1 EA200100901A EA200100901A EA004352B1 EA 004352 B1 EA004352 B1 EA 004352B1 EA 200100901 A EA200100901 A EA 200100901A EA 200100901 A EA200100901 A EA 200100901A EA 004352 B1 EA004352 B1 EA 004352B1
- Authority
- EA
- Eurasian Patent Office
- Prior art keywords
- conversion
- variables
- written text
- speech recognition
- current
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000012937 correction Methods 0.000 title claims description 5
- 238000013518 transcription Methods 0.000 title abstract description 6
- 230000035897 transcription Effects 0.000 title abstract description 6
- 238000006243 chemical reaction Methods 0.000 claims abstract description 76
- 239000000872 buffer Substances 0.000 claims abstract description 26
- 238000007781 pre-processing Methods 0.000 claims abstract description 25
- 230000001360 synchronised effect Effects 0.000 claims abstract description 14
- 230000002452 interceptive effect Effects 0.000 claims abstract description 9
- 238000005070 sampling Methods 0.000 claims abstract description 4
- 230000004044 response Effects 0.000 claims abstract 3
- 230000009466 transformation Effects 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 4
- 238000012549 training Methods 0.000 abstract description 11
- 238000013459 approach Methods 0.000 description 8
- 238000007726 management method Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000008901 benefit Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 102100032157 Adenylate cyclase type 10 Human genes 0.000 description 1
- 101000775498 Homo sapiens Adenylate cyclase type 10 Proteins 0.000 description 1
- 230000003187 abdominal effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000002591 computed tomography Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 210000003734 kidney Anatomy 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000000399 orthopedic effect Effects 0.000 description 1
- 102220075111 rs147516123 Human genes 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000002604 ultrasonography Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/221—Announcement of recognition results
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
Заявлена система для автоматизации в значительной степени записи речи для одного или нескольких речевых пользователей. Эта система принимает от текущего пользователя файл речевого ввода, который автоматически преобразуется в первый письменный текст на основании первого множества переменных преобразования. Тот же самый файл речевого ввода автоматически преобразуется во второй письменный текст на основании второго множества переменных преобразования. Первое и второе множества переменных преобразования имеют по меньшей мере одно отличие, такое как различные программы распознавания речи, различные словари и тому подобное. Система также включает в себя программу для редактирования вручную копии первого и второго письменных текстов для создания дословного текста файла речевого ввода (40). Этот дословный текст может затем доставляться текущему пользователю в качестве текста автоматической записи речи. Дословный текст может также возвращаться в каждый полученный экземпляр распознавания речи для улучшения точности каждого такого экземпляра с учетом голоса человека в файле речевого ввода.
Description
Настоящее изобретение относится в целом к компьютерным системам распознавания речи и, в частности, к системе и способу для автоматизации записи (транскрибирования) текста, произносимого различными конечными пользователями.
Предшествующий уровень техники
Из уровня техники общеизвестны программы распознавания речи. Хотя эти программы исключительно полезны при автоматическом преобразовании речи в текст, многих пользователей отговаривают использовать эти программы, поскольку они требуют от каждого пользователя потратить значительное время на обучение системы. Обычно это обучение начинается с того, что каждый пользователь должен прочитать несколько заранее выбранных материалов в течение приблизительно 20 мин. Затем, в процессе продолжения использования программы пользователем, если слова записываются неверно, ожидается, что пользователь должен останавливаться и обучать программу нужному слову, улучшая конечную точность акустической модели. К сожалению, большинство профессионалов (врачи, стоматологи, ветеринары, адвокаты) и бизнесмены не желают тратить время на разработку обязательной акустической модели, чтобы реально получать выгоду от автоматизированной записи речи.
Соответственно, задача настоящего изобретения состоит в создании системы, предоставляющей конечным пользователям прозрачный механизм обучения программы распознавания речи.
Существуют системы для использования компьютеров для маршрутизации записи речи от группы конечных пользователей. Чаще всего эти системы используются в таких крупных многопользовательских системах, как больницы. В этих системах пользователь надиктовывает голосом в компьютер общего назначения или другое записывающее устройство, и результирующий файл автоматически передаётся к оператору, осуществляющему запись речи. Этот оператор транскрибирует файл, который затем возвращается автору для просмотра. Эти системы постоянно требуют использования значительного количества операторов, записывающих речь, для транскрибирования всех файлов речевого ввода.
Соответственно, ещё одна задача настоящего изобретения состоит в создании автоматизированного средства перевода речи в текст в любой подходящей ситуации так, чтобы минимизировать количество операторов, осуществляющих транскрибирование аудиофайлов, поступающих из системы.
Также задачей изобретения является создание упрощённого средства для выработки пословных текстовых файлов для обучения акустической модели пользователя в подсистеме распознавания речи системы.
Ещё одной задачей настоящего изобретения является автоматизация существующей программы распознавания речи для дополнительного снижения количества операторов, необходимых для работы системы.
Эти и прочие задачи поясняются с помощью представленных чертежей, описания и формулы изобретения.
Сущность изобретения
Настоящее раскрытие изобретения относится к системе и способу для существенной автоматизации услуг по записи речи для одного или нескольких речевых пользователей. В частности, эта система включает в себя использование двух экземпляров преобразования речи для упрощения процедуры получения текста в дословной записи речи с минимальным транскрибированием оператором.
Эта система включает в себя средство для приёма файла речевого ввода от текущего пользователя. Такой файл речевого ввода подаётся в первое средство для автоматического преобразования файла речевого ввода в первый письменный текст и во второе средство для автоматического преобразования файла речевого ввода во второй письменный текст. Первое и второе средства имеют соответственно первое и второе множества переменных преобразований. Эти первое и второе множества переменных преобразования имеют по меньшей мере одно отличие.
Например, когда первое и второе средства для автоматического преобразования речи содержат каждое уже существующую программу распознавания речи, сами программы могут отличаться друг от друга. Различные программы распознавания речи используют принципиально различные подходы к преобразованию речи в текст, таким образом, с некоторой вероятностью, приводя к различному преобразованию с учетом сложных манер произнесения речи, что, в свою очередь, может быть использовано для получения записи дословного текста. Среди доступных уже существующих средств преобразования речи - №11ига11у §реакшд компании Эгадоп ЗуЧепъ. У1а Уоке компании ΙΒΜ и Мадк 8реесй компании РЫйрк СогрогаОоп.
При другом подходе первое и второе множество переменных преобразования может содержать языковую модель (т.е. обобщенную или специализированную языковую модель), которые опять же с некоторой вероятностью приводят к различным преобразованиям, с учетом сложных манер произнесения, ведущим к более простому получению дословного текста. Альтернативно может модифицироваться одна или несколько настроек, связанных с используемыми существующими программами распознавания речи.
При ещё одном подходе файл речевого ввода может предварительно обрабатываться до ввода его в одно или в оба средства автоматического преобразования. При этом способе переменные преобразования (например, размер цифрового слова, частота дискретизации и удаление отдельных гармонических диапазонов) могут различаться в различных получаемых экземплярах преобразования речи.
Система также содержит средство для редактирования вручную копии упомянутых первого и второго письменных текстов для создания дословного текста файла речевого ввода. При одном из подходов первый письменный текст по меньшей мере временно синхронизируется с файлом речевого ввода. В этом случае средство для редактирования вручную содержит средство для последовательного сравнения копий первого и второго письменных текстов, что позволяет получить последовательный список несовпадающих слов, отобранных из первого письменного текста. Средство для редактирования вручную также включает в себя средство для пошагового поиска текущего несовпадающего слова одновременно в первом буфере, связанном с первым средством автоматического преобразования, содержащим первый письменный текст, и во втором буфере, связанном с последовательным списком. Средство для редактирования вручную также содержит средство для коррекции текущего несовпадающего слова во втором буфере. Средство для коррекции включает в себя средство для отображения текущего несовпадающего слова так, чтобы оно существенно отличалось визуально от остального текста в первом письменном тексте, и средство для воспроизведения части упомянутой синхронизированной записи речевого ввода из первого буфера, связанной с текущим несовпадающим словом. В одном варианте выполнения средство редактирования также содержит средство для альтернативного просмотра упомянутого текущего несовпадающего слова в контексте в копии первого письменного текста.
Система может также содержать обучающее средство для улучшения точности программы распознавания речи.
Заявка также раскрывает способ автоматизации услуг записи речи для одного или нескольких речевых пользователей в системе, содержащей по меньшей мере одну программу распознавания речи. Способ включает в себя: (1) приём файла речевого ввода от текущего речевого пользователя; (2) автоматическое формирование первого письменного текста из файла речевого ввода с помощью программы распознавания речи, использующей первое множество переменных преобразования; (3) автоматическое формирование второго письменного текста из файла речевого ввода с помощью программы распознавания речи, использующей второе множество переменных преобразования; (4) формирование вручную дословного файла путём сравнения первого и второго письменных текстов; и (5) возвращение дословного файла текущему пользователю. Формирование дословного файла включает в себя (6) последовательное сравнение копии первого письменного текста со вторым письменным текстом, что обепечивает получение последовательного списка несовпадающих слов, выявленных в копии первого письменного текста, причём этот последовательный список имеет начало, конец и текущее несовпадающее слово, при этом текущее несовпадающее слово последовательно смещается от начала к концу; (7) пошаговый поиск текущего несовпадающего слова одновременно в первом буфере, связанном по меньшей мере с одной программой распознавания речи, содержащем первый письменный текст, и во втором буфере, связанном с последовательным списком; (8) отображение текущего несовпадающего слова так, чтобы оно визуально значительно отличалось от остального текста в копии первого письменного текста, и воспроизведение части синхронизированной записи речевого ввода из первого буфера, связанной с текущим несовпадающим словом; и (9) коррекцию текущего несовпадающего слова так, чтобы оно было дословным представлением части синхронизированной записи речевого ввода.
Краткое описание чертежей
Фиг. 1 - блок-схема возможного варианта выполнения настоящей системы для существенной автоматизации услуги записи речи для одного или нескольких речевых пользователей;
фиг. 1б - блок-схема компьютера общего назначения, который может использоваться в качестве станции речевого ввода, станции записи речи и средства управления в настоящей системе;
фиг. 2а - блок-схема алгоритма основного цикла средства управления настоящей системы;
фиг. 2б - блок-схема алгоритма части стадии внесения в список средства управления настоящей системы;
фиг. 2в - блок-схема алгоритма части стадии обучения средства управления настоящей системы;
фиг. 2г - блок-схема алгоритма части стадии автоматизации средства управления настоящей системы;
фиг. 3 - структура каталога, используемая средством управления настоящей системы;
фиг. 4 - блок-схема части предпочтительного варианта выполнения средства редактирования вручную;
фиг. 5 - вид спереди остальной части предпочтительного варианта выполнения средства редактирования вручную; и фиг. 6 - иллюстрация конфигурации системы, представляющей систему и способ автоматизированной записи речи с помощью двух полученных экземпляров преобразования речи и автоматизированной коррекции.
Наилучшие варианты осуществления изобретения
Хотя изобретение может быть реализовано во многих различных формах, на чертежах показаны и обсуждаются несколько конкретных вариантов выполнения, при этом подразумевается, что настоящее раскрытие не ограничивает изобретение проиллюстрированными выполнениями.
Фиг. 1 в целом показывает один возможный вариант выполнения настоящей системы для услуг автоматизации записи речи для одного или нескольких речевых пользователей. Настоящая система должна включать в себя некоторое средство для приёма файла речевого ввода от текущего пользователя. Это средство для приёма файла речевого ввода может представлять собой устройство цифровой аудиозаписи, устройство аналоговой аудиозаписи или стандартное средство для приёма компьютерных файлов на магнитных носителях или по линии передачи данных.
Как показано, в одном варианте выполнения система 100 включает в себя множество станций 10, 11, 12 и 13 цифровой записи. Каждая станция цифровой записи содержит по меньшей мере устройство цифровой аудиозаписи и средство идентификации текущего речевого пользователя.
Предпочтительно, каждая из этих станций цифровой записи реализована на компьютере общего назначения (таком, как компьютер 20), хотя для этой цели может быть разработан специальный компьютер. Компьютер общего назначения, тем не менее, имеет дополнительное преимущество адаптируемости к изменяющимся использованиям в дополнение к работе в системе 100. В целом компьютер общего назначения должен иметь, среди прочих элементов, микропроцессор (такой, как Реийиш, Супх К6 или Мо!ого1а 68000 фирмы 1п1е1 Согрогайои); энергозависимую и энергонезависимую память; одно или несколько устройств хранения данных (т.е. дисковод жёстких дисков (не показан), дисковод 21 гибких дисков и прочие съёмные устройства 22 для таких накопителей, как СЭКОМ, ΌΙΤΤΟ, ΖΙΡ или 1ΛΖΖ (фирмы 1отеда Согрогайои) и тому подобное; различные устройства ввода, такие как мышь 23, клавиатура 24 или микрофон 25; и видеодисплейную систему 26. В одном выполнении компьютер общего назначения управляется операционной системой \Утбо\\ъ 9.x. Предполагается, однако, что настоящая система будет одинаково хорошо работать на компьютере Маст!окй или даже при другой операционной системе, такой как XV ίπбо\\ъ СЕ, υΝΙΧ или операционной системе на основе 1ауа.
Независимо от используемой компьютерной платформы, в варианте выполнения, использующем аналоговый аудиоввод (через микрофон 25), компьютер общего назначения дол жен содержать звуковую карту (не показана). Разумеется, в выполнении с цифровым вводом звуковая карта необязательна.
В варианте выполнения, показанном на фиг. 1, 10, 11, 12 и 13, файлы цифровой аудиозаписи загружаются и конфигурируются так, чтобы запускать программное обеспечение цифровой аудиозаписи в компьютерной системе на основе процессора Реийит, действующей под операционной системой 9.x. Такое программное обеспечение цифровой записи доступно в качестве утилиты операционной системы 9.x или таких независимых поставщиков, как Тйе Ргодгаттегк' Соикойшт, 1ис., ОакЮп. Уйдйиа (УО1СЕЭОС), Бу Шп 11шт Согрогайои, Рйоешх, Лп/оиа (СООЬ ΕΌΙΤ) или Эгадои Бук!ет Согрогайои (Э га до и №!ига11у Бреакшд РгоГек81оиа1 Ебйюи). Эти различные программы вырабатывают надиктованный голосом файл в формате .νΑν. Однако, как известно специалистам, прочие форматы аудиофайлов, такие, как МРЗ или ЭББ, также могут использоваться в качестве форматов надиктованного голосом файла без изменения сущности настоящего изобретения. В одном варианте выполнения, в котором используется программа УО1СЕЭОС, эта программа автоматически также присваивает файлу расширение XV АУ, однако, специалистам известно, как сохранить аудиофайлы в компьютерной системе с помощью стандартных способов управления файлами операционной системы.
Ещё одно средство для приёма файла речевого ввода подразумевает устройство 14 цифровой записи, такое как О1утрик Э1дйа1 Уоюе Кесогбег Ό-1000, производимый компанией О1утрик Согрогайои. Таким образом, если текущему речевому пользователю удобнее пользоваться более общепринятым типом устройства речевого ввода, он может продолжать использовать устройство 14 цифровой записи. Для получения цифрового аудиотекстового файла, после завершения записи, устройство 14 цифровой записи будет оперативно соединено с одной из станций цифровой аудиозаписи, такой как станция 13, для загрузки цифрового аудиофайла в данный компьютер общего пользования. При таком подходе, например, не потребуется звуковой карты.
Ещё одна альтернатива для приёма файла речевого ввода может заключаться в использовании той или иной формы съёмного магнитного носителя, содержащего предварительно записанный аудиофайл. В этом случае оператор вводит съёмный магнитный носитель в одну из станций цифровой аудиозаписи для загрузки аудиофайла в систему.
В некоторых случаях может быть необходимым предварительно обработать аудиофайлы, чтобы сделать их приемлемыми для обработки программным обеспечением распознавания речи. Например, может оказаться необходимым изменить формат файла с Ό88 на XV А V, или увеличить или уменьшить частоту дискретизации цифрового аудиофайла. Например, при использовании О1ушрц8 Όίβίΐαΐ Уо1се Кесогбег с программой Эгадоп Ыа1ига11у 8реактд, частоту 8 МГц устройства О1утрц§ следует поднять до 11 МГц. Программное обеспечение для выполнения такой предварительной обработки доступно из множества источников, в том числе 8уп1гШшт СогрогаИоп и О1утрц§ СогрогаИоп.
Другим аспектом цифровых аудиозаписывающих станций цифровой аудиозаписи является некоторое средство для идентификации текущего речевого пользователя. Это средство идентификации может содержать клавиатуру 24, с которой каждый пользователь (или отдельный оператор) может вводить уникальный идентификационный код текущего пользователя. Разумеется, идентификация пользователя может вводиться с помощью множества устройств компьютерного ввода, таких как устройства указания (например, мышь 23), сенсорный экран (не показан), световой карандаш (не показан), устройство считывания штрих-кода (не показан) или аудиосигналов через микрофон 25.
В случае, если пользователь работает первый раз, средство идентификации может присваивать пользователю идентификационный номер после приёма идентификационной информации от этого пользователя, в том числе: (1) имени; (2) адреса; (3) рода занятий; (4) особенностей произношения и т.д. Как обсуждается в связи со средством управления, на основании этой информации в средстве управления создаются профиль речевого пользователя и подкаталог. Тем самым, независимо от использования конкретного средства идентификации должна производиться идентификация для каждого речевого пользователя, которому затем присваивается соответствующий цифровой аудиофайл для каждого использования, так что средство управления может правильным образом маршрутизировать, а система может транскрибировать аудиозапись.
В одном варианте выполнения настоящего изобретения средство идентификации может также ожидать выбора вручную специализированного словаря. Предполагается, что специализированные словари могут быть общими для различных пользователей, например медицинскими (т.е. радиологический, хирургический ортопедический, гинекологический) и юридическими (т.е. по экономическому, патентному, процессуальному праву), либо высоко специализированными, так что по каждой специальности параметры словаря могут дополнительно ограничиваться на основании конкретных условий отдельного надиктованного файла. Например, если текущий пользователь является радиологом, диктующим текст по компьютерной томографии брюшной области, терминология является высоко специализированной и отлича ется от терминологии для ультразвукового исследования почек. Путём узкого сегментирования каждого доступного словаря с большой вероятностью достижимо увеличение точности автоматического преобразователя речи.
Как показано на фиг. 1, станции цифровой аудиозаписи могут оперативно соединяться с системой 100 в качестве части компьютерной сети 30 или, альтернативно, они могут оперативно соединяться с системой через интернетовский базовый компьютер 15. Как показано на фиг. 1б, компьютер общего назначения может быть соединён как с сетевым разъёмом 27, так и с телефонным разъёмом. С помощью интернетовского базового компьютера соединение может выполняться путём пересылки аудиофайла по сети интернет посредством электронной почты. Другой способ выполнения такого соединения заключается в прямом модемном соединении посредством такого программного обеспечения удалённого доступа, как РС Лпуетйеге, распространяемого компанией 8утап1ес Согрогайоп, Сирегйпо, СаШогта. Также возможно, если известен 1Р-адрес станции 10 цифровой аудиозаписи или интернетовского базового компьютера 15, передавать аудиофайл, используя базовый протокол передачи файлов. Таким образом, как видно из вышесказанного, настоящая система предоставляет речевым пользователям большую гибкость для обеспечения аудиоввода в систему.
Средство 200 управления управляет потоком данных файла речевого ввода на основании статуса обучения текущего речевого пользователя. Как показано на фиг. 2а, 2б, 2в, 2г, средство 200 управления содержит программу, выполняющуюся в компьютере 40 общего назначения. В частности, эта программа инициализируется на шаге 201, на котором назначаются переменные, очищаются буферы и загружается конкретная конфигурация для данной конкретной настройки средства управления. Средство управления постоянно отслеживает целевой каталог (такой как сштеп! - текущий (показан на фиг. 3)), чтобы определить, перемещён ли в текущий каталог новый файл, на шаге 202. Как только найден новый файл (такой как 6723.ίά (показан на фиг. 3)), на шаге 203 определяется, является ли текущий пользователь 5 (показан на фиг. 1) новым пользователем.
Для каждого нового пользователя (что указывается наличием файла .рго в подкаталоге сштеп!) заводится новый подкаталог, на шаге 204 (такой, как подкаталог шет (показан на фиг. 3)). Этот подкаталог используется для хранения всех аудиофайлов (хххх.'гау), письменных текстов (хххх.^г!), дословных текстов (хххх.уЬ), текстов транскрипций (хххх.1х1) и пользовательского профиля (шет.рго) для данного конкретного пользователя. Каждое отдельное задание получает уникальный номер хххх, такой, чтобы все файлы, связанные с этим заданием, могли ассоциироваться с дан ным номером. При такой структуре каталога количество пользователей практически ограничено только объёмом устройств хранения в компьютере 40 общего назначения.
Теперь, когда заведён пользовательский подкаталог, профиль пользователя перемещается в этот подкаталог, на шаге 205. Содержание этого пользовательского профиля может изменяться в зависимости от системы. Содержание потенциального пользовательского профиля показано на фиг. 3 так: имя пользователя, адрес, род занятий и статус обучения. Кроме переменной статуса обучения, которая является обязательной, остальные данные полезны при маршрутизации и транскрибировании аудиофайлов.
Средство управления, выбирающее одно множество файлов, определяет идентификацию текущего пользователя, сравнивая файл .ίά со своей таблицей шегТЫ, на шаге 206. Теперь, когда пользователь известен, профиль пользователя может быть выделен из подкаталога данного пользователя, и определяется текущий статус обучения, на шаге 207. Шаги 208 - 211 являются проверкой того, что текущий статус обучения является одним из следующих: регистрация, обучение, автоматизация и остановка автоматизации.
Регистрация является первой стадией автоматизации услуг записи речи. Как показано на фиг. 2б, на шаге 301 аудиофайл пересылается для записи речи. В частности, файл хххх.иау передаётся станциям 50 и 51 записи речи. В предпочтительном варианте выполнения обе этих станции являются компьютерами общего назначения, в которых запускаются как аудиоплеер, так и средство ручного ввода. Аудиоплеер может представлять собой цифровой аудиоплеер, хотя возможно передавать станциям и аналоговый аудиофайл. Различные аудиоплееры общедоступны, в том числе утилита операционной системы \νίηάο\ν5 9.x и различные прочие продукты независимых производителей, например, компании Т11е Ргодгаттега' Сопкогйит, 1пс., Оак1оп, Уйдина (УО1СЕ8СВ1ВЕ). Независимо от используемого для воспроизведения файла аудиоплеера одновременно в компьютере запускается средство ручного ввода. Это средство ручного ввода может содержать любой текстовый редактор или текстовый процессор (такой, как М8 Vо^ά, \Vо^άРе^Γесι. Аш1Рго или Vо^άРаά) в сочетании с клавиатурой, мышью или другим устройством пользовательского интерфейса. В одном из вариантов выполнения настоящего изобретения само это средство ручного ввода может представляет собой программное обеспечение распознавания речи, такое, как Νηΐιιπιΐΐν 8реакшд компании Эгадоп 8у8!еш5, №\\1оп. Маккасйшейк, У1аУо1се компании 1ВМ Согрогайоп, Агтопк, №\ν Уогк или 8реес11 Мадк компании РЫйрк Согрогайоп, А11ап1а, Сеогд1а. Оператор 6 записи речи прослушивает аудиофайл, созданный текущим пользо вателем 5, и, как известно, вручную вводит воспринятое содержание этого записанного текста, создавая таким образом файл записи речи на шаге 302. Оператор 6 записи речи, очевидно, применит к обработке текста свой опыт и образование и, таким образом, введёт не дословную транскрипцию аудиофайла. После завершения записи речи оператором оператор 6 сохраняет файл и указывает, что файл готов к передаче в текущий пользовательский подкаталог в виде хххх.Ш, на шаге 303.
Поскольку текущий пользователь находится только на стадии регистрации, оператор должен прослушивать аудиофайл и вручную сравнивать его с транскрибированным файлом, создавая дословный файл, на шаге 304. Этот дословный файл хххх.уЬ также передаётся в подкаталог текущего пользователя, на шаге 305. Теперь, когда доступен дословный текст, средство управления 200 запускает средство автоматического преобразования речи, на шаге 306. Это средство автоматического преобразования речи может представлять собой уже существующую программу, такую №Цига11у 8реакшд компании Эгадоп Зукктк, У1аУоке компании 1ВМ Согрогайоп, или 8реес11 Мадк компании РЫйрк. Альтернативно, оно может быть уникальной программой, разработанной специально для выполнения автоматизированного распознавания речи.
В предпочтительном варианте выполнения используется программа №1Ц1га11у 8реакшд компании Эгадоп ЗуЫепъ путём запуска одновременно с №-1Ц1га11у 8реакшд исполняемого файла, который вводит фантомные нажатия клавиш и действия мышью через VIN32АРI, так, что программа №Цига11у 8реакшд полагает, что взаимодействует с человеком, в то время как на самом деле управляется средством 200 управления. Такие методы общеизвестны в области тестирования компьютерного программного обеспечения и потому не обсуждаются подробно. Достаточно сказать, что путём наблюдения за работой приложения любой программы распознавания речи можно создать исполняемый файл, воспроизводящий интерактивные шаги процедуры обработки.
Если текущий пользователь является новым пользователем, программе распознавания речи потребуется установить нового пользователя на шаге 307. Средство управления обеспечивает необходимую информацию из профиля пользователя, найденного в подкаталоге текущего пользователя. Все программы распознавания речи требуют значительного обучения для установления акустической модели отдельного пользователя. В случае с Эгадоп, сначала программа изучает приблизительно 20 мин аудиозаписи, обычно получаемой в процессе чтения текста пользователем, выдаваемого программой Эгадоп ЗуЫепъ. В Эгадоп также встроена функция, обеспечивающая мобильное обучение. С помощью этого признака дословный файл и аудиофайл на шаге 308 вводятся в программу распознавания речи для обучения акустической модели данного пользователя. Независимо от длины данного аудиофайла, управляющее средство 200 управления на шаге 309 закрывает программу распознавания речи по окончании файла.
Поскольку на стадии регистрации ещё слишком рано использовать автоматически созданный текст, копия файла записи речи отправляется на шаге 310 текущему пользователю по адресу, который содержится в профиле пользователя. Этот адрес может быть почтовым адресом или адресом электронной почты. После этой отправки программа возвращается к главному циклу по фиг. 2а.
По истечении определенного времени обучения для отдельного пользователя статус обучения этого пользователя может быть заменен с регистрации на обучение. Граница этого перехода субъективна, но вполне хорошим правилом является следующее: если системе Эгадоп удаётся создавать письменный текст с точностью 80% и выше, можно изменить статус. Таким образом, для такого пользователя следующее событие процедуры записи речи переводит средство 200 управления в состояние обучения. Как показано на фиг. 2в, шаги 401-403 являются теми же шагами записи речи оператором, что и шаги 301-303 стадии регистрации. Когда установлен файл записи речи, средство управления запускает средство автоматического преобразования речи (или программу распознавания речи) и выбирает текущего пользователя, на шаге 404. Файл записи речи подаётся в программу распознавания речи, и на шаге 405 создаётся письменный текст в программном буфере. В случае с системой Эгадоп этому буферу присваивается тот же идентификатор файла в самом экземпляре программы. Таким образом, этот буфер можно легко скопировать с помощью стандартных команд операционной системы, и на шаге 406 можно начинать редактирование вручную.
В одном частном варианте выполнения, использующем систему νΟΙΟΕνΑΚΕ компании Т11С Ргодташтеге' Сопкойшш, 1пс., ОаПоп, νίΓβίηία. пользователь вводит аудиозапись в программу νΟΙΟΈΌΟΟ’ системы νΟΙΟΕνΑΚΕ, создавая тем самым файл .мам. Вдобавок, перед передачей этого файла .мам серверу νΟΙΟΕνΑΚΕ, пользователь выбирает транскрипциониста (оператора записи речи). Транскрипционистом может быть отдельный опреатор или автоматизированный транскрипционист. Если пользователь выбирает автоматизированного транскрипциониста, он может также выбрать, выполняется ли запись речи локально или на удалённой машине. Этому файлу сервер νΟΙΟΕνΑΚΕ присваивает номер задания и маршрутизирует задание в часть νΟΙΟΕδΟΚΙΒΕ системы. Обычно νΟΙΟΕδΟΚΙΒΕ используется оператором записи речи для приёма и воспроиз ведения аудиофайла задания (.мам). Кроме того, аудиофайл захватывается средством автоматического преобразования речи. В варианте выполнения с системой νΟΙΟΕνΑΚΕ путём перевода νΟΙΟΕδΟΚΙΒΕ в автоматический режим новые задания (т.е. аудиофайл, заново созданный системой νΟΙΟΈΌΟΟ) автоматически загружаются с сервера νΟΙΟΕνΑΚΕ, а окно νΟΙΟΕδΟΚΙΒΕ имеет заголовок окна, сформированный номером задания текущего файла .мау. Исполняемый файл, запущенный в фоновом режиме, воспринимает открытое окно νΟΙΟΕδΟΚΙΒΕ и с помощью νΙΝ32ΑΡΙ определяет номер задания из заголовка окна νΟΙΟΕδΟΚΙΒΕ. Затем исполняемый файл запускает средство автоматического преобразования речи. В Эгадоп δу8ΐет8 №Щ1га11м δρеак^ηд, например, существует встроенная функция для выполнения распознавания речи для уже существующего файла .мам. Исполняемая программа вводит фантомные нажатия клавиш в №Щ1га11м δρеак^ηд для открытия файла .мау из текущего каталога (см. фиг. 3), имеющего номер текущего задания.
В этом варианте выполнения, после того, как программа №т.1га11м δρеак^ηд завершила автоматическую запись содержания файла .мау, исполняемый файл возобновляет действие путём выделения всего текста в открытом окне №т.1га11м δρеак^ηд и копирования его в буфер обмена операционной системы V^ηάом8
9.x. Затем с помощью утилиты буфера обмена содержимое буфера обмена сохраняется как текстовый файл, используя номер текущего задания и расширение бш1. Затем исполняемый файл задействует кнопку завершить в νΟΙΟΕδΟΚΙΒΕ, чтобы возвратить файл бт! серверу νΟΙΟΕνΑΚΕ. Специалистам в данной области техники должно быть ясно, что предшествующая процедура может быть проведена с помощью другого программного обеспечения цифровой записи и другого средства автоматического преобразования речи. Кроме того, функция, аналогичная буферу обмена V^ηάом8, существует в других операционных системах. Также возможно участие оператора для активизации или подсказки для выполнения одного или нескольких вышеописанных шагов. Дополнительно, различные программы, выполняющие различные шаги, могут запускаться на нескольких соединённых друг с другом компьютерах (через локальную сеть, глобальную сеть, интернет, электронную почту и тому подобное), также предполагается, что все необходимое программное обеспечение может запускаться на одном компьютере.
Возможен еще один альтернативный подход, при котором пользователь надиктовывает непосредственно в средство автоматического преобразования речи, а сервер νΟΙΟΕνΑΚΕ снимает копию в обратном направлении. Этот подход работает следующим образом: без запи си голоса пользователь щелкает по кнопке завершить в νΟΙΟΈΌΘΟ’. создавая таким образом пустой файл ,\ν;·ιν. Этот пустой файл получает, тем не менее, уникальный номер задания от сервера νΟΙΟΕ^ΆΚΕ. Пользователь (или выполняющийся в фоновом режиме файл) затем запускает средство автоматического преобразования речи, и пользователь осуществляет речевой ввод непосредственно в программу, тем же способом, который ранее использовался в связи с таким средством автоматического преобразования речи. По завершении речевого ввода пользователь нажимает кнопку с надписью возврат (выработанную фоновым исполняемым файлом), затем исполняемый файл запускает макрос, который считывает текущий номер задания из νΟΙΟΕ^ΆΚΕ (вышеописанным способом), выделяет весь текст в документе и копирует его в буфер обмена. Затем содержимое буфера обмена сохраняется в файл <номер_задания>.бт1, как обсуждалось выше. Затем исполняемый файл щёлкает кнопку завершить (через №ΙΝ32ΆΡΙ) в νΟΙΟΕδΟΚΙΒΕ, что возвращает автоматически записанный текстовый файл обратно серверу νΟΙΟΕδΟΚΙΒΕ, который, в свою очередь, возвращает законченную запись речи пользователю νΟΙΤΈδΤ’ΚΙΒΕ. Отметим, однако, что различные программы, выполняющие различные шаги этого процесса, могут запускаться на нескольких соединённых друг с другом компьютерах (через локальную сеть, глобальную сеть, соединение интернет, электронную почту и тому подобное); также предполагается, что все необходимое программное обеспечение может запускаться на одном компьютере. Как будет понятно специалистам, предшествующая процедура может быть проведена с помощью другого программного обеспечения цифровой записи и другого средства автоматического преобразования речи. Дополнительно, функция, аналогичная буферу обмена ^ίηάονδ, существует и в других операционных системах. Также возможно участие оператора для активизации или подсказки для выполнения одного или нескольких вышеописанных шагов.
Редактирование вручную является непростой задачей, ввиду возможных ошибок оператора. Таким образом, настоящее изобретение также содержит средство для усовершенствования решения этой задачи. Как показано на фиг. 4, файл записи речи (3333.1x1) и копия письменного текста (3333.νΠ) последовательно сравниваются пословно 406а для установления последовательного списка несовпадающих слов 406б, которые отбираются из копии письменного текста. Этот список имеет начало и конец и указатель 406в на текущее несовпадающее слово. В основе последовательного списка находится ещё один список объектов, содержащий начальные несовпадающие слова, а также слова, стоящие непосредственно до и после каждого несовпадающего слова, начальное положение в памяти каждого несовпадающего слова в последовательном списке несовпадающих слов 406б и длину несовпадающего слова.
Как показано на фиг. 5, несовпадающее слово, отмеченное указателем 406в, из списка 406б высвечивается со значительным визуальным отличием от остального текста в копии письменного текста на стандартном компьютерном мониторе 500 в активном окне 501. Как показано на фиг. 5, контекст несовпадающего слова может выделяться оператором, чтобы показываться в предложении, в котором оно находится, пословно или в контексте фразы, посредством щелчков по клавишам 514, 515 и 516 соответственно.
С активным окном 501 связано фоновое окно 502, которое содержит копию письменного текста. Как показано в фоновом окне 502, пошаговый поиск находит (см. указатель 503) следующее появление текущего несовпадающего слова сакй. Одновременно с этим, в окне 505, содержащем буфер из программы распознавания речи, тот же пошаговый поиск находит (см. указатель 506) следующее появление текущего несовпадающего слова. Пользователь будет, просматривая активное окно 501, активировать аудиовоспроизведение из программы распознавания речи путем щелчка по кнопке 510 воспроизведение, которая воспроизводит аудиозапись, синхронизированную с текстом по указателю 506. На основании этого отрезка речи, который может воспроизводиться снова и снова посредством щелканья по кнопке воспроизведения, пользователь может вводить корректировку текущего несовпадающего слова вручную посредством клавиатуры, мыши или посредством аудиосигналов другой программы распознавания речи, запущенной в этом окне.
В настоящем примере, даже если кнопками 514, 515 и 516 обеспечен выбор изолированного контекста, всё ещё может быть сложно определить правильное дословное слово вне контекста. В связи с этим имеется кнопка 513 переключения окон, которая будет перемещать фоновое окно 502 на передний план с видимым указателем 503, отмечающим текущее положение в копии письменного текста. Пользователь может затем вернуться к активному окну и ввести правильное слово, 1га8Й. Это изменение будет воздействовать только на копию письменного текста, отображаемого в фоновом окне 502.
Когда оператор готов к обработке для следующего несовпадающего слова, оператор щёлкает по кнопке 511 продвижения вперёд, которая перемещает указатель 406в вниз по списку несовпадающих слов и активизирует пошаговый поиск в обоих окнах 502 и 505. Это несовпадающее слово теперь высвечивается изолированно, и оператор может воспроизводить синхронизированную речь из программы распозна вания речи, а также корректировать это слово. Если в любой момент работы оператор захочет вернуться к предыдущему несовпадающему слову, оператор щёлкает по кнопке 512 возвращения, которая перемещает указатель 406в на слово назад в списке и вызывает осуществление обратного пошагового поиска. Это реализуется с помощью соответствующего списка объектов, содержащего начальные несовпадающие слова. Этот список проходится объект за объектом, но альтернативно каждая запись может быть заполнена так, что каждый элемент имеет одну и ту же длину слова, что помогает при двунаправленном прохождении списка. Когда несовпадающие слова в этом списке считываются, можно только вернуться к начальному несовпадающему слову так, чтобы оператор мог определить, следует ли сделать иное исправление.
Наконец, копия письменного текста окончательно откорректирована, давая в результате дословную копию, которая сохраняется в пользовательском подкаталоге. Дословный файл также передается на шаге 407 программе распознавания речи для обучения. Новая (или усовершенствованная) акустическая модель сохраняется на шаге 408, и программа распознавания речи закрывается, на шаге 409. Если система всё ещё находится в процессе обучения, транскрибированный файл возвращается пользователю, как на шаге 310 фазы регистрации.
Как показано на фиг. 4, система может также содержать средство для определения степени точности на выходе средства последовательного сравнения. В частности, путём подсчёта количества слов в письменном тексте и количества слов в списке 406б можно определить отношение слов в упомянутом последовательном списке слов к словам в упомянутом письменном тексте, тем самым давая процент точности. Как и ранее, представляется возможность выбора, когда переводить пользователей с одной стадии на другую. Когда цель достигнута, профиль пользователя на шаге 211 меняется на следующую стадию.
Одно потенциальное улучшение производных функциональных возможностей обеспечивается определением процента точности. В одном из вариантов выполнения этот процент может использоваться для оценки навыков оператора, осуществляющего запись речи. В частности, с помощью либо известного дословного файла, либо хорошо определённого пользователя соответствующий файл .чау будет воспроизводиться для оператора, и будет выполняться вышеописанное сравнение текста записи речи с дословным файлом, созданным в предшествующем процессе. Таким способом настоящая система может обеспечивать дополнительную функциональную возможность.
В настоящее время производители программ распознавания речи используют записи на иностранных языках, речевые вводы и т.д. с полученными вручную дословными файлами для программирования моделей речи. Следует понимать, что вышеописанный способ получения дословного текста может использоваться при начальной разработке этих речевых файлов, сильно упрощая этот процесс.
Когда пользователь достиг стадии автоматизации, могут быть достигнуты наибольшие выгоды. Запускается программное обеспечение распознавания речи на шаге 600, и выбирается текущий пользователь, на шаге 601. По желанию может быть выбран частный словарь, на шаге 602. Затем может быть начато автоматическое преобразование записанного текущим пользователем цифрового аудиофайла на шаге
603. По завершении письменный файл передаётся пользователю на основании информации, содержащейся в профиле пользователя на шаге
604, и программа возвращается к основному циклу.
К сожалению, могут быть случаи, в которых пользователи, осуществляющие речевой ввод, не могут использовать автоматизированную запись речи в течение некоторого времени (во время болезни, после стоматологического лечения и т. д.) из-за того, что их акустическая модель временно (или даже навсегда) изменена. В этом случае администратор системы может присвоить переменной статуса обучения состояние остановки автоматизации, при котором выполняются только шаги 301, 302, 303, 305 и 310 (см. фиг. 2б).
Фиг. 6 показывает ещё одну возможную конфигурацию различных элементов, связанную с настоящим изобретением. При этой конфигурации, как и раньше, пользователь осуществляет речевой ввод документа, который он хотел бы иметь в письменном виде, который запоминается в виде файла 700 речевого ввода одним из вышеописанных способов. В данном выполнении - вместо оператора записи речи, составляющего файл записи речи - файл речевого ввода автоматически преобразуется в письменный текст по меньшей мере дважды.
После этого двойного автоматического преобразования текста полученные первый и второй файлы письменного текста сравниваются друг с другом с помощью средства ручного редактирования копии (как описано выше в связи с фиг. 4 и 5), помогающего оператору при быстром корректировании вручную второго письменного текстового файла.
Таким образом, предполагается, что услуга по транскрибированию может обеспечиваться с гораздо меньшими усилиями операторов записи речи. Ключ для получения достаточно точного письменного текста для доставки конечному пользователю состоит в обеспечении различия каким-либо образом преобразования речи в текст между первым и вторым запусками. В частности, между первым и вторым шагами преобразования система может изменить один или несколько из следующих элементов:
(1) программы распознавания речи (например, Ыа1ига11у 8реакшд компании Эгадоп 8у81ет8, У1а Уо1ее компании ΙΒΜ или Мад1с 8реес11 компании РЫйрз Сотротайоп);
(2) языковые модели в рамках отдельной программы распознавания речи (например, обычный английский язык вместо специализированного словаря (например, медицинский, юридический));
(3) настройки в рамках отдельной программы распознавания речи (например, наиболее точно вместо быстро); и/или (4) файл речевого ввода путем его препроцессинга цифровым процессором сигналов (таким, как Соо1 Εάίΐ компании 8уп1т1Шит Согрогабоп. Рйоешх, Апхопа или запрограммированный Э8Р56000 компании МоЮго1а, 1пс.) путём изменения размера цифрового слова, скорости опрашивания, удаления определённых гармонических диапазонов и прочих возможных модификаций.
Предполагается, что путём изменения одной или нескольких из вышеуказанных переменных преобразования второе преобразование речи в текст даст несколько иной письменный текст, чем первое преобразование речи в текст, и что путем сравнения двух полученных письменных текстов с помощью раскрытого здесь нового средства редактирования вручную оператор сможет выявить различия вышеописанным способом и быстро вырабатывать дословный текст для отправки конечному пользователю. Таким образом, предполагается, что полностью автоматическая запись речи может быть реализована с участием в меньшей степени человека, чем в других известных способах.
Эта система и лежащий в ее основе способ показаны на фиг. 6. Следует отметить, что хотя изображены два средства 702 и 703 автоматического преобразования речи, может иметься только одна копия программы распознавания речи, выполняющейся на одном компьютере, но с использованием различных переменных преобразования при разных итерациях преобразования файла речевого ввода. Разумеется, точно так же можно иметь несколько копий программы распознавания речи, выполняющихся на одном компьютере, или даже на разных компьютерах, соединённых в сеть (локальную сеть, глобальную сеть, одноранговую сеть или тому подобное), как известно специалистам.
Подобным же образом, хотя средство 705 редактирования вручную изображено отдельно от средства автоматизированного преобразования речи, оно также может быть реализовано на том же компьютере, что и один или оба экземпляра средства автоматического преобразования речи. Подобным же образом средство редактирования вручную может также быть реализовано на отдельном компьютере, также связанном с другими компьютерами компьютерной сетью.
Наконец, цифровой процессор 701 сигналов показан для иллюстрации того, что одним из подходов к изменению переменных преобразования является чередование ввода файла речевого ввода в один или оба экземпляра средства автоматического преобразования речи. Опять же, этот цифровой процессор сигналов может быть реализован на том же компьютере, что и любой из всех ранее описанных функциональных блоков, либо на отдельном компьютере, связанном с другими компьютерами через компьютерную сеть.
Предполагается, что ранее описанный случай, в котором используются две итерации преобразования речи в текст, может быть экстраполирован на случай, в котором выполняется ещё большее количество итераций преобразования, каждая из которых использует различные множества переменных преобразования, со сравнением текста, выполняемым между уникальными парами выходов письменного текста, а после этого - друг с другом, что даёт увеличение точности автоматической записи речи, оставляя меньшее количество слов для редактирования вручную.
Предшествующее описание и чертежи в основном поясняют и иллюстрируют изобретение, однако изобретение не ограничивается раскрытыми вариантами осуществления. Специалисты, на основе раскрытия изобретения, смогут осуществить модификации и вариации без изменения объёма настоящего изобретения. Например, можно реализовать все элементы настоящей системы на одном компьютере общего назначения посредством обязательного временного распределения ресурсов компьютера между речевым пользователем, оператором записи речи и программой распознавания речи. Полученная экономия затрат делает систему доступной для большего количества офисных применений, а не только для больших медицинских клиник, больниц, юридических фирм или других больших организаций.
Claims (24)
- ФОРМУЛА ИЗОБРЕТЕНИЯ1. Система для автоматизации услуг по записи речи для одного или нескольких речевых пользователей, содержащая средство для приема файла речевого ввода от текущего пользователя, причем упомянутый текущий пользователь является одним из упомянутых одного или нескольких речевых пользователей, первое средство для автоматического преобразования упомянутого файла речевого ввода в первый письменный текст, причем упомянутое первое средство автоматического преобразования имеет первое множество переменных преобразования, второе средство для автоматического преобразования упомянутого файла речевого ввода во второй письменный текст, причем упомянутое второе средство автоматического преобразования имеет второе множество переменных преобразования, а упомянутые первое и второе множества переменных преобразования имеют по меньшей мере одно отличие, и средство для редактирования вручную копии упомянутых первого и второго письменных текстов для создания дословного текста упомянутого файла речевого ввода.
- 2. Система по п.1, отличающаяся тем, что упомянутый первый письменный текст по меньшей мере временно синхронизируется с упомянутым файлом речевого ввода, а упомянутое средство редактирования вручную содержит средство для последовательного сравнения копии первого письменного текста со вторым письменным текстом для получения в результате последовательного списка несовпадающих слов, выведенного из упомянутой копии первого письменного текста, причём упомянутый последовательный список имеет начало, конец и текущее несовпадающее слово, а упомянутое текущее несовпадающее слово последовательно смещается от упомянутого начала к упомянутому концу, средство для пошагового поиска текущего несовпадающего слова одновременно в первом буфере, связанном с первым средством автоматического преобразования, содержащим первый письменный текст, и во втором буфере, связанном с упомянутым последовательным списком, и средство для коррекции текущего несовпадающего слова в упомянутом втором буфере, при этом упомянутое средство для коррекции содержит средство для высвечивания текущего несовпадающего слова так, чтобы оно визуально значительно отличалось от остального текста в копии упомянутого первого письменного текста, и средство для воспроизведения части упомянутой синхронизированной записи речевого ввода из первого буфера, связанного с текущим несовпадающим словом.
- 3. Система по п.2, отличающаяся тем, что упомянутое средство для редактирования содержит средство для поочередного просмотра текущего несовпадающего слова в контексте внутри упомянутой копии первого письменного текста.
- 4. Система по п.1, отличающаяся тем, что упомянутые первое и второе средства автоматического преобразования речи содержат, каждое, уже существующую программу распознавания речи, предназначенную для интерактивного использования пользователем, причём каждое из упомянутых первого и второго средств автоматического преобразования речи содержит средство для автоматических ответов на последовательность интерактивных запросов из упомянутой уже существующей программы распознавания речи.
- 5. Система по п.4, отличающаяся тем, что упомянутое различие между упомянутыми первым и вторым множествами переменных преобразования состоит в упомянутой программе распознавания речи, содержащей упомянутые первое и второе средства автоматического преобразования речи.
- 6. Система по п.5, отличающаяся тем, что упомянутое средство автоматического преобразования речи выбрано из группы, состоящей, по существу, из программ Ыа1ига11у 8реактд компании Эгауоп 8у81ет§, У1а Уо1се компании ΙΒΜ и Ма§1с 8реесй компании РЫНр8 Согрогайоп.
- 7. Система по п.4, отличающаяся тем, что упомянутое различие между упомянутыми первым и вторым множествами переменных преобразования состоит в языковой модели, используемой в связи с упомянутой уже существующей программой распознавания речи.
- 8. Система по п.7, отличающаяся тем, что в упомянутом первом множестве переменных преобразования используется обобщённая языковая модель, а в упомянутом втором множестве переменных преобразования используется специализированная языковая модель.
- 9. Система по п.4, отличающаяся тем, что упомянутое различие между упомянутыми первым и вторым множествами переменных преобразования состоит по меньшей мере в одной настройке, связанной с упомянутой уже существующей программой распознавания речи.
- 10. Система по п.4, отличающаяся тем, что упомянутое различие между упомянутыми первым и вторым множествами переменных преобразования состоит в средстве для предварительной обработки аудиозаписи до ее ввода в упомянутое первое средство автоматического преобразования.
- 11. Система по п.10, отличающаяся тем, что упомянутое различие между упомянутыми первым и вторым множествами переменных преобразования состоит в средстве для предварительной обработки аудиозаписи до ее ввода в упомянутое второе средство автоматического преобразования, причём упомянутые первая и вторая переменные предварительной обработки различны.
- 12. Система по п.11, отличающаяся тем, что упомянутые переменные предварительной обработки выбираются из группы, состоящей, по существу, из длины цифрового слова, частоты дискретизации и удаления отдельных гармонических диапазонов.
- 13. Система по п.1, отличающаяся тем, что упомянутое различие между упомянутыми первым и вторым множествами переменных преобразования состоит в языковой модели, используемой в связи с упомянутой уже существующей программой распознавания речи.
- 14. Система по п.13, отличающаяся тем, что в упомянутом первом множестве переменных преобразования используется обобщённая языковая модель, а в упомянутом втором множестве переменных преобразования используется специализированная языковая модель.
- 15. Система по п.1, отличающаяся тем, что упомянутое различие между упомянутыми первым и вторым множествами переменных преобразования состоит в средстве для предварительной обработки аудиозаписи до ее ввода в упомянутое первое средство автоматического преобразования.
- 16. Система по п.1, отличающаяся тем, что упомянутое различие между упомянутыми первым и вторым множествами переменных преобразования состоит в средстве для предварительной обработки аудиозаписи до ее ввода в упомянутое второе средство автоматического преобразования, причём упомянутые первая и вторая переменные предварительной обработки различны.
- 17. Система по п.1, отличающаяся тем, что дополнительно содержит средство для обучения упомянутого средства автоматического преобразования речи для достижения большей точности с помощью упомянутого файла речевого ввода текущего пользователя.
- 18. Система по п.17, отличающаяся тем, что упомянутое средство обучения содержит уже существующую обучающую часть уже существующей программы распознавания речи, предназначенной для интерактивного использования пользователем, упомянутое средство обучения содержит средство для автоматических ответов на последовательность интерактивных запросов из упомянутой уже существующей обучающей части упомянутой уже существующей программы распознавания речи.
- 19. Способ автоматизации услуг по записи речи для одного или нескольких речевых пользователей в системе, содержащей по меньшей мере одну программу распознавания речи, включающей следующие шаги:прием файла речевого ввода от текущего речевого пользователя, автоматическое формирование первого письменного текста из файла речевого ввода с помощью программы распознавания речи с помощью первого множества переменных преобразования, автоматическое формирование второго письменного текста из файла речевого ввода с помощью программы распознавания речи с помощью второго множества переменных преобразования, формирование вручную дословного файла посредством сравнения первого и второго письменных текстов, и возврат дословного файла текущему пользователю.
- 20. Способ по п.19, отличающийся тем, что шаг создания вручную дословного файла включает следующие подшаги:последовательное сравнение копии первого письменного текста со вторым письменным текстом для получения в результате последовательного списка несовпадающих слов из копии первого письменного текста, причём этот последовательный список имеет начало, конец и текущее несовпадающее слово, а текущее несовпадающее слово последовательно перемещается от начала к концу, пошаговый поиск текущего несовпадающего слова одновременно в первом буфере, связанном по меньшей мере с одной программой распознавания речи, содержащем первый письменный текст, и во втором буфере, связанном с последовательным списком, и отображение текущего несовпадающего слова так, чтобы оно визуально значительно отличалось от остального текста в копии первого письменного текста, и воспроизведение части синхронизированной записи речевого ввода из первого буфера, связанного с текущим несовпадающим словом, и исправление текущего несовпадающего слова так, чтобы оно представляло собой дословное воспроизведение части синхронизированной записи речевого ввода.
- 21. Способ по п.19, отличающийся тем, что дополнительно включает выбор первого множества переменных преобразования из доступных уже существующих программ распознавания речи, и отличающийся выбор второго множества переменных преобразования из доступных уже существующих программ распознавания речи.
- 22. Способ по п.19, отличающийся тем, что дополнительно включает выбор первого множества переменных преобразования из доступных языковых моделей, и отличающийся выбор второго множества переменных преобразования из доступных языковых моделей.
- 23. Способ по п.19, отличающийся тем, что дополнительно включает предварительную обработку файла речевого ввода до автоматического формирования первого письменного текста, причем посредством этой предварительной обработки формируют по меньшей мере часть первого множества переменных преобразования.
- 24. Способ по п.23, отличающийся тем, что дополнительно включает предварительную обработку файла речевого ввода, проводимую иначе, чем для первого множества переменных преобразования предварительной обработки, до автоматического формирования второго письменного текста, причем посредством этой предварительной обработки формируют, по меньшей мере, часть второго множества переменных преобразования.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12099799P | 1999-02-19 | 1999-02-19 | |
PCT/US2000/004210 WO2000049601A1 (en) | 1999-02-19 | 2000-02-18 | Automated transcription system and method using two speech converting instances and computer-assisted correction |
Publications (2)
Publication Number | Publication Date |
---|---|
EA200100901A1 EA200100901A1 (ru) | 2001-12-24 |
EA004352B1 true EA004352B1 (ru) | 2004-04-29 |
Family
ID=22393818
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
EA200100901A EA004352B1 (ru) | 1999-02-19 | 2000-02-18 | Система и способ автоматизированной записи речи с использованием двух экземпляров преобразования речи и автоматизированной коррекции |
Country Status (24)
Country | Link |
---|---|
EP (1) | EP1183680B1 (ru) |
JP (1) | JP4601177B2 (ru) |
KR (1) | KR20010102280A (ru) |
CN (1) | CN1144176C (ru) |
AP (1) | AP2001002243A0 (ru) |
AT (1) | ATE341810T1 (ru) |
AU (1) | AU3368900A (ru) |
BR (1) | BR0008346A (ru) |
CA (1) | CA2363561C (ru) |
CZ (1) | CZ299508B6 (ru) |
DE (1) | DE60031113T2 (ru) |
EA (1) | EA004352B1 (ru) |
ES (1) | ES2276674T3 (ru) |
HK (1) | HK1046186B (ru) |
IL (2) | IL144557A0 (ru) |
MX (1) | MXPA01008301A (ru) |
NO (1) | NO20014019L (ru) |
NZ (1) | NZ513571A (ru) |
PL (1) | PL349929A1 (ru) |
PT (1) | PT1183680E (ru) |
TR (1) | TR200102364T2 (ru) |
UA (1) | UA73495C2 (ru) |
WO (1) | WO2000049601A1 (ru) |
ZA (1) | ZA200106118B (ru) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2477518C2 (ru) * | 2007-04-26 | 2013-03-10 | Майкрософт Корпорейшн | Архитектура распознавания для генерации азиатских иероглифов |
Families Citing this family (119)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6603835B2 (en) | 1997-09-08 | 2003-08-05 | Ultratec, Inc. | System for text assisted telephony |
US7689416B1 (en) | 1999-09-29 | 2010-03-30 | Poirier Darrell A | System for transferring personalize matter from one computer to another |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US8416925B2 (en) | 2005-06-29 | 2013-04-09 | Ultratec, Inc. | Device independent text captioned telephone service |
WO2004109658A1 (ja) * | 2003-06-02 | 2004-12-16 | International Business Machines Corporation | 音声応答システム、音声応答方法、音声サーバ、音声ファイル処理方法、プログラム及び記録媒体 |
JP5230103B2 (ja) * | 2004-02-18 | 2013-07-10 | ニュアンス コミュニケーションズ,インコーポレイテッド | 自動音声認識器のためのトレーニングデータを生成する方法およびシステム |
US8515024B2 (en) | 2010-01-13 | 2013-08-20 | Ultratec, Inc. | Captioned telephone service |
US20060111917A1 (en) * | 2004-11-19 | 2006-05-25 | International Business Machines Corporation | Method and system for transcribing speech on demand using a trascription portlet |
US11258900B2 (en) | 2005-06-29 | 2022-02-22 | Ultratec, Inc. | Device independent text captioned telephone service |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
WO2010129714A2 (en) * | 2009-05-05 | 2010-11-11 | NoteVault, Inc. | System and method for multilingual transcription service with automated notification services |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
DE202011111062U1 (de) | 2010-01-25 | 2019-02-19 | Newvaluexchange Ltd. | Vorrichtung und System für eine Digitalkonversationsmanagementplattform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
CN102236645B (zh) * | 2010-05-06 | 2016-03-30 | 上海五和际软件信息有限公司 | 基于语义逻辑的类自然语言人机对话装置 |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
TWI488174B (zh) * | 2011-06-03 | 2015-06-11 | Apple Inc | 自動地建立文字資料與音訊資料間之映射 |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8930189B2 (en) * | 2011-10-28 | 2015-01-06 | Microsoft Corporation | Distributed user input to text generated by a speech to text transcription service |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
KR101922663B1 (ko) | 2013-06-09 | 2018-11-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
US10878721B2 (en) | 2014-02-28 | 2020-12-29 | Ultratec, Inc. | Semiautomated relay method and apparatus |
US20180270350A1 (en) | 2014-02-28 | 2018-09-20 | Ultratec, Inc. | Semiautomated relay method and apparatus |
US20180034961A1 (en) | 2014-02-28 | 2018-02-01 | Ultratec, Inc. | Semiautomated Relay Method and Apparatus |
US10389876B2 (en) | 2014-02-28 | 2019-08-20 | Ultratec, Inc. | Semiautomated relay method and apparatus |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
WO2015184186A1 (en) | 2014-05-30 | 2015-12-03 | Apple Inc. | Multi-command single utterance input method |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
CN105827417A (zh) * | 2016-05-31 | 2016-08-03 | 安徽声讯信息技术有限公司 | 一种用于会议记录并可随时修改的语音速记装置 |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
CN109949813A (zh) * | 2017-12-20 | 2019-06-28 | 北京君林科技股份有限公司 | 一种将语音转换为文字的方法、装置及系统 |
CN108573707B (zh) * | 2017-12-27 | 2020-11-03 | 北京金山云网络技术有限公司 | 一种语音识别结果的处理方法、装置、设备及介质 |
CN110471659B (zh) * | 2019-08-16 | 2023-07-21 | 珠海格力电器股份有限公司 | 多语言实现方法和系统、人机界面组态软件端和设备端 |
CN113077807B (zh) * | 2019-12-17 | 2023-02-28 | 北京搜狗科技发展有限公司 | 一种语音数据的处理方法、装置及电子设备 |
US11539900B2 (en) | 2020-02-21 | 2022-12-27 | Ultratec, Inc. | Caption modification and augmentation systems and methods for use by hearing assisted user |
CN113808576A (zh) * | 2020-06-16 | 2021-12-17 | 阿里巴巴集团控股有限公司 | 语音转换方法、装置及计算机系统 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4430726A (en) * | 1981-06-18 | 1984-02-07 | Bell Telephone Laboratories, Incorporated | Dictation/transcription method and arrangement |
JPS6191700A (ja) * | 1984-10-11 | 1986-05-09 | 株式会社日立製作所 | 音声入力装置 |
JP2647234B2 (ja) * | 1990-06-14 | 1997-08-27 | シャープ株式会社 | 音声認識装置 |
IT1256823B (it) * | 1992-05-14 | 1995-12-21 | Olivetti & Co Spa | Calcolatore portatile con annotazioni verbali. |
ZA948426B (en) * | 1993-12-22 | 1995-06-30 | Qualcomm Inc | Distributed voice recognition system |
JPH07152787A (ja) * | 1994-01-13 | 1995-06-16 | Sony Corp | 情報アクセスシステムおよび記録媒体 |
JP2655086B2 (ja) * | 1994-06-21 | 1997-09-17 | 日本電気株式会社 | 電話回線音声入力システム |
DE19530663C2 (de) * | 1995-08-21 | 2001-05-03 | Inova Gmbh Tech Entwicklungen | Höhenversteller für einen Fahrzeugsicherheitsgurt |
GB2302199B (en) * | 1996-09-24 | 1997-05-14 | Allvoice Computing Plc | Data processing method and apparatus |
US5875448A (en) * | 1996-10-08 | 1999-02-23 | Boys; Donald R. | Data stream editing system including a hand-held voice-editing apparatus having a position-finding enunciator |
US6122613A (en) * | 1997-01-30 | 2000-09-19 | Dragon Systems, Inc. | Speech recognition using multiple recognizers (selectively) applied to the same input sample |
US5995936A (en) * | 1997-02-04 | 1999-11-30 | Brais; Louis | Report generation system and method for capturing prose, audio, and video by voice command and automatically linking sound and image to formatted text locations |
GB2323693B (en) * | 1997-03-27 | 2001-09-26 | Forum Technology Ltd | Speech to text conversion |
JPH10282990A (ja) * | 1997-04-04 | 1998-10-23 | Sony Corp | テキスト入力方法及び装置 |
-
2000
- 2000-02-18 EP EP00911864A patent/EP1183680B1/en not_active Expired - Lifetime
- 2000-02-18 AT AT00911864T patent/ATE341810T1/de not_active IP Right Cessation
- 2000-02-18 AP APAP/P/2001/002243A patent/AP2001002243A0/en unknown
- 2000-02-18 PL PL00349929A patent/PL349929A1/xx not_active Application Discontinuation
- 2000-02-18 BR BR0008346-1A patent/BR0008346A/pt not_active IP Right Cessation
- 2000-02-18 JP JP2000600262A patent/JP4601177B2/ja not_active Expired - Fee Related
- 2000-02-18 ES ES00911864T patent/ES2276674T3/es not_active Expired - Lifetime
- 2000-02-18 AU AU33689/00A patent/AU3368900A/en not_active Abandoned
- 2000-02-18 EA EA200100901A patent/EA004352B1/ru not_active IP Right Cessation
- 2000-02-18 PT PT00911864T patent/PT1183680E/pt unknown
- 2000-02-18 IL IL14455700A patent/IL144557A0/xx active IP Right Grant
- 2000-02-18 DE DE60031113T patent/DE60031113T2/de not_active Expired - Fee Related
- 2000-02-18 CA CA002363561A patent/CA2363561C/en not_active Expired - Fee Related
- 2000-02-18 KR KR1020017010591A patent/KR20010102280A/ko active IP Right Grant
- 2000-02-18 NZ NZ513571A patent/NZ513571A/xx unknown
- 2000-02-18 TR TR2001/02364T patent/TR200102364T2/xx unknown
- 2000-02-18 CZ CZ20012936A patent/CZ299508B6/cs not_active IP Right Cessation
- 2000-02-18 MX MXPA01008301A patent/MXPA01008301A/es active IP Right Grant
- 2000-02-18 WO PCT/US2000/004210 patent/WO2000049601A1/en active IP Right Grant
- 2000-02-18 CN CNB008039712A patent/CN1144176C/zh not_active Expired - Fee Related
- 2000-02-18 UA UA2001096424A patent/UA73495C2/uk unknown
-
2001
- 2001-07-25 ZA ZA200106118A patent/ZA200106118B/en unknown
- 2001-07-25 IL IL144557A patent/IL144557A/en not_active IP Right Cessation
- 2001-08-17 NO NO20014019A patent/NO20014019L/no not_active Application Discontinuation
-
2002
- 2002-09-06 HK HK02106586.5A patent/HK1046186B/zh not_active IP Right Cessation
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2477518C2 (ru) * | 2007-04-26 | 2013-03-10 | Майкрософт Корпорейшн | Архитектура распознавания для генерации азиатских иероглифов |
Also Published As
Publication number | Publication date |
---|---|
EP1183680B1 (en) | 2006-10-04 |
JP2002542501A (ja) | 2002-12-10 |
CA2363561A1 (en) | 2000-08-24 |
DE60031113D1 (de) | 2006-11-16 |
MXPA01008301A (es) | 2002-06-04 |
AU3368900A (en) | 2000-09-04 |
UA73495C2 (en) | 2005-08-15 |
ES2276674T3 (es) | 2007-07-01 |
IL144557A (en) | 2006-04-10 |
NO20014019D0 (no) | 2001-08-17 |
DE60031113T2 (de) | 2007-05-10 |
IL144557A0 (en) | 2002-05-23 |
CN1341255A (zh) | 2002-03-20 |
PT1183680E (pt) | 2007-01-31 |
HK1046186B (zh) | 2008-05-09 |
CZ299508B6 (cs) | 2008-08-20 |
PL349929A1 (en) | 2002-10-21 |
EP1183680A1 (en) | 2002-03-06 |
WO2000049601A1 (en) | 2000-08-24 |
EA200100901A1 (ru) | 2001-12-24 |
KR20010102280A (ko) | 2001-11-15 |
JP4601177B2 (ja) | 2010-12-22 |
TR200102364T2 (tr) | 2002-06-21 |
NZ513571A (en) | 2004-01-30 |
EP1183680A4 (en) | 2002-04-17 |
CN1144176C (zh) | 2004-03-31 |
BR0008346A (pt) | 2002-01-29 |
AP2001002243A0 (en) | 2001-09-30 |
CZ20012936A3 (cs) | 2002-02-13 |
CA2363561C (en) | 2009-08-18 |
HK1046186A1 (en) | 2002-12-27 |
ZA200106118B (en) | 2003-01-15 |
ATE341810T1 (de) | 2006-10-15 |
NO20014019L (no) | 2001-10-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EA004352B1 (ru) | Система и способ автоматизированной записи речи с использованием двух экземпляров преобразования речи и автоматизированной коррекции | |
US6122614A (en) | System and method for automating transcription services | |
US6961699B1 (en) | Automated transcription system and method using two speech converting instances and computer-assisted correction | |
US7006967B1 (en) | System and method for automating transcription services | |
US6366882B1 (en) | Apparatus for converting speech to text | |
US6052441A (en) | Voice response service apparatus | |
KR101213835B1 (ko) | 음성 인식에 있어서 동사 에러 복원 | |
Gibbon et al. | Spoken language system and corpus design | |
CA2362462A1 (en) | System and method for automating transcription services | |
CN110956020B (zh) | 呈现校正候选的方法、存储介质和信息处理设备 | |
JP3936351B2 (ja) | 音声応答サービス装置 | |
JP7176272B2 (ja) | 情報処理装置およびプログラム | |
JP2005509906A (ja) | 所定ウィンドウにてテキストを編集する装置 | |
AU2004233462B2 (en) | Automated transcription system and method using two speech converting instances and computer-assisted correction | |
GB2390930A (en) | Foreign language speech recognition | |
US20050125236A1 (en) | Automatic capture of intonation cues in audio segments for speech applications | |
JP3760420B2 (ja) | 音声応答サービス装置 | |
CN110955401B (zh) | 声音回放区间控制方法、计算机可读存储介质和信息处理装置 | |
WO2021205832A1 (ja) | 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム | |
JP2024027395A (ja) | 辞書登録プログラム、辞書登録方法及び情報処理装置 | |
CN114242036A (zh) | 角色配音方法、装置、存储介质及电子设备 | |
Gibbon et al. | Spoken Language Reference Materials |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | Lapse of a eurasian patent due to non-payment of renewal fees within the time limit in the following designated state(s) |
Designated state(s): AM AZ BY KZ KG MD TJ TM |