ES2394726T3 - Extracción automática de contenido semántico y generación de un documento estructurado a partir del habla - Google Patents

Extracción automática de contenido semántico y generación de un documento estructurado a partir del habla Download PDF

Info

Publication number
ES2394726T3
ES2394726T3 ES05789851T ES05789851T ES2394726T3 ES 2394726 T3 ES2394726 T3 ES 2394726T3 ES 05789851 T ES05789851 T ES 05789851T ES 05789851 T ES05789851 T ES 05789851T ES 2394726 T3 ES2394726 T3 ES 2394726T3
Authority
ES
Spain
Prior art keywords
document
linguistic
audio stream
structured
linguistic model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES05789851T
Other languages
English (en)
Inventor
Juergen Fritsch
Michael Finke
Detlef Koll
Monika Woszczyna
Girija Yegnanarayanan
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
MULTIMODAL TECHNOLOGIES Inc
MULTIMODAL TECHNOLOGIES LLC
Original Assignee
MULTIMODAL TECHNOLOGIES Inc
MULTIMODAL TECHNOLOGIES LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by MULTIMODAL TECHNOLOGIES Inc, MULTIMODAL TECHNOLOGIES LLC filed Critical MULTIMODAL TECHNOLOGIES Inc
Application granted granted Critical
Publication of ES2394726T3 publication Critical patent/ES2394726T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H15/00ICT specially adapted for medical reports, e.g. generation or transmission thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

Un procedimiento que comprende las etapas:(A) identificar un modelo lingüístico probabilista que incluye una pluralidad de modelos lingüísticos probabilistasasociada a una pluralidad de subestructuras de un documentos; y(B) utilizar un descodificador de reconocimiento de habla para aplicar el modelo lingüístico 5 probabilista a un flujo deaudio hablado para producir un documento que incluye contenido organizado en la pluralidad desubestructuras, en el cual el contenido en cada una de la pluralidad de subestructuras es producidoreconociendo el habla usando la subestructura, en el cual la pluralidad de modelos lingüísticos probabilistasestán organizados en una jerarquía, y en el cual la etapa (B) comprende las etapas de:(B)(1) identificar una trayectoria a través de la jerarquía, que comprende las etapas de:(B)(1)(a) identificar una pluralidad de trayectoria a través de la jerarquía(B)(1)(b) para cada una de la pluralidad de trayectorias P, producir un documento estructuradocandidato para el flujo de audio hablado usando el descodificador de reconocimiento de habla parareconocer el flujo de audio hablado usando los modelos lingüísticos en la trayectoria P;B(1)© aplicar una medición a la pluralidad de documentos estructurados candidatos producidos en laetapa (B)(1)(b) para producir una pluralidad de puntuaciones de pertinencia para la pluralidad dedocumentos estructurados candidatos; y(B)(1)(d) seleccionar la trayectoria que produce los documentos estructurados candidatos que tienenla mayor puntuación pertinente;(B)(2) generar el documento que tiene una estructura que corresponde a la trayectoria identificada en la etapa(B)(1).

Description

Extracción automática de contenido semántico y generación de un documento estructurado a partir del habla
Referencia cruzada a solicitudes relacionadas
Esta solicitud está relacionada con la Solicitud de patente de los Estados Unidos titulada “Documento Transcription System Training”.
Antecedentes
Campo de la invención
La presente invención se refiere al reconocimiento automático del habla, y más en particular, a técnicas para transcribir automáticamente el habla.
Técnica relacionada
Es deseable en muchos contextos generar un documento escrito basado en el habla humana. En la profesión legal, por ejemplo, los transcriptores transcriben testimonios dados en procedimientos judiciales y en declaraciones para producir una transcripción escrita del testimonio. Asimismo, en la profesión médica, se producen transcripciones de diagnósticos, pronósticos, prescripciones y otras informaciones dictadas por los médicos y otros profesionales médicos. Las transcripciones en estos y otros campos necesitan típicamente ser muy precisas (medidas en términos de grado de correspondencia entre el contenido semántico (significado) del discurso original y el contenido semántico de la transcripción resultante) debido a la confianza puesta en las transcripciones resultantes y el perjuicio que podría causar una imprecisión (tal como proporcionar una prescripción de fármaco incorrecta a un paciente). Los altos grados de fiabilidad pueden, sin embargo ser difíciles de obtenerse de manera consistente por varias razones, tales como las variaciones en : (1) las características de los hablantes cuyo habla es transcrito (por ejemplo, acento, volumen, dialecto, velocidad); (2) condiciones externas (por ejemplo, ruido de fondo); (3) el transcriptor o el sistema de transcripción (por ejemplo capacidades de escucha o captura de audio imperfectas, comprensión imperfecta del lenguaje); o (4) medio de grabación/transmisión (por ejemplo, papel, cinta de audio analógica, red telefónica analógica, algoritmos de compresión aplicados en redes telefónicas digitales, y ruidos/artefactos debidos a los canales de teléfonos celulares).
En un primer momento la transcripción solo se realizaba por transcriptores humanos que escuchaban el habla, el discurso, bien entiempo real (por ejemplo, en persona “tomando dictado”) o escuchando una grabación. Una ventaja de los transcriptores humanos es que pueden tener un conocimiento específico de un campo, tal como el conocimiento de la medicina y la terminología médica, lo cual les permite interpretar ambigüedades en el discurso y por lo tanto mejorar la precisión de la transcripción. Los transcriptores humanos, sin embargo, tienen varios inconvenientes. Por ejemplo, los transcriptores humanos producen transcripciones a una velocidad relativamente lenta y su precisión se va reduciendo a lo largo del tiempo como consecuencia del cansancio.
Existen varios sistemas de reconocimiento automático del habla para reconocer el habla humano generalmente y para transcribir el habla en particular. Los sistemas de reconocimiento de habla que crean transcripciones son denominados “sistemas de transcripción automatizados” o “sistemas de dictado automatizados”. El software de disco listo para usar, por ejemplo, puede ser usado por los usuarios de un ordenador personal para dictar documentos en un procesador de texto como alternativa a escribir tales documentos usando un teclado.
Los sistemas de dictado automatizados intentan típicamente producir una transcripción del discurso palabra a palabra. Tal transcripción, en la cual hay una correspondencia unívoca entre las palabras en el flujo de audio hablado y las palabras en la transcripción, se denomina en el presente documento “transcripción literal”. Los sistemas de dictado automatizados no son perfectos y por lo tanto pueden fallar al producir transcripciones literalmente perfectas.
En algunas circunstancias, sin embargo, una transcripción literal no es deseable. De hecho, los transcriptores pueden intencionalmente introducir varios cambios en la transcripción escrita. Una transcripción puede, por ejemplo, filtrar efectos espontáneos del habla (por ejemplo expresiones de pausa, vacilaciones, comienzos falsos), descartar observaciones y comentarios irrelevantes, convertir datos en un formato estándar, insertar encabezamientos u otros materiales explicativos, o cambiar la secuencia del discurso para ajustar la estructura de un informe escrito.
En el campo médico, por ejemplo, los informes hablados producidos por los médicos se transcriben a menudo en informes escritos con formatos estándar. Por ejemplo con referencia a la figura 1B, se muestra un ejemplo de un informe médico estructurado y formateado 111. El informe 111 incluye una variedad de secciones 112-138 que aparecen en una secuencia predeterminada cuando se visualiza el informe 111. En el ejemplo particular mostrado en la figura 1B, el informe incluye una sección de encabezado 112, una sección subjetiva 122, una sección objetiva 134, una sección de evaluación 136, y una sección de plan 138. Las secciones pueden incluir texto así como subsecciones. Por ejemplo, la sección de encabezado 112 incluye una sección de nombre de hospital 120 (que contiene el texto “Hospital General”), una sección de nombre de paciente 114 (que contiene el texto “Jane DOE”, una sección de número de tarjeta 116 (que contiene el texto “851D”), y una sección de fecha de informe 118 (que contiene el texto (10/1/1993”).
Asimismo, la sección subjetiva 122 incluye varias informaciones subjetivas acerca del paciente, incluidas tanto en el texto como en una sección de historial médico 124, una sección de medicaciones 126, una sección de alergias 128, una sección de historial familiar 130, y una sección de historial social 132. La sección objetiva 134 incluye varias informaciones objetivas. Aunque no se ilustra en la figura 1B, la información en la sección objetiva puede incluir subsecciones que contienen la información ilustrada. La sección de evaluación 136 incluye una evaluación textual de la condición del paciente, y la subsección de plan 138 incluye una descripción textual de un plan de tratamiento.
Cabe resaltar que la información puede aparece en una forma diferente en el informe 111 de la forma en que tal información fue dictada por el médico. Por ejemplo la fecha en la sección de fecha de informe 118 puede haber sido dicha como “octubre, uno de 1993” “primero de octubre de 1993” o d otra forma. El transcriptor, sin embargo, transcribió tal discurso usando el texto “10/1/1993) en la sección de fecha de informe 118, quizás porque e hospital especificado en la sección de hospital 120 requiere que las fechas se expresen en los informes escritos con tal formato.
Asimismo, la información en la informe médico 111 puede no aparecer en la misma secuencia que en la grabación de audio original, debido a la necesidad de conformarse a un formato de informe requerido o por algún otro motivo. Por ejemplo, el médico que dicta puede haber dictado en primer lugar la sección objetiva 134, seguida de la sección subjetiva 122, y a continuación el encabezado 120. El informe escrito 111, sin embargo, contiene el encabezado 120 en primer lugar, seguido de la sección subjetiva 122 y a continuación la sección objetiva 134. Tal estructura de informe puede, por ejemplo, ser necesaria para los informes médicos en el hospital especificado en la sección de hospital 120.
El principio del informe 111 puede haber sido generado basándose en un flujo de audio hablado tal como el siguiente: “El doctor Smith uh el primero de octubre um de 1993, identidad del paciente ochentaicinco uno d um a continuación se encuentra el historial familiar del paciente que he revisado ….” Debería ser evidente que una transcripción literal de este discurso sería difícil de entender y no sería particularmente útil.
Cabe resaltar por ejemplo que algunas palabras, tales como “ a continuación se encuentra un” no aparecen en el informe escrito 111. Asimismo, la expresión que marca pausa como “uh” no aparece en el informe escrito 111. Además, el informe escrito 111 organiza el discurso original en las secciones predefinidas 112-140 reordenando el discurso. Como lo ilustran estos ejemplos, el informe escrito 111 no es una transcripción literal del discurso de médico que dicta.
En resumen, un informe tal como el informe 111 puede ser más deseable que una transcripción literal por varios motivos (por ejemplo, porque organiza la información de tal manera que facilita la comprensión). Por lo tanto sería deseable que un sistema de transcripción automática fuese capaz de generar un informe estructurado (en lugar de una transcripción literal) basándose en el discurso sin estructurar.
Con referencia a la figura 1A, se muestra un diagrama de flujo de datos de un sistema de la técnica anterior 100 para generar un documento estructurado 110 basado en un flujo de audio hablado 102. Tal sistema produce el documento de texto estructurado 110 a partir del flujo de audio hablado 102 usando un procedimiento en dos etapas: (1) un reconocedor de habla automático 104 genera una transcripción literal 106 basada en el flujo de audio hablado 102; y (2) un procesador de lenguaje natural 108 identifica la estructura en la transcripción 106 y de este modo crea el documento estructurado 110, que tiene el mismo contenido que la transcripción106, pero que está organizado dentro de la estructura (por ejemplo formato de informe) identificada por el procesador de lenguaje natural 108.
Por ejemplo, algunos sistemas existentes intentan generar documentos de texto estructurados ; (1) analizando eflujo de audio hablado 102 para identificar y distinguir el contenido hablado en el flujo de audio 102 de pistas estructurales explícitas o implícitas en el flujo de audio 102; (2) convirtiendo las porciones de “contenido” del flujo de audio hablado 102 en texto en bruto; y (3) usando las pistas estructurales identificadas para convertir el texto en bruto en el informe estructurado 110. Ejemplos de pistas estructurales explícitas incluyen instrucciones de formato (por ejemplo, “párrafo nuevo”, “línea nueva”, “siguiente punto”) e identificadores de párrafos (por ejemplo “constataciones”, impresiones” conclusiones” ). Ejemplos de pistas estructurales implícitas incluyen pausas largas que pueden indicar límites de párrafo, indicios prosódicos que indican el fin de una enumeración, y el propio contenido hablado.
Por varios motivos descritos más en detalle en lo sucesivo, el documento estructurado 110 producido por el sistema 100 puede que no sea óptimo. Por ejemplo, el documento estructurado 110 puede contener palabras incorrectamente transcritas (por ejemplo mal reconocidas),la estructura del documento estructurado 110 puede fallar en reflejar la estructura deseada del documento, y el contenido del flujo de audio hablado 102 puede ser insertado en las subestructuras incorrectas (por ejemplo, secciones, párrafos o frases) en el documento estructurado.
Asimismo, además de o en lugar de generar el documento estructurado 110 basado en el flujo de audio hablado 102, puede ser deseable extraer el contenido semántico (tal como información acerca de medicaciones, alergias o enfermedades previas del paciente descritas en el flujo de audio 102) del flujo de audio hablado 102. Aunque tal contenido semántico puede ser útil para generar el documento estructurado 110, tal contenido puede también ser útil para otros fines, tales como popularizar una base de datos de información de paciente que se puede analizar independientemente del documento 110. Los sistemas de la técnica anterior tal como el sistema 100 mostrado en la figura 1, sin embargo, están típicamente destinados a generar el documento estructurado 110 basándose principalmente
o solo en información sintáctica en el flujo de audio hablado 102. Tales sistemas no son, por lo tanto, útiles para extraer contenido semántico.
Lo que se necesita es sin embargo, técnicas mejoradas para generar documentos estructurados basados en flujos de audio hablados.
El documento US 2002/0123891 divulga un procedimiento de conversión de habla en texto usando una jerarquía de modelos contextuales. En el procedimiento divulgado, el modelo contextual que refleja más precisamente una o más expresiones habladas de usuario se usa para convertir el discurso en texto. El preámbulo de las reivindicaciones independientes anexas al presente documento se basa en este documento.
Sumario
Se divulgan técnicas para generar automáticamente documentos estructurados basados en el habla, incluyendo identificación de conceptos relevantes y su interpretación. En una realización, un generador de documento estructurado usa un procedimiento integrado para generar un documento de texto estructurado (tal como un informe médico de texto estructurado) basado en un flujo de audio hablado. El flujo de audio hablado puede ser reconocido usando un modelo lingüístico que incluye una pluralidad de submodelos dispuestos en una estructura jerárquica. Cada uno de los submodelos puede corresponder a un concepto que está previsto que aparezca en el flujo de audio hablado. Por ejemplo, los submodelos pueden corresponder a secciones de documento. Los submodelos pueden, por ejemplo, ser modelos lingüísticos de n-gramas o gramáticas sin contexto. Diferentes porciones del flujo de audio hablado pueden ser reconocidas usando diferentes submodelos. El documento de texto estructurado resultante puede tener una estructura jerárquica que corresponde a la estructura jerárquica de los submodelos lingüísticos que se usaron para generar el documento de texto estructurado.
Por ejemplo, en un aspecto de la presente invención, se proporciona un procedimiento de acuerdo con la reivindicación independiente 1.
Otras características y ventajas de varios aspectos y realizaciones de la presente invención se pondrán de manifiesto a partir de la siguiente descripción y de las reivindicaciones.
Breve descripción de los dibujos
La figura 1A es un diagrama de de flujo de datos de un sistema de la técnica anterior para generar un documento estructurado basado en un flujo de audio hablado; La figura 1B ilustra un informe médico de texto generado basado en un informe hablado; La figura 2 es un diagrama de flujo de un procedimiento que se ejecuta en una realización de la presente invención para generar un documento de texto estructurado basado en un documento hablado; La figura 3 es un diagrama de flujo de datos de un sistema que lleva a cabo el procedimiento de la figura 2 en una realización de la presente invención; La figura 4 ilustra un ejemplo de de un flujo de audio hablado en una realización de la presente invención; La figura 5 ilustra un documento de texto estructurado de acuerdo con una realización de la presente invención; La figura 6 es un ejemplo de un documento presentado que es presentado basado en el documento de texto estructurado de la figura 5 de acuerdo con una realización de la presente invención La figura 7 es un diagrama de flujo de un procedimiento que es ejecutado por el generador de documento estructurado de la figura 3 en una realización de la presente invención para generar un documento de texto estructurado. La figura 8 es un diagrama de flujo de datos que ilustra una porción del sistema de la figura 3 en detalle relacionado con el procedimiento de la figura 7 de acuerdo con una realización de la presente invención. La figura 9 es un diagrama que ilustra correspondencias entre modelos de lenguaje, subestructuras de documento que corresponden a los modelos de lenguaje, y contenidos candidatos producidos usando los modelos lingüísticos de acuerdo con una realización de la presente invención; La figura 10A es un diagrama que ilustra un modelo lingüístico jerárquico de acuerdo con una realización de la presente invención; La figura 10B es un diagrama que ilustra una trayectoria a través del modelo lingüístico jerárquico de la figura 10A de acuerdo con una realización de la presente invención; La figura 10C es un diagrama que ilustra un modelo lingüístico jerárquico de acuerdo con una realización de la presente invención; La figura 11A es un diagrama de flujo de un procedimiento que es ejecutado por el generador de documento estructurado de la figura 3 para generar un documento de texto estructurado de acuerdo con una realización de la presente invención; La figura 11B es un diagrama de flujo de un procedimiento que usa un proceso integrado para seleccionar una trayectoria a través de un modelo lingüístico jerárquico y para generar un documento de texto estructurado basado en el habla de acuerdo con una realización de la presente invención; Las figuras 11C-11D son diagramas de flujo de procedimientos que son ejecutados en una realización de la presente invención para calcular una puntuación de pertinencia para un documento candidato; La figura 12A es un diagrama de flujo de datos que ilustra una porción del sistema de la figura 3 en detalle relacionado con el procedimiento de la figura 11A de acuerdo con una realización de la presente invención.
La figura 12B es un diagrama de flujo de datos que ilustra una realización del generador de documento estructurado de la figura 3 que lleva a cabo el procedimiento de la figura 11B en una realización de la presente invención. La figura 13 es un diagrama de flujo de un procedimiento que es usado en una realización de la presente invención para generar un modelo lingüístico jerárquico para su uso en la generación de documentos de texto estructurados. La figura 14 es un diagrama de flujo de un procedimiento que es usado en una realización de la presente invención para generar un documento de texto estructurado que usa distintas etapas de reconocimiento de habla y análisis estructural; y La figura 15 es un diagrama de flujo de un sistema que aplica el procedimiento de la figura 14 de acuerdo con una realización de la presente invención.
Descripción detallada
Con referencia a la figura 2, se muestra un diagrama de flujo de un procedimiento 200 que es aplicado en una realización de la presente invención para generar un documento de texto estructurado basado en un documento hablado. Con referencia a la figura 3, se muestra un diagrama de flujo de datos de un sistema 300 para aplicar el procedimiento 200 de la figura 2 de acuerdo con una realización de la presente invención.
El sistema 300 incluye un flujo de audio hablado 302, que puede, por ejemplo, ser un flujo de audio hablado en directo o grabado de un informe médico dictado por un médico. Con referencia a la figura 4, se muestra una representación de texto de un ejemplo del flujo de audio hablado 302. En la figura 4, el texto entre los signos porcentuales representa la puntuación hablada (por ejemplo “%coma%”, “%punto%”, y “%dos puntos%”) indicios estructurales explícitos (por ejemplo “%nuevo párrafo%”) en el flujo de audio 302. Se puede observar a partir del flujo de audio 302 ilustrado en la figura 4 que una transcripción literal del flujo de audio 302 no sería particularmente útil con el fin de entender el diagnóstico, pronóstico u otra información contenida en el informe médico representado por el flujo de audio 302.
El sistema 300 incluye asimismo un modelo lingüístico probabilista 304. El término “modelo lingüístico probabilista” usado en el presente documento se refiere a cualquier modelo lingüístico que asigna probabilidades a las secuencias de palabras habladas. Las gramáticas libres de contexto (probabilista) y los modelos lingüísticos de n-gramas 306a-e son ambos ejemplos de “modelos lingüísticos probabilista” tal como se usa este término en el presente documento.
En general, una gramática libre de contexto especifica una pluralidad de formas habladas para un concepto y asocia probabilidades a cada una de las formas habladas. Una gramática de estado finito es un ejemplo de una gramática sin contexto. Por ejemplo, una gramática de estado finito para la fecha del 1 de octubre 1993, puede incluir la forma hablada de octubre primero de 1993” con una probabilidad de 0,7, la forma hablada diez noventa y tres” con una probabilidad de 0,2 y la forma hablada “primer de octubre noventa y tres” con una probabilidad del 0,1. La probabilidad asociada a cada forma hablada es una probabilidad estimada de que el concepto será hablado en esa forma hablada en un flujo de audio particular. Una gramática de estado finito, es por lo tanto, un tipo de modelo lingüístico probabilista.
En general, un modelo lingüístico de n-grama especifica la probabilidad de que se produzca una secuencia particular de n palabras en un flujo de audio hablado. Se considera, por ejemplo, un modelo lingüístico “unigrama”, para el cual n=1. Para cada palabra en un lenguaje, un unigrama especifica la probabilidad de que se produzca la palabra en un documento hablado. Un modelo lingüístico “bigrama” (para el cual n=2) especifica probabilidades de que se produzcan pares de palabras en un documento hablado. Por ejemplo, un modelo bigrama puede especificar la probabilidad condicional de que se produzca la palabra “gato” en un documento hablado dado que la palabra anterior en el documento era “el”. Asimismo, un modelo lingüístico “trigrama” especifica las probabilidades de tres palabras y así sucesivamente. Las probabilidades especificadas por modelos lingüísticos de n-grama y gramáticas de estado finito se pueden obtener formando tales documentos usando un discurso de entrenamiento y un texto de entrenamiento, como se describe más en detalle en la solicitud de patente referenciada anteriormente titulada “Document Transcription System Training”.
El modelo lingüístico probabilista 304 incluye una pluralidad de submodelos 306a-e, cada uno de los cuales es un modelo lingüístico probabilista. Los submodelos 306a-e pueden incluir modelos lingüísticos de n-grama. Los submodelos 306a-e puede incluir modelos lingüísticos de n-grama y/o gramáticas de estado finito en una combinación. Asimismo, como se describe más en detalle en lo sucesivo, cada uno de los submodelos 306a-e puede contener submodelos adicionales, y así sucesivamente. Aunque se muestran cinco submodelos en la figura 3, el modelo lingüístico probabilista 304 puede incluir cualquier número de submodelos.
El objetivo del sistema 300 mostrado en la figura 3 es producir un documento de texto estructurado 310 que incluye el contenido del flujo de audio hablado 302, en el que el contenido está organizado en una estructura particular y donde los conceptos son identificados e interpretados en una forma legible por máquina. El documento de texto estructurado 310 incluye una pluralidad de subestructuras 312a-f tal como secciones, párrafos, y/o frases. Cada una de las subestructuras 312a-f puede incluir subestructuras adicionales, y así sucesivamente. Aunque se muestran seis subestructuras en la figura 3, el documento de texto estructurado 310 puede incluir cualquier número de subestructuras.
Por ejemplo, con referencia a la figura 5, se muestra un ejemplo del documento de texto estructurado 310. En el ejemplo ilustrado en la figura 5, el documento de texto estructurado 310 es un documento XML. El documento de texto estructural 310 puede, sin embargo, ser aplicado en cualquier forma. Como se muestra en la figura 5, el documento estructurado 310 incluye seis subestructuras 312a-f, cada una de las cuales puede representar una sección del documento 310.
Por ejemplo, el documento estructurado 310 incluye la sección de encabezado 312a que incluye metadatos acerca del documento 310, tal como un título 314 del documento 310 (“Exploración CT del tórax sin contraste”) y la fecha 316 en la cual se dictó el documento 310 (“<fecha>22-abr-2003</fecha>”). Obsérvese que el contenido en la sección de encabezado 312a se obtuvo desde el principio del flujo de audio hablado 302 (Figura 4). Asimismo, cabe resaltar que la sección de encabezado 312a incluye tanto texto plano (por ejemplo, el título 314) como una subestructura (por ejemplo, la fecha 316) que representa un concepto de que se ah interpretado de una forma legible por ordenador como un triplete de valores (día-mes-año).
Representar la fecha de una forma legible por ordenador permite que la fecha sea almacenada en una base de datos y sea procesada más fácilmente que si la fecha fuese almacenada en forma de texto. Por ejemplo, si múltiples fechas en el flujo de audio 302 han sido reconocidas y almacenadas en forma legible por máquina, tales fechas pueden compararse fácilmente entre sí por un ordenador. En otro ejemplo, la información estadística acerca del contenido del flujo de audio 302, tal como el tiempo medio entre las visitas médicas, pueden generarse fácilmente si las fechas están almacenadas en forma legible por ordenador. Esta ventaja de realizaciones de la presente invención se aplica generalmente no solo a fechas sino al reconocimiento de cualquier tipo de contenido semántico y el almacenamiento de tal contenido en forma legible por máquina.
El documento estructurado 310 incluye, además, una sección de comparación 312b, que incluye contenido que describe estudios anterior llevados a cabo en el mismo paciente que el paciente que es objeto del documento (informe) 310. Caber destacar que el contenido en la sección de comparación 312b se obtuvo a partir de la porción del flujo de audio 302 que empieza con “comparación con” y termina con “seis de abril de dos mil uno”, pero que la sección de comparación 312b no incluye el texto “comparación con” que está en un ejemplo de un indicio de sección. El uso de tales indicios para identificar el principio de una sección u otra subestructura de documento se describirá más en detalle en lo sucesivo.
En resumen, el documento estructurado 310 incluye una sección técnica 312c, que describe técnicas que han sido llevadas a cabo en los procedimientos realizados sobre el paciente; una sección de constataciones 312d, que describe las constataciones del médico; y una sección de impresión 312e, que describe las impresiones del médico acerca del paciente.
Los documento XML, tal como el documento estructural ejemplar 310 ilustrados en la figura 5, no están destinados típicamente para ser visto directamente por un usuario final. En su lugar, tales documentos son representados típicamente de una manera que es más fácil de leer antes de ser presentados al usuario final El sistema 300, por ejemplo, incluye un motor de presentación 314 que presenta el documento de texto estructurado 310 basado en una hoja de estilo 316 para producir un documento presentado 318. Las técnicas para generar hojas de estilo y para presentar documentos según las hojas de estilo son bien conocidas por los expertos en la técnica.
Con referencia a la figura 6, se muestra un ejemplo del documento presentado 318. El documento presentado 318 incluye cinco secciones 602a-e, cada una de las cuales puede corresponder a una o más de las seis subestructuras 312a-f en el documento de texto estructurado 310. Más específicamente, el documento presentado 318 incluye una sección de encabezado 602a, una sección de comparación 602b, una sección técnica 602c, una sección de constataciones 602d y una sección de impresiones 602e. Cabe resaltar que puede haber o no una correspondencia unívoca entre secciones en el documento presentado 318 en el documento de texto estructurado 310. Por ejemplo, cada una de las subestructuras 312a-f no necesita representar un tipo distinto de sección de documento. Si por ejemplo, dos o más subestructuras 312a-f representan el mismo tipo de sección (tal como una sección de encabezado), el motor de presentación 314 puede presentar ambas subestructuras en la misma sección del documento presentado 318.
El sistema 300 incluye un generador de documentos estructurados 308, que identifica el modelo lingüístico probabilista 304 (etapa 202), y utiliza el modelo lingüístico 304 para reconocer el flujo de audio hablado 302 y de este modo producir el documento de texto estructurado 310 (etapa 204). El generador de documento estructurado 308 puede, por ejemplo, incluir un descodificador de reconocimiento de habla automático 320 que produce cada una de las subestructuras 312a-f en el documento de texto estructurado 310 que usa un submodelo correspondiente de los submodelos 306a-e en el modelo lingüístico probabilista 304. Como es bien sabido por el experto en la técnica, un descodificador es un componente de un reconocedor de habla que convierte audio en texto. El descodificador 320 puede, por ejemplo, producir la subestructura 312a usando el submodelo 306a para reconocer una primera porción del flujo de audio hablado
302. Asimismo, el descodificador 320 puede producir la subestructura 312b usando el submodelo 306b para reconocer una segunda porción del flujo de audio hablado 302.
Cabe resaltar que no hay necesidad de una correspondencia unívoca entre los submodelos 306a-e en el modelo lingüístico 304 y las subestructuras 312a-f en el documento estructurado 310. Por ejemplo, el descodificador de reconocimiento del habla puede usar el submodelo 306a para reconocer una primera porción del flujo de audio hablado 302 y de este modo producir las subestructuras 312a, y usar el mismo submodelo 306a para reconocer una segunda porción del flujo de audio hablado 302 y de este modo producir la subestructura 312b. En tal caso, múltiples subestructuras en el documento de texto estructurado 310 pueden contener el contenido de una sola estructura semántica (por ejemplo, sección o párrafo).
El submodelo 306a puede, por ejemplo, ser un modelo lingüístico de “encabezado” que se usa para reconocer porciones del flujo de audio hablado 302 que contienen contenido en la sección de encabezado 312a; el submodelo 306b puede, por ejemplo, ser un modelo lingüístico de “comparación” que se usa para reconocer porciones del flujo de audio hablado 302 que contiene contenido en la sección de comparación 312b; y así sucesivamente. Cada modelo lingüístico de este tipo puede ser entrenado usando texto de entrenamiento de la sección correspondiente de los documentos de entrenamiento. Por ejemplo, el submodelo de encabezado 306a puede ser entrenado usando texto de las secciones de encabezado de una pluralidad de documentos de entrenamiento, y el submodelo de comparación puede ser entrenado usando texto de las secciones de comparación de la pluralidad de documentos de entrenamiento.
Habiéndose descrito en general características de varias realizaciones de la presente invención, las realizaciones de la presente invención se describirán ahora con más detalle. Con referencia a la figura 7, se muestra un diagrama de flujo de un procedimiento que es aplicado por el generador de documentos estructurados 308 en una realización de la presente invención para generar el documento de texto estructurado 310 (Figura 2, etapa 204). Con referencia a la figura 8, se muestra un diagrama de flujo de datos que ilustra una porción del sistema 300 en detalle pertinente para el procedimiento de la figura 7.
En el ejemplo ilustrado en la figura 8, el generador de documentos estructurados 308 incluye un identificador de segmentos 814 que identifica una pluralidad de segmentos S 802a-c en el flujo de audio hablado 302 (etapa 701). Los segmentos 802a-c pueden, por ejemplo, representar conceptos tales como secciones, párrafos, frases, palabras, fechas, horas, o códigos. Aunque solos se muestras tres segmentos 802a-c en la figura 8, el flujo de audio hablado 302 puede incluir cualquier número de porciones. Aunque para facilitar la explicación, todos los segmentos 802a-c son identificados en la etapa 701 de la figura 7 antes de realizar el resto del procedimiento 700, la identificación de los segmentos 802a-c puede realizarse concurrentemente con el reconocimiento del flujo de audio 302 y la generación del documento estructurado 310, como se describirá más en detalle en lo sucesivo respecto de las figuras 11B y 12B.
El generador de documentos estructurados 308 introduce un bucle en cada segmento S en el flujo de audio hablado 302 (etapa 702). Como se ha descrito anteriormente, el generador de documentos estructurados 308 incluye el descodificador de reconocimiento de habla 320, que puede, por ejemplo, incluir uno o más descodificadores convencionales de reconocimiento de habla que incluyen diferentes modelos lingüísticos. Además como se ha descrito anteriormente, cada uno de los submodelos 306a-e puede ser un modelo lingüístico de n-gramas, una gramática sin contexto, o una combinación de los mismos.
Se supone a título de ejemplo que el generador de documentos estructurados 308 está actualmente procesando el segmento 802a del flujo de audio hablado 302. El generador de documentos estructurados 308 selecciona una pluralidad 804 de submodelos 306a-e con los cuales reconocer el actual segmento S. Los submodelos 804 pueden por ejemplo, ser todos los submodelos lingüísticos 306a-e o un subconjunto de los submodelos 306a-e. El descodificador de reconocimiento de habla 320 reconoce el segmento actual S (por ejemplo, el segmento 802a) con cada uno de los submodelos seleccionados 804, produciendo de este modo una pluralidad de contenidos candidatos 808 que corresponden al segmento S (etapa 704). Dicho de otro modo, cada uno de los contenidos candidatos 808 se produce usando el descodificador de reconocimiento de habla 320 para reconocer el segmento actual S que usa un submodelo distinto de los submodelos 804. Obsérvese que cada uno de los contenidos candidatos 808 puede incluir no solo texto reconocido sino también otros tipos de contenidos tales como conceptos (por ejemplo, fechas, horas, códigos, medicaciones, alergias, signos vitales, etc.). Codificados en forma legible por máquina.
El generador de documentos estructurados 308 incluye un selector de contenido final 810 que selecciona uno de los contenidos candidatos 808 como contenido final 812 para el segmento S (706). El selector de contenido final 810 puede usar cualquier técnica de una variedad de técnica que son bien conocidas por el experto en la técnica para seleccionar el resultado del reconocimiento de habla que más se acerca al habla del cual se deriva.
El generador de documentos estructurados 308 hace un seguimiento del submodelo que es usado para producir cada uno de los contenidos candidatos 808. Se n a título de ejemplo que los submodelos 304 incluyen todos los submodelos 306a-e, y que los contenidos candidatos 808 incluye por lo tanto cinco contenidos candidatos por segmento 802a-c (uno producido usando cada uno de los submodelos 306a-e). Por ejemplo, con referencia a la figura 9, se muestra un diagrama que ilustra correspondencias entre las subestructuras de documento 312a-f, los submodelos 306a-e, y los contenidos candidatos 808a-e. Como se ha descrito anteriormente, cada uno de los submodelos 306a-e puede asociarse a una o más subestructuras correspondientes 312a-f en el documento de texto estructurado 310. Estas correspondencias son indicadas en la figura 9 mediante las correspondencias 902a-e entre las subestructuras 312a-e y los submodelos 306a-e. El generador de documentos estructurado 308 puede mantener tal es correspondencias 902a-e en una tabla o usar otros medios.
Cuando el descodificador de reconocimiento de habla 320 reconoce el segmento S (por ejemplo, el segmento 802a) con cada uno de los submodelos 306a-e, produce el contenido candidato correspondiente 808a-e, Por ejemplo, el contenido candidato 808a es el texto que es producido cuando el descodificador de contenido candidato 320 reconoce el segmento 802a con el submodelo 306a, el contenido candidato 808b es el texto que es producido cuando el descodificado de reconocimiento de habla 320 reconoce el segmento 802a con el submodelo 306b, y así sucesivamente. El generador de documento estructurados 308 puede registrar la correspondencia entre los contenidos candidatos 808a-e y los submodelos correspondientes 306a-e en un conjunto de correspondencias de modelo candidato-contenido 816.
Por lo tanto, cuando el generador de documento estructurados 308 selecciona uno de los contenidos candidatos 808a-e como el contenido final 812 para el segmento S (etapa 706), un identificador de correspondencias finales 818 puede usar las correspondencias 816 y el contenido final seleccionado 812 para identificar el submodelo lingüístico que produjo el contenido candidato que ha sido seleccionado como el contenido final 812 (etapa 708). Por ejemplo, si el contenido candidato 808c es seleccionado como el contenido final 812, se puede observar en la figura 9 que el identificador de correspondencias finales 818 puede identificar el submodelo 306C como el submodelo que produjo contenido candidato 808c. El identificador de correspondencias finales 818 puede acumular cada submodelo identificado en el conjunto de correspondencias 820, de manera que en cualquier momento dado las correspondencias 820 identifican la secuencia de submodelos lingüísticos que se usaron para generar los contenidos finales que han sido seleccionados para su inclusión en el documento de texto estructurado 310.
Una vez identificado el submodelo correspondiente al contenido final 812, el generador de documentos estructurado 308 puede identificar la subestructura de documentos asociada al submodelo identificado (etapa 710). Por ejemplo, si el submodelo 306c ha sido identificado en la etapa 708, se puede ver en la figura 9 que la subestructura de documento 312c está asociada al submodelo 306c.
Un insertador de contenido estructurado 822 inserta el contenido final 812 en la subestructura identificada del documento de texto estructurado 310 (etapa 712). Por ejemplo, si la subestructura 312c está identificada en la etapa 710, el insertador de texto 514 inserta el contenido final 812 en la subestructura 312c.
El generador de documentos estructurados repite las etapas 704-712 para el resto de los segmentos 802b-c del flujo de audio hablado 302 (etapa 714), generando de este modo el contenido final 812 para cada uno de los segmentos restantes 802b-c e insertando el contenido final 812 en las subestructuras apropiadas de las subestructuras 312a-f del documento de texto 310. Al concluir el procedimiento 700, el documento de texto estructurado 310 incluye texto que corresponde al flujo de audio hablado 302, y las correspondencias finales de modelo-contenido 820 identifican la secuencia de submodelos lingüísticos que fueron usadas por el descodificador de reconocimiento de habla 320 para generar el texto en el documento de texto estructurado 310.
Cabe señalar que en el proceso de reconocimiento del flujo de audio hablado 302, el procedimiento 700 puede no solo generar texto que corresponde al audio hablado, sino que puede también identificar información semántica representada por el audio y almacenar tal información semántica en una forma legible por máquina. Por ejemplo, con referencia de nuevo a la figura 5, la sección de comparación 312b incluye un elemento de fecha en el cual se representa una fecha particular como un triplete que contiene valores individuales para el día (“06”), mes (“ABR”), y el año (“2001”). Otros ejemplos para conceptos semánticos en el campo médico incluyen signos vitales, medicaciones y sus dosificaciones, alergias, códigos médicos, etc. La extracción y representación de la información semántica de esta manera facilita el proceso de aplicación del procesamiento automatizado sobre tal información. Cabe señalar que la forma particular de representar la información semántica en la figura 5 es meramente un ejemplo y no constituye una limitación de la presente invención.
Como se recordará de la etapa 701, el procedimiento 700 mostrado en la figura 7A identifica el conjunto de segmentos 802a-c antes de identificar los submodelos a usar para reconocer los segmentos 802a-c. Cabe remarcar, sin embargo, que el generador de documentos estructurados 308 puede integrar el proceso de identificación de los segmentos 802a-c con el proceso de identificación de los submodelos a usar para reconocer los segmentos 802a-c, y con el proceso de aplicación de reconocimiento de habla sobre los segmentos 802a-c. Ejemplos de técnicas que se pueden usar para aplicar tal reconocimiento y segmentación integrada se describirán más en detalle en lo sucesivo respecto de las figuras 11B y 12B.
Habiendo descrito en general la operación del procedimiento ilustrado en la figura 7, se considera ahora la aplicación del procedimiento de la figura 7 al flujo de audio ejemplar 302 mostrado en la figura 4. Se supone que la primera porción del flujo de audio hablado 302 es el flujo hablado de las expresiones “Exploración CT del tórax sin contraste veintidós de abril de dos mil tres”. Esta porción puede ser seleccionada en la etapa 702 y reconocida usando todos los submodelos lingüísticos 306a-e en la etapa 704 para producir una pluralidad de contenidos candidatos 808a-e. Como se ha descrito anteriormente, suponiendo que el submodelo 306a-e es un modelo lingüístico de “encabezado”, que el submodelo 306b es un modelo lingüístico de “comparación”, que el submodelo 306c es un modelo lingüístico de técnica, que el submodelo 306d es un modelo lingüístico de “constataciones”, y el que submodelo 306e es un modelo lingüístico de “impresiones”
Debido al hecho que el submodelo 306a es un modelo lingüístico que ha sido entrenado para reconocer el habla en la sección de “encabezado” del documento 310 (por ejemplo, la subestructura 312a), es probable que el contenido candidato 808a producido usando el submodelo 306a coincida con las palabras de la porción de audio anteriormente mencionada en mayor medida que los otros contenidos candidatos 808b-e. Suponiendo que el contenido candidato 808a es seleccionado como el contenido final 812 para esta porción de audio, el insertador de contenido 822 insertará el contenido final 812 producido por el submodelo 306a en la sección de encabezado 312a del documento de texto estructurado 310.
Se supone que la segunda porción del flujo de audio hablado es el flujo hablado de expresiones “comparación con los estudios anteriores del seis de marzo dos mil dos y el seis de abril de dos mil uno”. Esta porción se puede seleccionar en la etapa 702 y reconocer usando todos los submodelos lingüísticos 306a-e en la etapa 704 para producir una pluralidad de contenidos candidatos 808a-e. Debido al hecho que el submodelo 306b es un modelo lingüístico que ha sido entrenado para reconocer habla en la sección de “comparación” del documento 310 (por ejemplo, la subestructura 312b), es probable que el contenido candidato 808b producido usando el submodelo 306b coincida con las palabras de la porción de contenidos candidatos en mayor medida que los otros contenidos referenciados anteriormente 808a y 808c-e. Suponiendo que el contenido candidato 808b es seleccionado como el contenido final 812 para esta porción de audio, el insertador de texto 514 insertará el contenido final 812 producido por el submodelo 306 en la sección de comparación 312b del documento de texto estructurado 310.
El resto del flujo de audio 302 ilustrado en la figura 4 puede ser reconocido e insertado en las subestructuras apropiadas de las subestructuras 312a-f en el documento de texto estructurado 310 de manera similar. Obsérvese que aunque el contenido del flujo de audio hablado 302 ilustrado en la figura 4 aparece en la misma secuencia que las secciones 312a-f en el documento de texto estructurado 310, no es una condición de la presente invención. En su lugar, el contenido puede aparecer en el flujo de audio 302 en cualquier orden. Cada uno de los segmentos 802a-c del flujo de audio 302 es reconocido por el descodificador de reconocimiento de habla 320, y el contenido final resultante 812 es insertado en la subestructura apropiada de las subestructuras 312a-f. En consecuencia, el orden del contenido de texto en las subestructuras 312a-f puede no ser el mismo que el orden del contenido en el flujo de audio hablado. Cabe señalar, sin embargo, que incluso si el orden del contenido de texto es el mismo tanto en el flujo de audio 302 que en el documento de texto estructurado 310, el motor de presentación 314 (figura 3) puede presentar el contenido de texto del documento 310 en cualquier orden deseado.
En otra realización de la presente invención, el modelo lingüístico probabilista 304 es un modelo lingüístico jerárquico. En particular, en esta realización la pluralidad de submodelos 306a-e están organizados en una jerarquía. Como se ha descrito anteriormente, los submodelos 306a-e puede incluir, además, submodelos adicionales, et así sucesivamente, de manera que la jerarquía del modelo lingüístico 304 puede incluir múltiples niveles.
Con referencia a la figura 10A, se muestra un diagrama que ilustra un ejemplo del modelo lingüístico 304 de forma jerárquica. El modelo lingüístico 304 incluye una pluralidad de nodos 1002, 306a-e, 1006a-e, y 1010 y 1012. Los nodos cuadrados 1002, 306b-e, y 1006e y 1012 usan gramáticas probabilistas de estado finito para modelizar conceptos muy limitados (tales como el orden de secciones de informe, indicios de sección, fechas, y horas). Los nodos elípticos 306a, 1006a-d, y 1010 usa modelos lingüísticos estadísticos (de n-gramas) para modelizar un lenguaje menos limitativo.
El término “concepto” tal como se usa en el presente documento incluye por ejemplo, fechas, horas, números, códigos, medicaciones, historial médico, diagnósticos, prescripciones, expresiones, enumeraciones e indicios de sección. Un concepto puede ser expresado verbalmente de muchas maneras. Cada manera de expresar verbalmente un concepto particular es denomina en el presente documento como “forma hablada” del concepto. A veces se hace una distinción entre conceptos “semánticos” y conceptos “sintácticos”. El término “concepto” tal como se usa en el presente documento incluye tanto conceptos semánticos como conceptos sintácticos, pero no se limita a ninguno de ellos y no se basa ninguna definición particular de “concepto semántico” o “concepto sintáctico” o en ninguna distinción entre ambos.
Se considera, por ejemplo, la fecha del 1 de octubre de 1993, que es un ejemplo de un concepto ya que este término se usa en el presente documento. Las formas habladas de este concepto incluyen las expresiones habladas” primero de octubre de mil novecientos noventa y tres”, uno de octubre del noventa y tres”, uno guión diez guión noventa y tres”. El texto tal como “1 de octubre de 1993) y “01/10/1993” son ejemplos de “formas habladas” de este concepto.
Ahora se considera la frase “John Jones tiene neumonía”. Esta frase, que es un concepto tal como se utiliza este término en el presente documento, puede ser expresado verbalmente de varias maneras, tal como las expresiones habladas, “John jones tiene neumonía” y “paciente jones diagnosticado con neumonía”. La frase escrita “John jones tiene neumonía” es un ejemplo de una “forma escrita” del mismo concepto.
Aunque los modelos lingüísticos para conceptos de bajo nivel tal como las fechas y las horas no se muestran en la figura 10A (salvo para el submodelo 1012), el modelo lingüístico jerárquico 304 puede incluir submodelos para tales conceptos de bajo nivel. Por ejemplo, los submodelos de n-gramas 306a, 1006a-d, y 1010 pueden asignar probabilidades a secuencias de palabras que representan fechas, horas y otros conceptos de bajo nivel.
El modelo lingüístico 304 incluye el nodo raíz 1002, que contiene una gramática de estado finito que representa las probabilidades de ocurrencia de los subnodos 306a-e del nodo 1002. El nodo raíz 1002 puede, por ejemplo, indicar probabilidades de las secciones de encabezado, comparaciones, constataciones e impresiones del documento 310 que aparecen en ordenes particulares en el flujo de audio hablado 302.
Bajando un nivel en la jerarquía del modelo lingüístico 304, el nodo 306a es un nodo de “encabezado”, que es un modelo lingüístico de n-gramas que representa probabilidades de ocurrencia de palabras en porciones del flujo de audio hablado 302 destinado a su inclusión en la sección de encabezado 312a del documento de texto estructurado 310.
El nodo 306b contiene una gramática de estado finito de “comparación” que representa probabilidades de ocurrencia de varias formas habladas alternativas de indicios para la sección de comparación 312b del documento de texto. La gramática de estado finito en el nodo de comparación 306 puede por ejemplo, incluir indicios tales como “comparación con”, “comparación para”, “antes es”, y estudios anteriores son”. La gramática de estado finito puede incluir una probabilidad para cada uno de estos indicios. Tales probabilidades pueden, por ejemplo estar basadas en frecuencias de uso observadas de los indicios en un conjunto de habla de entrenamiento para el mismo hablante o en el mismo campo que el flujo de audio hablado 302. Tales frecuencias pueden obtenerse, por ejemplo, usando las técnicas divulgadas en la solicitud de patente mencionada anteriormente titulada “Document Transcription System Training”.
El nodo de comparación 306e incluye un subnodo 1006a de “contenido de comparación, que es un modelo lingüístico de n-gramas que representa probabilidades de ocurrencia de palabras en porciones del flujo de audio hablado 302 destinado para su inclusión en el cuerpo de la sección de comparación 312b del documento de texto 310. El nodo de contenido de comparación 1006a tiene un nodo de fecha 1012 como un niño. Como se ha descrito más en detalle en lo sucesivo, el nodo de fecha 1012 es una gramática de estado finito que representa probabilidades de la fecha sea expresada verbalmente de varias maneras.
Los nodos 306c y 306d pueden entenderse de manera similar. El nodo 306c contiene una gramática de estado finito de “técnica” que representa probabilidades de ocurrencia de varias formas habladas alternativas de indicios para la sección técnica 312c del documento de texto 310. El nodo técnico 306c incluye un subnodo de contenido técnico” 1006b, que es un modelo de lenguaje de n-gramas que representa probabilidades de ocurrencia de palabras en porciones del flujo de audio hablado 302 destinado para su inclusión en el cuerpo de la sección técnica 312c del documento de texto 310. Asimismo, el nodo 306d contiene una gramática de estado finito de “constataciones” que representa probabilidades de ocurrencia de varias formas habladas alternativas de indicios para la sección de constataciones 312d del documento de texto 310. L nodo de constataciones 306d incluye un submodo de “contenido de constataciones” 1006c, que es un modelo lingüístico de n-gramas que representan probabilidades de ocurrencia de palabras en porciones del flujo de audio hablado 302 destinado para su inclusión en el cuerpo de la sección de constatación 312d del documento de texto 310.
El nodo de impresiones 306 es similar a los nodos 306b-d-, porque incluye una gramática de estado finito 1006 que incluye un modelo lingüístico de n-gramas para reconocer indicios de sección y un submodo 1006d que incluye un modelo lingüístico de n-gramas para reconocer el contenido de secciones. Además, sin embargo, el nodo de impresiones 306e incluye un submodo adicional 1006e que a su vez incluye un submodo 1010. Esto indica que el contenido de la sección de impresiones puede ser reconocida usando bien el modelo lingüístico en el nodo de contenido de impresiones 1006d o el nodo “enum” 1006e, gobernado por el modelo lingüístico basado en la gramática de estado finito que corresponde al nodo de impresiones 306e. El nodo “enum” 1006e contiene una gramática de estado finito que indica probabilidad asociadas a diferente maneras de expresar verbalmente indicios de enumeración (tal como “número uno”, “número dos”, “primero”, segundo”, “tercero”, y así sucesivamente). El nodo de contenido de impresiones 1010 puede incluir el mismo modelo lingüístico como el nodo de contenido de impresiones 1006d.
Habiéndose descrito la estructura jerárquica del modelo lingüístico 304 en una realización de la presente invención, ahora se describirán ejemplos de técnicas que se pueden usar para generar el documento estructurado 310 usando el modelo lingüístico 304. Con referencia a la figura 11A, se muestra un diagrama de flujo de un procedimiento que se aplica por el generador de documento estructurada 308 en una realización de la presente invención 308 en una realización de la presente invención para generar el documento de texto estructurado 310 (figura 2, etapa 204). Con referencia a la figura 12A, se muestra un diagrama de flujo de datos que ilustra una porción del sistema 300 en detalle pertinente para el procedimiento de la figura 11A.
EL generador de documento estructurada 308 incluye un selector de trayectoria 1202 que identifica una trayectoria 1204 a través del modelo lingüístico jerárquico 304 (etapa 1102). La trayectoria 1204 es una secuencia ordenada de nodos en el modelo lingüístico jerárquico 304. Los nodos pueden ser tiempos múltiples atravesados en la trayectoria 1204. Ejemplos de técnicas para generar la trayectoria 1204 se describirán más en detalle en lo sucesivo respecto de las figuras 11B y 12B.
Con referencia en la figura 10B, se ilustra un ejemplo de la trayectoria 1204. La trayectoria 1204 incluye los puntos 1020a-j, que especifican una secuencia en la cual para atravesar nodos en el modelo lingüístico 304. Los puntos 1020a-j se denominan “puntos” en lugar de “nodos” para distinguirlos de los nodos 1002, 306a-e, 1006a-e y 1010 en el modelo lingüístico 304.
En el ejemplo ilustrado en la figura 10B, la trayectoria 1204 atraviesa los siguientes nodos del modelo lingüístico 304 en la secuencia: (1) nodo raíz 1002 (punto 1020a); (2) nodo de contenido de encabezado 306a (punto 1020b): (3) nodo de comparación 306b (punto 1020c); (4) nodo de contenido de comparación 1006a (punto 1020d); (5) nodo técnico 306c (punto 1020e); (6) nodo de contenido técnico 1006b (punto 1020f); (7) nodo de constataciones 306d (punto 1020g); (8) nodo de contenido de constataciones 1006c (punto 1020h); (9) nodo de impresiones 306e (punto 1020i); y (10) nodo de contenido de impresiones 1006d (punto 1020j).
Como se puede observar con referencia a la figura 4, reconocer el flujo de audio hablado 302 usando los submodelos lingüísticos que se encuentran a lo largo de la trayectoria 1204 ilustrada en la figura 10B dará como resultado el reconocimiento óptico del habla, ya que el habla en el flujo de audio 302 se produce en la misma secuencia que los submodelos lingüísticos en la trayectoria 1204 ilustrada en la figura 10B. Por ejemplo, el flujo de audio hablado 302 empieza con el habla que es mejor reconocido por el modelo lingüístico de contenido de encabezado 306a (Exploración CT de tórax sin contraste veintidós de abril dos mil tres”), seguido de habla que es mejor reconocida por el modelo lingüístico de comparación 306b (“comparación con”), seguido por el habla que es mejor reconocida por el modelo lingüístico de contenido de comparación 1006a (antes de los estudios del seis de marzo de dos mil dos y el seis de abril de dos mil uno(, y así sucesivamente.
Habiendo identificado la trayectoria 1204, el generador de documento estructurado 308 reconoce el flujo de audio hablado 302 usando los modelos lingüísticos atravesados por la trayectoria 1204 para producir el documento de texto estructurado 310 (etapa 1104). Como se describe más en detalle en lo sucesivo respecto de las figuras 11B y 12B, El reconocimiento de habla y la generación del documento de texto estructurado de la etapa 1104 se pueden integrar con la identificación de trayectoria de la etapa 1102, en lugar de realizarlos por separado..
Más específicamente, el generador de documentos estructurados 308 puede incluir un enumerador de nodos 1206 que repite cada uno de los nodos de modelo lingüístico N 1208 atravesado por la trayectoria seleccionada 1204 (etapa 1106). Para cada nodo N de este tipo, el descodificador de reconocimiento de habla 320 puede reconocer la porción del flujo de audio 302 que corresponde al modelo lingüístico en el nodo N para producir el texto estructurado T correspondiente (etapa 1108). El generador de documentos estructurado 308 puede insertar el texto T 1210 en la estructura del documento textual estructurado 310 que corresponde al nodo N 1208 del modelo lingüístico 304 (etapa 1110).
Por ejemplo, cuando el nodo N es el nodo de comparación 306b (figura 10A), el nodo de comparación 306b se puede usar para reconocer el texto “comparación con” en el flujo de audio hablado 302 (figura 4). Debido a que el nodo de comparación 306b corresponde a una subestructura de documento (por ejemplo, la sección de comparación 312b) en lugar del contenido, el resultado del reconocimiento de habla realizado en la etapa 1108 en este caso puede ser una subestructura de documento, a saber una sección de “comparación” vacía. Tal sección puede insertarse en el documento estructurado 310 en la etapa 1110, por ejemplo, en forma de etiquetas de coincidencia “<comparación>” y “/comparación>”.
Cuando el nodo N es el nodo de contenido de comparación 1006a (figura 10A), el nodo de contenido de comparación 1006a se puede usar para reconocer el texto “antes de estudios del veintiséis de marzo dos mil dos y 6 de abril de dos mil uno” en el flujo de audio hablado 302 (figura 4). Produciendo de este modo el texto estructurado “estudios anteriores de <fecha>26-MAR-2002</fecha> y <fecha>26-ABR-2001</fecha>, como se muestra en la figura 5. Este texto estructurado se puede entonces insertar en la sección de comparación 312b en la etapa 1110 (por ejemplo, entre las etiquetas de “<comparación>” y “>/comparación>”, como se muestra en la figura 5).
El generador de documento estructurado 308 repite las etapas 1108-1110 para el resto de nodos N atravesado por la trayectoria 1204 (etapa 1112), insertando de este modo una pluralidad de textos estructurados 1210 en el documento de texto estructurado 310. El resultado final del procedimiento ilustrado en la figura 11A es la creación del documento de texto estructurado 310, que contiene texto que tiene una estructura que corresponde a la estructura de la trayectoria ‘1204 a través del modelo lingüístico 304. Por ejemplo, se puede observar en la figura 10B que la estructura de la trayectoria ilustrada atraviesa los nodos de modelo lingüístico que corresponden a las secciones de encabezado, comparación, técnica, constataciones e impresiones en secuencia. El documento de texto estructurado resultante 310 (como se ilustra, por ejemplo en la figura 5) incluye de manera similar las secuencias de encabezado, comparación, técnica, constataciones e impresiones en secuencia. El documento de texto estructurado 310 tiene por lo tanto la misma estructura que la trayectoria del modelo lingüístico 1204 que se usó para crear el documento de texto estructurado 310.
Se ha establecido anteriormente que el generador de documentos estructurados 308 inserta texto estructurado reconocido 1210 en las subestructuras apropiadas del documento de texto estructurado 310 (figura 11A, etapa 1110). Como se muestra en la figura 5, el documento de texto estructurado 310 se puede aplicar como un documento XML u otro documento que soporta estructuras anidadas. En tal caso, es necesario insertar cada uno de los textos estructurados reconocidos 1210 en el interior de la subestructura apropiada para que el documento de texto estructurado final 310 tenga una estructura que corresponde con la estructura de la trayectoria 1204. El experto en la técnica entenderá la manera de usar las correspondencias finales de contenido de modelo 820 (figura 8) para usar la trayectoria 1204 para atravesar la estructura del modelo lingüístico 304 y por lo tanto para crear tal documento estructurado.
El sistema ilustrado en la figura 12A incluye un selector de trayectoria 1202, que selecciona una trayectoria 1204 a través del modelo lingüístico 304. El procedimiento ilustrado en la figura 11A usa entonces la trayectoria seleccionada 1204 para generar el documento de texto estructurado 310. Dicho de otro modo, en la figura 11A y 12A, las etapas de selección de trayectoria y de creación de documento estructurado se realizan por separado. Esto no es, sin embargo, una limitación de la presente invención.
En su lugar, con referencia a la figura 11B, se muestra un diagrama de flujo de un procedimiento 1150 que integra las etapas de selección de trayectoria y generación de documentos estructurados. Con referencia a la figura 12B, se muestra una realización del generador de documentos estructurados 308 que aplica el procedimiento 1150 de la figura 11B en una realización de la presente invención. En general, el procedimiento 1150 de la figura 11B busca posibles trayectorias a través de la jerarquía del modelo lingüístico 304 (figura 10A), empezando en el nodo raíz 1002 y expandiéndose hacia fuera. Cualquiera de las diversas técnicas, incluyendo las técnicas bien conocidas por el experto en la técnica, puede ser usada para buscar a través de la jerarquía de modelos lingüísticos. Puesto que el procedimiento 1150 identifica trayectorias parciales a través de la jerarquía de modelo lingüístico, el procedimiento 1150 usa el descodificador de reconocimiento de habla 320 para reconocer porciones cada vez mayores del flujo de audio hablado 302usando los modelos lingüísticos que se encuentran a lo largo de las trayectorias parciales creando de este modo documentos parciales estructurados candidatos. El procedimiento 1150 asigna puntuaciones a cada uno de los documentos estructurados candidatos parciales. La puntuación de pertinencia para cada documento estructurado candidato es una medida de lo bien que se ha llevado a cabo la trayectoria que produjo el documento estructurado candidato . El procedimiento 1150 expande las trayectorias parciales siguiendo de este modo buscando a través de la jerarquía de modelo lenguaje, hasta que todo el flujo de audio hablado 302 haya sido reconocido. El generador de documentos estructurados 308 selecciona el documento estructurado candidato que tiene la mayor puntuación de pertinencia como documento de texto estructurado final 310.
Más específicamente, el procedimiento 1150 inicia una o más trayectorias candidatas 1224 a través del modelo lingüístico 304 (etapa 1152). Por ejemplo, las trayectorias candidatas 1224 pueden iniciarse para contener una única trayectoria que consiste en el nodo raíz 1002. El término “trama” se refiere en el presente documento a un periodo de tiempo corto, tal como 10 milisegundos. El procedimiento 1150 inicia un apuntador de flujo de audio para apunta a la primera trama en el flujo de audio 302 (etapa 1153). Por ejemplo, en la realización ilustrada en la figura 12B, el generador de documentos estructurados 308 contiene un enumerador de flujo de audio 1240 que proporciona una porción 1242 del flujo de audio 302 al descodificador de reconocimiento de habla 320. Al iniciarse el procedimiento 1150, la porción 1242 puede contener solo la primera trama del flujo de audio 302.
El descodificador de reconocimiento de habla 320 reconoce la porción actual 1242 del flujo de audio 302 usando los submodelos lingüísticos en la o las trayectorias candidatas 1224 para generar uno o más documentos parciales estructurados candidatos 1232 (etapa 1154). Cabe señalar que los documentos 1232 son dolo documentos parciales 1232 porque se han generado basados en solo una porción del flujo de audio 302. Cuando se aplica la etapa 1154 en primer lugar, el descodificador de reconocimiento de habla 320 puede reconocer simplemente la primera trama del flujo de audio 302 usando el modelo lingüístico en el nodo raíz 1002 del modelo lingüístico 304.
Cabe señalar que las técnicas divulgadas anteriormente respecto de la figura 11A y la figura 12A pueden ser usados por el descodificador de reconocimiento de habla 320 para generar los documentos parciales estructurados candidatos 1232 usando las trayectorias candidatas 1224. Más específicamente, el descodificador de habla 320 puede aplicar el procedimiento ilustrado en la figura 11A a la porción de flujo de audio 1242 usando cada una de las trayectorias candidatas 1224 como la trayectoria identificada en la etapa 1102 (figura 11A).
Volviendo a las figuras 11B y 12B, un evaluador de pertinencia 1234 genera puntuaciones de pertinencia 1236 para cada uno de los documentos parciales estructurados candidatos 1232 (etapa 1156). Las puntuaciones de pertinencia 1236 son mediciones de lo bien que los documentos parciales estructurados candidatos 1232 representan la porción correspondiente del flujo de audio 302. En general, la puntuación de pertinencia para un documento candidato individual puede ser generada: (1) generando puntuaciones de pertinencia para cada uno de los nodos en la trayectoria correspondiente de las trayectorias candidatas 1224; y (2) usando una función de síntesis para sintetizar la puntuación de pertinencia de nodo individual generada en la etapa (1) en una puntuación de pertinencia global para el documento estructurado candidato. Ejemplos de técnicas que se pueden usar para generar las puntuaciones de pertinencia candidatas 1236 se describirán más en detalle en lo sucesivo respecto de la figura 11C.
Si el generador de documentos estructurados 308 intentase buscar todas las trayectorias posibles a través de la jerarquía del modelo lingüístico 304, los recursos informáticos necesarios para evaluar cada trayectoria posible podrían ser prohibitivos desde el punto de vista económico y del tiempo. Debido al crecimiento exponencial en el número de trayectorias posibles. Por lo tanto, en la realización ilustrada en la figura 12B, un podador de trayectoria 1230 usa las puntuaciones de pertinencia candidatas 1236 para eliminar las trayectorias mal ajustadas de las trayectorias candidatas 1224, produciendo de este modo un conjunto de trayectorias podadas 1222 (etapa 1158).
Si la totalidad del flujo de audio 302 ha sido reconocida (etapa 1160), un selector de documento final 1238 selecciona, entre los documentos parciales estructurados candidatos 1232, el documento estructurado candidato que tiene la mayor puntuación de pertinencia, y proporciona el documento seleccionado como el documento de texto estructurado final 310 (etapa 1164). Si la totalidad del flujo de audio 302 no ha sido reorganizado , un extensor de trayectoria extiende las trayectorias podadas 1222 dentro del modelo lingüístico 304 para producir un nuevo conjunto de trayectorias candidatas 1224 (etapa 1162). Si por ejemplo, las trayectoria candidatas 1222 consiste en una trayectoria individual que contiene el nodo raíz 1002, el extensor de trayectoria 1220 puede extender esta trayectoria en un nodo hacia abajo en la jerarquía ilustrada en la figura 10A para producir una pluralidad de trayectorias candidatas que se extienden desde el nodo raíz 1002, tal como una trayectoria desde el nodo raíz 1002 al nodo de contenido de encabezado 306a, una trayectoria desde el nodo raíz 1002 al nodo de comparación 306b, una trayectoria desde el nodo raíz 1002 al nodo técnico 306c, y así sucesivamente. Varias técnicas de extensión de las trayectorias 1224 para llevar a cabo búsquedas de jerarquía en profundidad, amplitud u otros tipos de búsquedas jerárquicas son bien conocidas por el experto en la técnica.
El enumerador de flujo de audio 1240 extiende la porción 1242 del flujo de audio 302 para incluir la siguiente trama en el flujo de audio 302 (etapa 1163). Las etapas 1154-1160 se repiten entonces usando las nuevas trayectorias candidatas 1224 para reconocer la porción 1242 del flujo de audio 302. De este modo la totalidad del flujo de audio 302 puede ser reconocida usando submodelos apropiados en el modelo lingüístico 304.
Como se ha descrito anteriormente respecto de las figuras 11B y 12B, las puntuaciones de pertinencia 1236 pueden ser generadas para cada uno de los documentos parciales estructurados candidatos 1232 producidos por el generador de documentos estructurados 308 mientras se evalúan las trayectorias candidatas 1224 a través del modelo lingüístico 304. Ahora se describirán ejemplos de técnicas para generar puntuaciones de pertinencia, bien para los documentos parciales estructurados candidatos 1232 ilustrados en la figura 12B o bien para documentos estructurado más en general.
Por ejemplo, con referencia a la figura 10A, cabe señalar que el nodo de contenido de comparación 1006a tiene un nodo de fecha 1012 como un nodo descendiente. Se supone que el texto “Exploración CT del tórax sin contraste veintidós de abril de dos mil tres” ha sido reconocido como texto que corresponde al nodo de contenido de comparación 1006a. Cabe señalar que el nodo de contenido de comparación 1006a se usó para reconocer el texto Exploración CT del tórax sin contraste” y que el nodo de fecha 1012, que es un nodo descendiente del nodo de contenido de comparación 1006a, se uso para generar el texto “veintidós de abril dos mil tres”. La puntuación de pertinencia para este texto puede, por lo tanto, calcularse usando el nodo de contenido de comparación 1006a para calcular una primera puntuación de pertinencia para el texto “Exploración CT del tórax sin contraste" Seguido de cualquier fecha, calculando una segunda puntuación de pertinencia para el texto “veintidós de abril dos mil tres” basado en el nodo de fecha 1012, y multiplicando la primera y segunda puntuaciones de pertinencia.
Con referencia a la figura 11C, se muestra un diagrama de flujo de un procedimiento que es aplicado en una realización de la presente invención para calcular una puntuación de pertinencia para un documento candidato, y que puede por lo tanto usarse para aplicar la etapa 1156 del procedimiento 1150 ilustrado en la figura 11B. Se inicia una puntuación de pertinencia S en un valor de uno para el documento estructurado candidato que se está evaluando (etapa 1172). El procedimiento asigna un apuntado de nodo actual N para apuntar al nodo raíz en la trayectoria candidata que corresponde al documento candidato (etapa 1174).
El procedimiento requiere una función denominada Pertinencia () con los valores N y S (etapa 1176) y restituye el resultado como la puntuación de pertinencia para el documento candidato (etapa 1178). Como se describirá ahora más en detalle, la función Pertinencia () genera la puntuación de pertinencia S usando una factorización jerárquica atravesando la trayectoria candidata que corresponde al documento candidato.
Con referencia a la figura 11D, se muestra un diagrama de flujo de la función Pertinencia () 1180 según una realización de la presente invención. La función1180 identifica la probabilidad P(W(N)) de que el texto W que corresponde al nodo actual N ha sido reconocido por el modelo lingüístico asociado a ese nodo, y multiplica la probabilidad por el valor actual de S para producir un nuevo valor para S (etapa 1184).
Si el nodo N no tiene nodo descendente (etapa 1186), el valor de S es restituido (etapa 1194). Si el nodo N tiene nodo descendente, entonces se requiere la función Pertinencia () 1180 de manera recursiva encada uno de los nodos descendentes, con los resultados que se están multiplicando por el valor de S para producir nuevos valores de S (etapas 1188-1192). El valor resultando de S es restituido (etapa 1194).
Al concluir el procedimiento ilustrado en la figura 11C, el valor de S representa una puntuación de pertinencia para la totalidad del documento estructurado candidato, y el valor de S es restituido, por ejemplo, para su uso en el procedimiento 1150 ilustrado en la figura 11B (etapa 1194).
Por ejemplo, volviendo de nuevo al texto “Exploración CT del tórax sin contraste veintidós de abril dos mil tres”. La puntuación de pertinencia (probabilidad) de este texto se puede obtener identificando la probabilidad del texto “Exploración CT de tórax sin contraste <FECHA>”, donde <FECHA> indica cualquier fecha, multiplicada por la probabilidad condicional del texto “veintidós de abril dos mil tres” que se produce dado que el texto representa una fecha.
Más en general, el efecto del procedimiento ilustrado en la figura 11C es incorporar jerárquicamente las probabilidades de secuencias de palabras según la jerarquía del modelo lingüístico 304, permitiendo las estimaciones de probabilidad individuales asociadas a cada nodo de modelo lingüístico de combinarse sin dificultad con las estimaciones de probabilidad asociadas con otros nodos, Este marco probabilista permite que el sistema modelice y use modelos lingüístico estadísticos con gramáticas de estado finito probabilista integradas y modelos lingüísticos estadísticos integrados.
Como se ha descrito anteriormente, los nodos en el modelo lingüístico 304 representa submodelos lingüístico que especifican las probabilidades de ocurrencia de secuencias de palabras en el flujo de audio hablado 302. En la discusión anterior, se ha supuesto que las probabilidades ya se han asignado en tales modelos lingüísticos. Ahora de divulgarán ejemplos de técnicas para asignar probabilidades a los submodelos lingüísticos (tal como modelos lingüísticos de ngramas y gramáticas sin contexto) en el modelo lingüístico 304.
Con referencia a la figura 13, se muestra un diagrama de flujo de un procedimiento 1300 que se usa en una realización de la presente invención para generar el modelo lingüístico 304. Se selecciona una pluralidad de nodos para su uso en el modelo lingüístico (etapa 1302). Los nodos pueden, por ejemplo, ser seleccionados por un transcriptor u otra persona experto en el ámbito pertinente. Los nodos pueden ser seleccionados en un intento de capturar todos los tipos de conceptos que se pueden dar en el flujo de audio hablado 302. Por ejemplo, en el ámbito médico, se puede seleccionar nodos (tales como los mostrados en la figura 10A) que representan las secciones de un informe médico y los conceptor (tales como fechas, horas, medicaciones, alergias, signos vitales y códigos médicos) que se esperan que haya en un informe médico.
Un concepto y cualquier tipo de modelo lingüístico pueden ser asignados a cada uno de los nodos seleccionados en la etapa 1302 (etapas 1304-1306). Por ejemplo, el nodo 306b (figura 10A) puede ser asignado al concepto “indicio de sección de comparación” y ser asignado al tipo de modelo lingüístico “gramática de estado finito”. De manera similar, el nodo 1006a puede ser asignado al concepto “contenido de comparación” y el tipo de modelo lingüístico “modelo lingüístico de n-gramas”.
Los nodos seleccionados en la etapa 1302 pueden disponerse en una estructura jerárquica (etapa 1308). Por ejemplo, los nodos 1002, 306a-e, 1006a-e y 1010 pueden disponerse en la estructura jerárquica ilustrada en la figura 10A para representar y aplicar dependencias estructurales entre los nodos.
Cada uno de los nodos seleccionados en la etapa 1302 puede entonces entrenarse usando texto que representa un concepto correspondiente (etapa 1310). Por ejemplo, un conjunto de documentos de entrenamiento puede ser identificado. El conjunto de documentos de entrenamiento puede, por ejemplo, ser un conjunto de informes médicos existentes u otros documentos en el mismo ámbito como el flujo de audio hablado 302. Los documentos de entrenamiento pueden ser marcados manualmente para indicar la existencia y la ubicación de estructuras en el documento, tal como secciones, subsecciones, fechas, horas, códigos, y otros conceptos. Tal marcación puede, por ejemplo, ser realizada automáticamente sobre documentos formateados, o manualmente por transcriptores u otros persona cualificadas en el ámbito pertinente. Ejemplos de técnicas para entrenar los nodos seleccionados en la etapa 1302 se describen en la solicitud de patente referenciada anteriormente titulada “Document Transcription System Training”
Técnicas de entrenamiento de modelos lingüísticos convencionales pueden ser usadas en la etapa 1310 para entrenar los modelos lingüísticos de concepto específico para cada uno de los conceptos que se marcan en los documentos de entrenamiento. Por ejemplo, el texto de todas las secciones de “encabezado” marcadas en los documentos de entrenamiento se puede usar para entrenar el nodo de modelo lingüístico 306a que representa la sección de encabezado. De esta manera se pueden entrenar los modelos lingüísticos para cada uno de los nodos 1002, 306a-e, 1006a-e, y 1010 en el modelo lingüístico 304 ilustrado en la figura 10A. El resultado del procedimiento 1300 ilustrado en la figura 13 es un modelo lingüístico jerárquico que tiene posibilidades de entrenamiento, que se pueden usar para generar el documento de texto estructurado 310 de la manera descrita anteriormente. Este modelo lingüístico jerárquico se puede usar entonces, por ejemplo, para resegmentar repetidamente el texto de entrenamiento, como por ejemplo usando las técnicas divulgadas anteriormente e junto con las figuras 11B y 12B. El texto de entrenamiento resegmentado se puede usar para retener el modelo lingüístico jerárquico. Este proceso de resegmentación y reentrenamiento se puede aplicar repetidamente para mejorar repetidamente la calidad del modelo lingüístico.
En los ejemplos descritos anteriormente, el generador de documentos estructurados 308 reconoce el flujo de audio hablado 302 y genera el documento de texto estructurado 310 usando un proceso integrado, generando una transcripción intermedia no estructurada. Tales técnicas, sin embargo, están divulgadas simplemente a título de ejemplo y no constituyen limitaciones de la presente invención.
Con referencia a la figura 14 se muestra un diagrama de flujo de un procedimiento 1400 que se usa en otra realización de la presente invención para generar el documento de texto estructurado 310 usando distintas etapas de reconocimiento de habla y análisis estructural. Con referencia a la figura 15, se muestra un diagrama de flujo de datos de un sistema 1500 que lleva a cabo el procedimiento 1400 de la figura 14 según una realización de la presente invención.
El descodificador de reconocimiento de habla 320 reconoce el flujo de audio hablado 302 usando un modelo lingüístico 1506 para producir una transcripción 1502 del flujo de audio hablado 302. Cabe señalar que el modelo lingüístico 1506 puede ser un modelo lingüístico convencional que es distinto del modelo lingüístico 304. Más específicamente, el modelo lingüístico 1506 puede ser un modelo lingüístico monolítico convencional. El modelo lingüístico 1506 puede, por ejemplo, ser generado usando el mismo cuerpo de entrenamiento que el que se usa para entrenar el modelo lingüístico 304. Mientras las porciones del cuerpo de entrenamiento pueden ser usadas para entrenar el modelo lingüístico 304, el cuerpo entero puede ser usado para entrenar el modelo lingüístico 1506. El descodificador de reconocimiento de habla 320, puede, de este modo, usar técnicas de reconocimiento de habla convencionales para reconocer el flujo de audio hablado 302 usando el modelo lingüístico 1506 y producir de este modo la transcripción 1502.
Cabe señalar que la transcripción 1502 puede ser una transcripción “plana” 1502 del flujo de audio hablado 302, en lugar de un documento estructurado como en los ejemplos anteriores divulgados anteriormente. La transcripción 1502 puede, por ejemplo, incluir una secuencia de texto plano que se parece al texto ilustrado en la figura 4 (que ilustra el flujo de audio hablado 302 en forma de texto).
El sistema 1500 incluye también un analizador estructural 1504, que usa el modelo lingüístico jerárquico 304 para analizar la transcripción 1502 y producir de este modo el documento de texto estructurado 310 (etapa 1404). El analizador estructural 1504 puede usar las técnicas divulgadas anteriormente respecto de las figuras 11C y 12B para: (1) producir múltiples documentos estructurados candidatos que tienen el mismo contenido que la transcripción 1502 pero con estructuras que corresponden a diferentes trayectorias a través del modelo lingüístico 304; (2) generar una puntuación de pertinencia para cada uno de los documentos estructurados candidatos; y (3) seleccionar el documento estructurado candidato con la mayor puntuación de pertinencia como el documento de texto estructurado final. Contrariamente a las técnicas divulgadas anteriormente respecto de las figuras 11C y 12B, sin embargo, la etapa 1404 puede ser aplicada sin llevar a cabo el reconocimiento de habla para generar cada uno de los documentos estructurados candidatos. En su lugar, una vez producida la transcripción 1502 usando el descodificador de reconocimiento de habla 320, los documentos estructurados candidatos pueden ser generados basados en la transcripción 1502 sin llevar a cabo un reconocimiento de habla adicional.
Asimismo, el analizador estructural 1504 no necesita usar todo el modelo lingüístico 304 para producir el documento de texto estructurado 310. En su lugar, el analizador estructural 1504 puede usar un modelo lingüístico “esquelético” a escala reducida, tal como el modelo lingüístico 1030 ilustrado en la figura 10C. Cabe señalar que el modelo lingüístico ejemplar 1030 mostrado en la figura 10C es el mismo que el modelo lingüístico 304 mostrado en la figura 10A, salvo que en el modelo lingüístico esquelético 1030 los nodos de modelo lingüístico de contenido 306a, 1006a-d y 1010 han sido sustituidos por modelos lingüísticos aceptados universalmente 1032a-f, también denominados como modelo lingüístico “No importa”. Los modelos lingüísticos 1032a-f aceptarán cualquier texto que les sea proporciona como entrada. El modelo de lenguaje de indicios de encabezado 306b-e en el modelo lingüístico esquelético 1030 permite que el analizador estructural 1504 analice la transcripción 1502 en las subestructuras correctas en el documento estructurado
310. El uso de los modelo lingüístico aceptados universalmente 1032a-f, permite sin embargo que el analizador estructural 1504 lleve a cabo tal análisis estructural sin incurrir en el gasto (típicamente considerable) de los modelos lingüístico de contenido de entrenamiento, tal como los modelos 306a, 1006a-d y 1010 mostrados en la figura 10A.
Cabe señalar que el modelo lingüístico esquelético 1030 puede seguir también incluir modelos lingüísticos, tales como el modelo lingüístico de fechas 1012, que corresponde a conceptos de bajo nivel. Como consecuencia, el modelo lingüístico esquelético 1030 se puede usar para generar el documento estructurado 310 de la transcripción 1502 sin incurrir en la sobrecarga de modelos lingüísticos de contenido de entrenamiento, mientras conserva la capacidad de analizar conceptos de nivel inferior en el documento estructurado 310.
Entre las ventajas de la invención se encuentra una o más de las siguientes. Las técnicas divulgadas en el presente documento sustituyen el modelo lingüístico global tradicional con una combinación de modelos lingüísticos locales especializados que están mejor adaptados a la sección de un documento que un modelo lingüístico genérico individual. Tal modelo lingüístico tiene varias ventajas.
Por ejemplo, el uso de un modelo lingüístico que contiene submodelos, cada uno de los cuales corresponde a un concepto particular, es ventajoso porque permite que el modelo lingüístico más apropiado sea utilizado para reconocer el habla que corresponde a cada concepto. Dicho de otro modo, si cada uno de los submodelos corresponde a un concepto diferente, entonces cada uno de los submodelos puede ser usado para aplicar un reconocimiento de habla en el habla que representa el concepto correspondiente. Dado que las características del habla pueden variar de un concepto a otro, el uso de tales modelos lingüísticos específicos de concepto puede producir mejores resultados de reconocimiento que los que se producirían usando un modelo lingüístico monolítico para todos los conceptos.
Aunque los submodelos de un modelo lingüístico pueden corresponder a secciones de un documento, esto no es una limitación de la presente invención. En su lugar, cada submodelo en el modelo lingüístico puede corresponder a cualquier concepto, tal como una sección, párrafo, frase, fecha, hora o código ICD9. En consecuencia, los submodelos en el modelo lingüístico pueden coincidir con conceptos particulares con un grado de precisión superior al que sería posible si solo se empleasen modelos lingüísticos específicos de sección. El uso de tales modelos lingüísticos específicos de concepto para una amplia variedad de conceptos puede mejorar, además, la precisión de reconocimiento de habla.
Asimismo, los modelos lingüísticos jerárquicos designados de acuerdo con las realizaciones de la presente invención pueden tener estructuras jerárquicas multinivel, con el efecto de anidar submodelos los unos en el interior de los otros. Como consecuencia; los submodelos en el modelo lingüístico se puede aplicar a porciones del flujo de audio hablado 302 con varios niveles de granularidad, siendo aplicado el modelo lingüístico más apropiado a cada nivel de granularidad. Por ejemplo, un modelo lingüístico de “sección de encabezado” se puede aplicar generalmente al habla en el interior de la sección de encabezado de un documento, mientras que un modelo lingüístico de “fecha” se puede aplicar específicamente al habla que representa fechas en la sección de encabezado. Esta capacidad para anidar modelos lingüísticos y aplicar modelos lingüísticos anidados a diferentes porciones de habla puede mejorar, además, la precisión de reconocimiento permitiendo que el modelo lingüístico más apropiado sea aplicado a cada porción de un flujo de audio hablado.
Otra ventaja del uso de un modelo lingüístico que incluye una pluralidad de submodelos es que las técnicas divulgadas en el presente documento pueden usar tal modelo lingüístico para generar un documento de texto estructurado a partir de un flujo de audio hablado usando un único proceso integrado, en lugar del proceso en dos etapas de la técnica anterior 100 ilustrado en la figura 1A en el que la etapa de reconocimiento de habla va seguida de una etapa de procesamiento del lenguaje natural. En el proceso en dos etapas 100 ilustrado en la figura 1A las etapas llevadas a cabo por el reconocedor de habla 104 y el procesador de lenguaje natural 108 están completamente desacoplados. Debido al reconocedor de habla automático 104 y al procesador de lenguaje natural 108 funcionan independientemente el uno del otro, el resultado 106 del reconocedor de habla automático 104 es un transcripción literal del contenido hablado en el flujo de audio 102. La transcripción literal 106 contiene de este modo el texto correspondiente a todas las palabras habladas en el flujo de audio 102, sean estas palabras relevantes o no relevantes para el documento de texto estructurado deseado final. Tales palabras pueden incluir, por ejemplo, dudas, palabras extrañas o repeticiones, así como pistas estructurales o palabras relacionadas con la tarea. Además, el procesador lingüístico natural 108 se basa en la detección y transcripción exitosas de ciertas palabras clave y/o expresiones clave, tales como pistas estructurales. Si estas palabras/expresiones clave son mal reconocidas por el reconocedor de habla automático 104, la identificación de entidades estructurales por el procesador lingüístico natural 108 puede verse afectado negativamente. Por el contrario, en el procedimiento 200 ilustrado en la figura 2, el reconocimiento de habla y el procesamiento del lenguaje natural están integrados, permitiendo de este modo que el modelo lingüístico influya tanto en el reconocimiento de palabras en el flujo de audio 4302 como en la generación de estructura en el documento de texto estructurado 310, mejorando de este modo la calidad global del documento estructurado 310.
Además de generar el documento estructurado 310, las técnicas divulgadas en el presente documento también se pueden usar para extraer e interpretar contenido semántico del flujo de audio 302. Por ejemplo, el modelo lingüístico de fechas 1012 (figuras 10A-10B) se puede usar para identificar porciones del flujo de audio 302 que representan fechas, y almacenar representaciones de tales fechas en forma legible por ordenador. Por ejemplo, las técnicas divulgadas en el presente documento se pueden usar para identificar la expresión hablada “primero de octubre mil novecientos noventa y tres” como una fecha y almacenar la fecha de una forma legible por ordenador, tal como “mes=10, día=1, año=1998). Almacenar tales conceptos de una forma legible por ordenador permite que el contenido de tales conceptos sea procesado fácilmente por un ordenador, por ejemplo seleccionando secciones de documento por fecha o identificando medicaciones prescritas antes de una fecha dada. Además, las técnicas divulgadas en el presente documento permite que el usuario defina diferentes porciones (por ejemplo, secciones) del documento y elegir qué conceptos se han de extraer en cada sección. Las técnicas divulgadas en el presente documento facilitan de este modo el reconocimiento y el procesamiento del contenido semántico en los flujos de audio hablados. Tales técnicas se pueden aplicar en lugar de o además del almacenamiento de información extraída en un documento estructurado.
Ámbitos tales como los ámbitos médicos y legales, en los cuales hay grandes cuerpos de flujos de audio grabados preexistentes para su uso como texto de entrenamiento, pueden ser particularmente ventajosos en las técnicas divulgadas en el presente texto. Tal texto de entrenamiento se puede usar para entrenar el modelo lingüístico 304 usando las técnicas divulgadas anteriormente respecto de la figura 13. Dado que pueden ser necesarios documentos en tales ámbitos para tener estructuras bien definidas, y dado que tales estructuras se pueden identificar fácilmente en los documentos existentes, puede ser relativamente fácil (aunque consumiendo tiempo) para identificar correctamente las porciones de tales documentos específicos de concepto para su uso en el entrenamiento de cada uno de los nodos de modelo lingüístico de concepto específico en el modelo lingüístico 304. Como consecuencia, cada uno de los nodos de modelo lingüístico puede ser bien entrenado para reconocer el concepto correspondiente, aumentando de este modo la precisión de reconocimiento y aumentando la capacidad del sistema para generar documentos con la estructura requerida.
Asimismo, las técnicas divulgadas en el presente documento se pueden aplicar en tales ámbitos sin requerir ningún cambio en el proceso existente por el cual el audio es grabado y transcrito. En el ámbito médico, por ejemplo, los médicos pueden seguir dictando informes médicos a su manera habitual. Las técnicas divulgadas en el presente documento se pueden usar para generar documentos con la estructura deseada sin tener en cuenta la manera de dictar el flujo de audio hablado. Técnicas alternativas que requieren cambios en el flujo de trabajo, tales como técnicas que requieren que los hablantes se registren (leyendo texto de entrenamiento), que requieren que los hablantes modifiquen su manera de hablar (por ejemplo diciendo siempre los conceptos usando formas habladas predeterminadas), o requieren que las transcripciones sean generadas en un formato particular, pueden tener un coste prohibitivo para su aplicación en ámbitos tales como los campos médico y lega. Tales cambios pueden, de hecho, ser incoherentes con las necesidades institucionales o legales relacionadas con la estructura del informe (tal como los requisitos de informe de seguro). Las técnicas divulgadas en el presente documento, por el contrario, permiten que el flujo de audio 302 sea generado de cualquier manera y tenga cualquier forma.
Asimismo, los submodelos individuales 306a-e en el modelo lingüístico 304 se puede actualizar fácilmente sin afectar al resto del modelo lingüístico. Por ejemplo, el submodelo de contenido de encabezado 306a-e se puede sustituir por un submodelo de contenido de encabezado diferente que se representa diferentemente por la forma en que se dictó la cabecera del documento. ‘La estructura modular del modelo lingüístico 304’ permite que tal modificación/sustitución de submodelos sea levado a cabo sin la necesidad de modificar ninguna parte del modelo lingüístico 304. Como consecuencia, las partes del modelo lingüístico 304 se pueden actualizar fácilmente para reflejar diferentes acuerdos de dictado de documentos.
Asimismo, el documento de texto estructurado 310 que es producido por varias realizaciones de la presente invención se puede usar para entrenar un modelo lingüístico. Por ejemplo, las técnicas de entrenamiento descritas en la solicitud de patente referenciada anteriormente titulada “Documento Transcripción System Training” puede usar el documento de texto estructurado 310 para volver a entrenar y de este modo mejorar el modelo lingüístico 304. El modelo lingüístico vuelto a entrenar 304 se puede usar entonces para producir posteriores documentos de texto estructurados, los cuales pueden a su vez ser usado para volver a entrenar el modelo lingüístico 304. Este proceso iterativo se puede emplear para mejorar la calidad de los documentos estructurados que se producen a lo largo del tiempo.
Cabe entender que aunque la invención se ha descrito anteriormente en términos de realizaciones particulares, las realizaciones anteriores están provistas solo a título ilustrativo, y no limitan o definen el alcance de la invención. Otras varias realizaciones, que incluyen pero no se limitan a lo siguiente, se encuentran también dentro del alcance de las reivindicaciones. Por ejemplo, los elementos y componentes descritos en el presente documento se pueden dividir, además, en componentes adicionales o unirse juntos para formar menos componentes para llevar a cabo las mismas funciones.
El flujo de audio hablado 302 puede ser cualquier flujo de audio, tal como un flujo de audio en directo recibido directamente o indirectamente (tal como en una conexión telefónica o por IP) o un flujo de audio grabado en cualquier medio y en cualquier formato. En el reconocimiento de habla distribuido (DSR), un cliente lleva a cabo el preprocesamiento en un flujo de audio para producir un flujo de audio procesado que es transmitido a un servidor, que lleva a cabo el reconocimiento de habla sobre el flujo de audio procesado. El flujo de audio 302 puede, por ejemplo, ser un flujo de audio procesado producido por un cliente DSR.
Aunque en los ejemplos anteriores se describe cada nodo en el modelo lingüístico 304 como conteniendo un modelo lingüístico que corresponde a un concepto particular, no es un requisito de la presente invención. Por ejemplo, un nodo puede incluir un modelo lingüístico que resulta dela interpolación de un modelo lingüístico de concepto específico asociado al nodo con uno o más de: (1) modelos lingüísticos globales de fondo con otros nodos, o (2) modelos lingüísticos específicos de concepto asociados a otros nodos.
En los ejemplos anteriores, se puede hacer una distinción entre “gramáticas” y “texto”. Cabe apreciar que el texto puede ser representado como una gramática, en la que es una única forma hablada que tiene una sola probabilidad. Por lo tanto, los documentos que se describen en el presente documento como se incluye tanto en el texto como en las gramáticas se pueden aplicar solo usando gramáticas si se desea. Además, una gramática de estado único es simplemente un tipo de gramática sin contexto, que es un tipo de modelo lingüístico que permite que múltiples formas habladas alternativas de un concepto sea aplicado más generalmente a cualquier otro tipo de gramática. Asimismo, aunque la descripción anterior puede referirse a gramáticas de estado finito y modelos lingüísticos de n-gramas, hay simplemente ejemplos de tipos de modelos lingüísticos que se pueden usar junto con las realizaciones de la presente invención. Las realizaciones de la presente invención no están limitadas a su uso junto con cualquier tipo o tipos particulares de modelo o modelos lingüísticos.
La invención no se limita a cualquiera de los campos descritos (tal como informes médicos y legales), sino que se aplica generalmente a cualquier tipo de documentos estructurados.
Las técnicas descritas anteriormente pueden aplicarse, por ejemplo, en hardware, software, microprogramas o cualquier combinación de los mismos. Las técnicas descritas anteriormente se puede aplicar en uno o más programas informáticos que se ejecutan en un ordenador programable incluyendo un procesador, un medio de almacenamiento legible por el procesador (incluyendo, por ejemplo, elementos de almacenamiento y/o memoria volátil y no volátil), al menos un dispositivo de entrada, y al menos un dispositivo de salida. El código de programa se puede aplicar a la entrada introducida usando el dispositivo de entrada para llevar a cabo las funciones descritas y generar la salida. La salida puede ser provista a uno o más dispositivos de salida.
Cada programa informático dentro de las reivindicaciones siguientes puede ser aplicado en cualquier lenguaje de programación, tal como lenguaje ensamblador, lenguaje máquina, un lenguaje de programación de procedimiento de alto nivel, o un lenguaje de programación orientado al objeto. El lenguaje de programación puede, por ejemplo, ser un lenguaje de programación compilado o interpretado.
Cada programa informático de este tipo se puede aplicar en un producto de programa informático materializa de manera tangible en un dispositivo de almacenamiento legible por máquina para su ejecución por un procesador informático. Las etapas del procedimiento de la invención pueden ser llevadas a cabo por un procesador informático que ejecuta un programa materializado de manera tangible en un medio legible por ordenador para aplicar las funciones de la invención que funcionan en la entrada y generan la salida. Los procesadores apropiados incluyen, a título de ejemplo, tanto microprocesadores de uso general como de uso especial. Generalmente el procesador recibe instrucciones y datos de una memoria de solo lectura y/o una memoria de acceso aleatorio. Los dispositivos de almacenamiento apropiados para materializar de manera tangible instrucciones de programa informático incluyen, por ejemplo, todas formas de memoria no volátil, tal como dispositivos de memoria semiconductora, incluyendo dispositivos EPROM, EEPROM, y de memoria ultrarrápida; discos magnéticos tales como los discos duros internos y discos removibles; discos magneto-ópticos; y CD-ROM. Cualquiera de los anteriores puede complementarse con, o incorporarse a, ASIC especialmente diseñadas (Circuitos integrados de aplicación específica o FPGA (Matrices de puertas programables por campos). Un ordenador puede en general recibir también programas y datos de un medio de almacenamiento tal como un disco interno (no mostrado) o un disco removible). Estos elementos se encontrarás también en un ordenador de sobremesa convencional
o de estación de trabajo así como otros ordenadores apropiados para ejecutar programas informáticos que aplican los procedimiento descritos en el presente documento, que se pueden usar junto con cualquier motor de impresión digital o motor de marcado, monitor de visualización, u otro dispositivo de salida de trama capaz de producir píxeles de color o escala de grises sobre papel, película, pantalla de visualización, u otro medio de salida.

Claims (6)

  1. REIVINDICACIONES
    1.- Un procedimiento que comprende las etapas:
    (A)
    identificar un modelo lingüístico probabilista que incluye una pluralidad de modelos lingüísticos probabilistas asociada a una pluralidad de subestructuras de un documentos; y
    (B)
    utilizar un descodificador de reconocimiento de habla para aplicar el modelo lingüístico probabilista a un flujo de audio hablado para producir un documento que incluye contenido organizado en la pluralidad de subestructuras, en el cual el contenido en cada una de la pluralidad de subestructuras es producido reconociendo el habla usando la subestructura, en el cual la pluralidad de modelos lingüísticos probabilistas están organizados en una jerarquía, y en el cual la etapa (B) comprende las etapas de:
    (B)(1) identificar una trayectoria a través de la jerarquía, que comprende las etapas de:
    (B)(1)(a) identificar una pluralidad de trayectoria a través de la jerarquía (B)(1)(b) para cada una de la pluralidad de trayectorias P, producir un documento estructurado candidato para el flujo de audio hablado usando el descodificador de reconocimiento de habla para reconocer el flujo de audio hablado usando los modelos lingüísticos en la trayectoria P; B(1)© aplicar una medición a la pluralidad de documentos estructurados candidatos producidos en la etapa (B)(1)(b) para producir una pluralidad de puntuaciones de pertinencia para la pluralidad de documentos estructurados candidatos; y (B)(1)(d) seleccionar la trayectoria que produce los documentos estructurados candidatos que tienen la mayor puntuación pertinente;
    (B)(2) generar el documento que tiene una estructura que corresponde a la trayectoria identificada en la etapa (B)(1).
  2. 2.- El procedimiento de la reivindicación 1, en el cual la pluralidad de modelos lingüísticos probabilistas incluye al menos un modelo lingüístico de n-gramas.
  3. 3.- El procedimiento de la reivindicación 1, en el cual la pluralidad de modelos lingüísticos probabilistas incluye al menos un modelo lingüístico de estado finito.
  4. 4.- El procedimiento de la reivindicación 1, en el cual la pluralidad de subestructura incluye una subestructura que representa un concepto semántico.
  5. 5.- El procedimiento de la reivindicación 4, en el cual el concepto semántico comprende una medicación.
  6. 6.- El procedimiento de la reivindicación 1, que comprende, además, una etapa de:
    (C) presentar el documento para producir una representación que indica la estructura del documento.
ES05789851T 2004-08-20 2005-08-18 Extracción automática de contenido semántico y generación de un documento estructurado a partir del habla Active ES2394726T3 (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US10/923,517 US7584103B2 (en) 2004-08-20 2004-08-20 Automated extraction of semantic content and generation of a structured document from speech
US923517 2004-08-20
PCT/US2005/029354 WO2006023622A2 (en) 2004-08-20 2005-08-18 Automated extraction of semantic content and generation of a structured document from speech

Publications (1)

Publication Number Publication Date
ES2394726T3 true ES2394726T3 (es) 2013-02-05

Family

ID=35910687

Family Applications (1)

Application Number Title Priority Date Filing Date
ES05789851T Active ES2394726T3 (es) 2004-08-20 2005-08-18 Extracción automática de contenido semántico y generación de un documento estructurado a partir del habla

Country Status (8)

Country Link
US (2) US7584103B2 (es)
EP (1) EP1787288B1 (es)
JP (1) JP4940139B2 (es)
CA (1) CA2577721C (es)
DK (1) DK1787288T3 (es)
ES (1) ES2394726T3 (es)
PL (1) PL1787288T3 (es)
WO (1) WO2006023622A2 (es)

Families Citing this family (149)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100517300C (zh) 2002-11-28 2009-07-22 皇家飞利浦电子股份有限公司 分配词类信息的设备和方法
US8666725B2 (en) * 2004-04-16 2014-03-04 University Of Southern California Selection and use of nonstatistical translation components in a statistical machine translation framework
US7793217B1 (en) * 2004-07-07 2010-09-07 Young Kim System and method for automated report generation of ophthalmic examinations from digital drawings
US7818041B2 (en) * 2004-07-07 2010-10-19 Young Kim System and method for efficient diagnostic analysis of ophthalmic examinations
EP1787289B1 (en) * 2004-07-30 2018-01-10 Dictaphone Corporation A system and method for report level confidence
US8412521B2 (en) * 2004-08-20 2013-04-02 Multimodal Technologies, Llc Discriminative training of document transcription system
US7844464B2 (en) * 2005-07-22 2010-11-30 Multimodal Technologies, Inc. Content-based audio playback emphasis
US8335688B2 (en) * 2004-08-20 2012-12-18 Multimodal Technologies, Llc Document transcription system training
US7584103B2 (en) * 2004-08-20 2009-09-01 Multimodal Technologies, Inc. Automated extraction of semantic content and generation of a structured document from speech
US20130304453A9 (en) * 2004-08-20 2013-11-14 Juergen Fritsch Automated Extraction of Semantic Content and Generation of a Structured Document from Speech
US7908141B2 (en) * 2004-09-29 2011-03-15 International Business Machines Corporation Extracting and utilizing metadata to improve accuracy in speech to text conversions
DE112005002534T5 (de) * 2004-10-12 2007-11-08 University Of Southern California, Los Angeles Training für eine Text-Text-Anwendung, die eine Zeichenketten-Baum-Umwandlung zum Training und Decodieren verwendet
US7502741B2 (en) * 2005-02-23 2009-03-10 Multimodal Technologies, Inc. Audio signal de-identification
US20060212452A1 (en) * 2005-03-18 2006-09-21 Cornacchia Louis G Iii System and method for remotely inputting and retrieving records and generating reports
US7640255B2 (en) 2005-05-31 2009-12-29 Sap, Ag Method for utilizing a multi-layered data model to generate audience specific documents
US7430715B2 (en) * 2005-05-31 2008-09-30 Sap, Aktiengesellschaft Interface for indicating the presence of inherited values in a document
US8676563B2 (en) * 2009-10-01 2014-03-18 Language Weaver, Inc. Providing human-generated and machine-generated trusted translations
US7693713B2 (en) * 2005-06-17 2010-04-06 Microsoft Corporation Speech models generated using competitive training, asymmetric training, and data boosting
US8886517B2 (en) 2005-06-17 2014-11-11 Language Weaver, Inc. Trust scoring for language translation systems
US8577684B2 (en) 2005-07-13 2013-11-05 Intellisist, Inc. Selective security masking within recorded speech utilizing speech recognition techniques
US8700404B1 (en) 2005-08-27 2014-04-15 At&T Intellectual Property Ii, L.P. System and method for using semantic and syntactic graphs for utterance classification
US8032372B1 (en) * 2005-09-13 2011-10-04 Escription, Inc. Dictation selection
US20070081428A1 (en) * 2005-09-29 2007-04-12 Spryance, Inc. Transcribing dictation containing private information
US20070078806A1 (en) * 2005-10-05 2007-04-05 Hinickle Judith A Method and apparatus for evaluating the accuracy of transcribed documents and other documents
US7640158B2 (en) 2005-11-08 2009-12-29 Multimodal Technologies, Inc. Automatic detection and application of editing patterns in draft documents
US10319252B2 (en) * 2005-11-09 2019-06-11 Sdl Inc. Language capability assessment and training apparatus and techniques
WO2007066304A1 (en) * 2005-12-08 2007-06-14 Koninklijke Philips Electronics N.V. Method and system for dynamic creation of contexts
US8036889B2 (en) * 2006-02-27 2011-10-11 Nuance Communications, Inc. Systems and methods for filtering dictated and non-dictated sections of documents
US8301448B2 (en) 2006-03-29 2012-10-30 Nuance Communications, Inc. System and method for applying dynamic contextual grammars and language models to improve automatic speech recognition accuracy
US7756708B2 (en) * 2006-04-03 2010-07-13 Google Inc. Automatic language model update
US8943080B2 (en) * 2006-04-07 2015-01-27 University Of Southern California Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections
US7831423B2 (en) * 2006-05-25 2010-11-09 Multimodal Technologies, Inc. Replacing text representing a concept with an alternate written form of the concept
US20070299665A1 (en) * 2006-06-22 2007-12-27 Detlef Koll Automatic Decision Support
US8433915B2 (en) 2006-06-28 2013-04-30 Intellisist, Inc. Selective security masking within recorded speech
US20080027726A1 (en) * 2006-07-28 2008-01-31 Eric Louis Hansen Text to audio mapping, and animation of the text
US8886518B1 (en) 2006-08-07 2014-11-11 Language Weaver, Inc. System and method for capitalizing machine translated text
US8521510B2 (en) * 2006-08-31 2013-08-27 At&T Intellectual Property Ii, L.P. Method and system for providing an automated web transcription service
US9122674B1 (en) 2006-12-15 2015-09-01 Language Weaver, Inc. Use of annotations in statistical machine translation
US8433576B2 (en) * 2007-01-19 2013-04-30 Microsoft Corporation Automatic reading tutoring with parallel polarized language modeling
US20080177623A1 (en) * 2007-01-24 2008-07-24 Juergen Fritsch Monitoring User Interactions With A Document Editing System
US8132104B2 (en) * 2007-01-24 2012-03-06 Cerner Innovation, Inc. Multi-modal entry for electronic clinical documentation
US20080221882A1 (en) * 2007-03-06 2008-09-11 Bundock Donald S System for excluding unwanted data from a voice recording
US8615389B1 (en) * 2007-03-16 2013-12-24 Language Weaver, Inc. Generation and exploitation of an approximate language model
WO2008120146A1 (en) 2007-03-29 2008-10-09 Nuance Communications Austria Gmbh Method and system for generating a medical report and computer program product therefor
US8831928B2 (en) * 2007-04-04 2014-09-09 Language Weaver, Inc. Customizable machine translation service
JP5145751B2 (ja) * 2007-04-06 2013-02-20 コニカミノルタエムジー株式会社 医療用の情報処理システム
US20080273774A1 (en) * 2007-05-04 2008-11-06 Maged Mikhail System and methods for capturing a medical drawing or sketch for generating progress notes, diagnosis and billing codes
US8825466B1 (en) 2007-06-08 2014-09-02 Language Weaver, Inc. Modification of annotated bilingual segment pairs in syntax-based machine translation
US8306822B2 (en) * 2007-09-11 2012-11-06 Microsoft Corporation Automatic reading tutoring using dynamically built language model
US20090216532A1 (en) * 2007-09-26 2009-08-27 Nuance Communications, Inc. Automatic Extraction and Dissemination of Audio Impression
US8301633B2 (en) * 2007-10-01 2012-10-30 Palo Alto Research Center Incorporated System and method for semantic search
US20100017293A1 (en) * 2008-07-17 2010-01-21 Language Weaver, Inc. System, method, and computer program for providing multilingual text advertisments
US8019608B2 (en) 2008-08-29 2011-09-13 Multimodal Technologies, Inc. Distributed speech recognition using one way communication
US20100125450A1 (en) 2008-10-27 2010-05-20 Spheris Inc. Synchronized transcription rules handling
US20100145720A1 (en) * 2008-12-05 2010-06-10 Bruce Reiner Method of extracting real-time structured data and performing data analysis and decision support in medical reporting
JP5377430B2 (ja) * 2009-07-08 2013-12-25 本田技研工業株式会社 質問応答データベース拡張装置および質問応答データベース拡張方法
US8990064B2 (en) * 2009-07-28 2015-03-24 Language Weaver, Inc. Translating documents based on content
CA2789158C (en) 2010-02-10 2016-12-20 Mmodal Ip Llc Providing computable guidance to relevant evidence in question-answering systems
US10417646B2 (en) * 2010-03-09 2019-09-17 Sdl Inc. Predicting the cost associated with translating textual content
US8463673B2 (en) 2010-09-23 2013-06-11 Mmodal Ip Llc User feedback in semi-automatic question answering systems
US8959102B2 (en) 2010-10-08 2015-02-17 Mmodal Ip Llc Structured searching of dynamic structured document corpuses
US9262397B2 (en) 2010-10-08 2016-02-16 Microsoft Technology Licensing, Llc General purpose correction of grammatical and word usage errors
US8768723B2 (en) 2011-02-18 2014-07-01 Nuance Communications, Inc. Methods and apparatus for formatting text for clinical fact extraction
US10460288B2 (en) 2011-02-18 2019-10-29 Nuance Communications, Inc. Methods and apparatus for identifying unspecified diagnoses in clinical documentation
US10032127B2 (en) 2011-02-18 2018-07-24 Nuance Communications, Inc. Methods and apparatus for determining a clinician's intent to order an item
US8924394B2 (en) 2011-02-18 2014-12-30 Mmodal Ip Llc Computer-assisted abstraction for reporting of quality measures
US9904768B2 (en) 2011-02-18 2018-02-27 Nuance Communications, Inc. Methods and apparatus for presenting alternative hypotheses for medical facts
US11003838B2 (en) 2011-04-18 2021-05-11 Sdl Inc. Systems and methods for monitoring post translation editing
US8694303B2 (en) 2011-06-15 2014-04-08 Language Weaver, Inc. Systems and methods for tuning parameters in statistical machine translation
US9412369B2 (en) 2011-06-17 2016-08-09 Microsoft Technology Licensing, Llc Automated adverse drug event alerts
WO2012177662A1 (en) * 2011-06-19 2012-12-27 Mmodal Ip Llc Document extension in dictation-based document generation workflow
US8855997B2 (en) * 2011-07-28 2014-10-07 Microsoft Corporation Linguistic error detection
US8650031B1 (en) * 2011-07-31 2014-02-11 Nuance Communications, Inc. Accuracy improvement of spoken queries transcription using co-occurrence information
US8886515B2 (en) 2011-10-19 2014-11-11 Language Weaver, Inc. Systems and methods for enhancing machine translation post edit review processes
US9009025B1 (en) 2011-12-27 2015-04-14 Amazon Technologies, Inc. Context-based utterance recognition
US9569593B2 (en) 2012-03-08 2017-02-14 Nuance Communications, Inc. Methods and apparatus for generating clinical reports
WO2013133891A1 (en) * 2012-03-08 2013-09-12 Nuance Communications, Inc. Methods and apparatus for generating clinical reports
US9569594B2 (en) 2012-03-08 2017-02-14 Nuance Communications, Inc. Methods and apparatus for generating clinical reports
US8942973B2 (en) 2012-03-09 2015-01-27 Language Weaver, Inc. Content page URL translation
US8612261B1 (en) 2012-05-21 2013-12-17 Health Management Associates, Inc. Automated learning for medical data processing system
US10261994B2 (en) 2012-05-25 2019-04-16 Sdl Inc. Method and system for automatic management of reputation of translators
US9679077B2 (en) * 2012-06-29 2017-06-13 Mmodal Ip Llc Automated clinical evidence sheet workflow
JP6388864B2 (ja) 2012-08-13 2018-09-12 エムモーダル アイピー エルエルシー 自由形式テキストに含まれる情報に対応する離散データ表現の維持
WO2014031541A2 (en) * 2012-08-18 2014-02-27 Health Fidelity, Inc. Systems and methods for processing patient information
US9405448B2 (en) 2012-08-30 2016-08-02 Arria Data2Text Limited Method and apparatus for annotating a graphical output
US9336193B2 (en) 2012-08-30 2016-05-10 Arria Data2Text Limited Method and apparatus for updating a previously generated text
US9135244B2 (en) 2012-08-30 2015-09-15 Arria Data2Text Limited Method and apparatus for configurable microplanning
US8762133B2 (en) 2012-08-30 2014-06-24 Arria Data2Text Limited Method and apparatus for alert validation
US8762134B2 (en) 2012-08-30 2014-06-24 Arria Data2Text Limited Method and apparatus for situational analysis text generation
US9600471B2 (en) 2012-11-02 2017-03-21 Arria Data2Text Limited Method and apparatus for aggregating with information generalization
WO2014076524A1 (en) 2012-11-16 2014-05-22 Data2Text Limited Method and apparatus for spatial descriptions in an output text
WO2014076525A1 (en) 2012-11-16 2014-05-22 Data2Text Limited Method and apparatus for expressing time in an output text
US9152622B2 (en) 2012-11-26 2015-10-06 Language Weaver, Inc. Personalized machine translation via online adaptation
WO2014102568A1 (en) 2012-12-27 2014-07-03 Arria Data2Text Limited Method and apparatus for motion detection
US9990360B2 (en) 2012-12-27 2018-06-05 Arria Data2Text Limited Method and apparatus for motion description
US10776561B2 (en) 2013-01-15 2020-09-15 Arria Data2Text Limited Method and apparatus for generating a linguistic representation of raw input data
US11024406B2 (en) 2013-03-12 2021-06-01 Nuance Communications, Inc. Systems and methods for identifying errors and/or critical results in medical reports
US9819798B2 (en) 2013-03-14 2017-11-14 Intellisist, Inc. Computer-implemented system and method for efficiently facilitating appointments within a call center via an automatic call distributor
US20140278553A1 (en) * 2013-03-15 2014-09-18 Mmodal Ip Llc Dynamic Superbill Coding Workflow
US10586466B2 (en) 2013-04-04 2020-03-10 Jonathan Andrew WATERHOUSE Process for displaying an action vignette while text of a passage associated with the action vignette is correctly read aloud
US10496743B2 (en) 2013-06-26 2019-12-03 Nuance Communications, Inc. Methods and apparatus for extracting facts from a medical text
WO2015028844A1 (en) 2013-08-29 2015-03-05 Arria Data2Text Limited Text generation from correlated alerts
US9396181B1 (en) 2013-09-16 2016-07-19 Arria Data2Text Limited Method, apparatus, and computer program product for user-directed reporting
US9244894B1 (en) 2013-09-16 2016-01-26 Arria Data2Text Limited Method and apparatus for interactive reports
US9213694B2 (en) 2013-10-10 2015-12-15 Language Weaver, Inc. Efficient online domain adaptation
US10324966B2 (en) 2014-03-21 2019-06-18 Mmodal Ip Llc Search by example
WO2015159133A1 (en) 2014-04-18 2015-10-22 Arria Data2Text Limited Method and apparatus for document planning
US10152532B2 (en) 2014-08-07 2018-12-11 AT&T Interwise Ltd. Method and system to associate meaningful expressions with abbreviated names
US10169826B1 (en) * 2014-10-31 2019-01-01 Intuit Inc. System and method for generating explanations for tax calculations
US10387970B1 (en) 2014-11-25 2019-08-20 Intuit Inc. Systems and methods for analyzing and generating explanations for changes in tax return results
WO2016090010A1 (en) * 2014-12-03 2016-06-09 Hakman Labs LLC Workflow definition, orchestration and enforcement via a collaborative interface according to a hierarchical checklist
US10950329B2 (en) 2015-03-13 2021-03-16 Mmodal Ip Llc Hybrid human and computer-assisted coding workflow
US20170116194A1 (en) 2015-10-23 2017-04-27 International Business Machines Corporation Ingestion planning for complex tables
US10747947B2 (en) * 2016-02-25 2020-08-18 Nxgn Management, Llc Electronic health record compatible distributed dictation transcription system
JP2017167433A (ja) * 2016-03-17 2017-09-21 株式会社東芝 サマリ生成装置、サマリ生成方法及びサマリ生成プログラム
US10754978B2 (en) 2016-07-29 2020-08-25 Intellisist Inc. Computer-implemented system and method for storing and retrieving sensitive information
US10567850B2 (en) 2016-08-26 2020-02-18 International Business Machines Corporation Hierarchical video concept tagging and indexing system for learning content orchestration
US10445432B1 (en) 2016-08-31 2019-10-15 Arria Data2Text Limited Method and apparatus for lightweight multilingual natural language realizer
US10467347B1 (en) 2016-10-31 2019-11-05 Arria Data2Text Limited Method and apparatus for natural language document orchestrator
US10860685B2 (en) 2016-11-28 2020-12-08 Google Llc Generating structured text content using speech recognition models
EP3571608A4 (en) * 2017-01-17 2020-10-28 MModal IP LLC PROCEDURES AND SYSTEMS FOR MANIFESTATION AND TRANSMISSION OF FOLLOW-UP NOTIFICATIONS
WO2018152352A1 (en) 2017-02-18 2018-08-23 Mmodal Ip Llc Computer-automated scribe tools
US11316865B2 (en) 2017-08-10 2022-04-26 Nuance Communications, Inc. Ambient cooperative intelligence system and method
US11114186B2 (en) 2017-08-10 2021-09-07 Nuance Communications, Inc. Automated clinical documentation system and method
US10579716B2 (en) * 2017-11-06 2020-03-03 Microsoft Technology Licensing, Llc Electronic document content augmentation
CA3083087A1 (en) 2017-11-22 2019-05-31 Mmodal Ip Llc Automated code feedback system
US11250383B2 (en) 2018-03-05 2022-02-15 Nuance Communications, Inc. Automated clinical documentation system and method
EP3762921A4 (en) 2018-03-05 2022-05-04 Nuance Communications, Inc. AUTOMATED CLINICAL DOCUMENTATION SYSTEM AND PROCESS
WO2019173349A1 (en) 2018-03-05 2019-09-12 Nuance Communications, Inc. System and method for review of automated clinical documentation
US10891436B2 (en) * 2018-03-09 2021-01-12 Accenture Global Solutions Limited Device and method for voice-driven ideation session management
US10664662B2 (en) * 2018-04-18 2020-05-26 Microsoft Technology Licensing, Llc Multi-scale model for semantic matching
US11836454B2 (en) 2018-05-02 2023-12-05 Language Scientific, Inc. Systems and methods for producing reliable translation in near real-time
KR20190136578A (ko) * 2018-05-31 2019-12-10 삼성전자주식회사 음성 인식 방법 및 장치
US11455497B2 (en) * 2018-07-23 2022-09-27 Accenture Global Solutions Limited Information transition management platform
US11062704B1 (en) 2018-12-21 2021-07-13 Cerner Innovation, Inc. Processing multi-party conversations
US11094322B2 (en) * 2019-02-07 2021-08-17 International Business Machines Corporation Optimizing speech to text conversion and text summarization using a medical provider workflow model
US10522138B1 (en) * 2019-02-11 2019-12-31 Groupe Allo Media SAS Real-time voice processing systems and methods
US11216480B2 (en) 2019-06-14 2022-01-04 Nuance Communications, Inc. System and method for querying data points from graph data structures
US11043207B2 (en) 2019-06-14 2021-06-22 Nuance Communications, Inc. System and method for array data simulation and customized acoustic modeling for ambient ASR
US11227679B2 (en) 2019-06-14 2022-01-18 Nuance Communications, Inc. Ambient clinical intelligence system and method
US11531807B2 (en) 2019-06-28 2022-12-20 Nuance Communications, Inc. System and method for customized text macros
US11670408B2 (en) 2019-09-30 2023-06-06 Nuance Communications, Inc. System and method for review of automated clinical documentation
US10805665B1 (en) 2019-12-13 2020-10-13 Bank Of America Corporation Synchronizing text-to-audio with interactive videos in the video framework
US11350185B2 (en) 2019-12-13 2022-05-31 Bank Of America Corporation Text-to-audio for interactive videos using a markup language
JP6818916B2 (ja) * 2020-01-08 2021-01-27 株式会社東芝 サマリ生成装置、サマリ生成方法及びサマリ生成プログラム
US11222103B1 (en) 2020-10-29 2022-01-11 Nuance Communications, Inc. Ambient cooperative intelligence system and method
US11429780B1 (en) 2021-01-11 2022-08-30 Suki AI, Inc. Systems and methods to briefly deviate from and resume back to amending a section of a note
US20220383874A1 (en) 2021-05-28 2022-12-01 3M Innovative Properties Company Documentation system based on dynamic semantic templates
US20230395063A1 (en) * 2022-06-03 2023-12-07 Nuance Communications, Inc. System and Method for Secure Transcription Generation

Family Cites Families (131)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62221775A (ja) 1986-03-20 1987-09-29 Fujitsu Ltd 自然言語処理方式
US5434962A (en) * 1990-09-07 1995-07-18 Fuji Xerox Co., Ltd. Method and system for automatically generating logical structures of electronic documents
JPH0769921B2 (ja) 1990-11-09 1995-07-31 株式会社日立製作所 文書論理構造生成方法
AU2868092A (en) * 1991-09-30 1993-05-03 Riverrun Technology Method and apparatus for managing information
JPH06168267A (ja) 1992-11-30 1994-06-14 Itec:Kk 構造化文書作成方法及び構造化文書作成支援装置
US5384892A (en) * 1992-12-31 1995-01-24 Apple Computer, Inc. Dynamic language model for speech recognition
AU6080094A (en) 1992-12-31 1994-08-15 Apple Computer, Inc. Recursive finite state grammar
US5594638A (en) * 1993-12-29 1997-01-14 First Opinion Corporation Computerized medical diagnostic system including re-enter function and sensitivity factors
NZ248751A (en) * 1994-03-23 1997-11-24 Ryan John Kevin Text analysis and coding
JP2618832B2 (ja) * 1994-06-16 1997-06-11 日本アイ・ビー・エム株式会社 文書の論理構造の解析方法及びシステム
US6061675A (en) * 1995-05-31 2000-05-09 Oracle Corporation Methods and apparatus for classifying terminology utilizing a knowledge catalog
US5701469A (en) * 1995-06-07 1997-12-23 Microsoft Corporation Method and system for generating accurate search results using a content-index
GB9525719D0 (en) * 1995-12-15 1996-02-14 Hewlett Packard Co Speech system
US6041292A (en) * 1996-01-16 2000-03-21 Jochim; Carol Real time stenographic system utilizing vowel omission principle
US6684188B1 (en) * 1996-02-02 2004-01-27 Geoffrey C Mitchell Method for production of medical records and other technical documents
US5835893A (en) * 1996-02-15 1998-11-10 Atr Interpreting Telecommunications Research Labs Class-based word clustering for speech recognition using a three-level balanced hierarchical similarity
US5870706A (en) * 1996-04-10 1999-02-09 Lucent Technologies, Inc. Method and apparatus for an improved language recognition system
US5823948A (en) * 1996-07-08 1998-10-20 Rlis, Inc. Medical records, documentation, tracking and order entry system
US5797123A (en) * 1996-10-01 1998-08-18 Lucent Technologies Inc. Method of key-phase detection and verification for flexible speech understanding
US6182029B1 (en) * 1996-10-28 2001-01-30 The Trustees Of Columbia University In The City Of New York System and method for language extraction and encoding utilizing the parsing of text data in accordance with domain parameters
US6055494A (en) * 1996-10-28 2000-04-25 The Trustees Of Columbia University In The City Of New York System and method for medical language extraction and encoding
US5839106A (en) * 1996-12-17 1998-11-17 Apple Computer, Inc. Large-vocabulary speech recognition using an integrated syntactic and semantic statistical language model
US6122613A (en) * 1997-01-30 2000-09-19 Dragon Systems, Inc. Speech recognition using multiple recognizers (selectively) applied to the same input sample
US5995936A (en) * 1997-02-04 1999-11-30 Brais; Louis Report generation system and method for capturing prose, audio, and video by voice command and automatically linking sound and image to formatted text locations
JP2002512712A (ja) * 1997-03-13 2002-04-23 ファースト オピニオン コーポレイション 疾患管理システム
US5970449A (en) * 1997-04-03 1999-10-19 Microsoft Corporation Text normalization using a context-free grammar
US6490561B1 (en) * 1997-06-25 2002-12-03 Dennis L. Wilson Continuous speech voice transcription
US5926784A (en) * 1997-07-17 1999-07-20 Microsoft Corporation Method and system for natural language parsing using podding
EP0903727A1 (en) 1997-09-17 1999-03-24 Istituto Trentino Di Cultura A system and method for automatic speech recognition
WO1999017223A1 (en) * 1997-09-30 1999-04-08 Ihc Health Services, Inc. Aprobabilistic system for natural language processing
US6112168A (en) * 1997-10-20 2000-08-29 Microsoft Corporation Automatically recognizing the discourse structure of a body of text
US6304870B1 (en) * 1997-12-02 2001-10-16 The Board Of Regents Of The University Of Washington, Office Of Technology Transfer Method and apparatus of automatically generating a procedure for extracting information from textual information sources
US6154722A (en) * 1997-12-18 2000-11-28 Apple Computer, Inc. Method and apparatus for a speech recognition system language model that integrates a finite state grammar probability and an N-gram probability
DE19809563A1 (de) * 1998-03-05 1999-09-09 Siemens Ag Medizinischer Arbeitsplatz
US6182039B1 (en) * 1998-03-24 2001-01-30 Matsushita Electric Industrial Co., Ltd. Method and apparatus using probabilistic language model based on confusable sets for speech recognition
US7043426B2 (en) 1998-04-01 2006-05-09 Cyberpulse, L.L.C. Structured speech recognition
US6778970B2 (en) * 1998-05-28 2004-08-17 Lawrence Au Topological methods to organize semantic network data flows for conversational applications
US6915254B1 (en) * 1998-07-30 2005-07-05 A-Life Medical, Inc. Automatically assigning medical codes using natural language processing
US6304848B1 (en) * 1998-08-13 2001-10-16 Medical Manager Corp. Medical record forming and storing apparatus and medical record and method related to same
US6122614A (en) * 1998-11-20 2000-09-19 Custom Speech Usa, Inc. System and method for automating transcription services
US6249765B1 (en) * 1998-12-22 2001-06-19 Xerox Corporation System and method for extracting data from audio messages
US6278968B1 (en) * 1999-01-29 2001-08-21 Sony Corporation Method and apparatus for adaptive speech recognition hypothesis construction and selection in a spoken language translation system
US6243669B1 (en) * 1999-01-29 2001-06-05 Sony Corporation Method and apparatus for providing syntactic analysis and data structure for translation knowledge in example-based language translation
WO2000054180A1 (fr) 1999-03-05 2000-09-14 Cai Co., Ltd. Systeme et procede de creation de document formate sur la base de la reconnaissance vocale conversationnelle
JP2000259175A (ja) 1999-03-08 2000-09-22 Mitsubishi Electric Corp 音声認識装置
US6526380B1 (en) 1999-03-26 2003-02-25 Koninklijke Philips Electronics N.V. Speech recognition system having parallel large vocabulary recognition engines
US6609087B1 (en) * 1999-04-28 2003-08-19 Genuity Inc. Fact recognition system
US6345249B1 (en) * 1999-07-07 2002-02-05 International Business Machines Corp. Automatic analysis of a speech dictated document
US6434547B1 (en) * 1999-10-28 2002-08-13 Qenm.Com Data capture and verification system
US7725307B2 (en) * 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US7392185B2 (en) * 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
JP2003515778A (ja) 1999-12-02 2003-05-07 トムソン ライセンシング ソシエテ アノニム 別々の言語モデルによる音声認識方法及び装置
US6535849B1 (en) * 2000-01-18 2003-03-18 Scansoft, Inc. Method and system for generating semi-literal transcripts for speech recognition systems
US6738784B1 (en) * 2000-04-06 2004-05-18 Dictaphone Corporation Document and information processing system
GB0011798D0 (en) * 2000-05-16 2000-07-05 Canon Kk Database annotation and retrieval
US6816603B2 (en) * 2000-05-18 2004-11-09 Commwell, Inc. Method and apparatus for remote medical monitoring incorporating video processing and system of motor tasks
US6662168B1 (en) * 2000-05-19 2003-12-09 International Business Machines Corporation Coding system for high data volume
US6636848B1 (en) * 2000-05-31 2003-10-21 International Business Machines Corporation Information search using knowledge agents
US7031908B1 (en) * 2000-06-01 2006-04-18 Microsoft Corporation Creating a language model for a language processing system
US7490092B2 (en) * 2000-07-06 2009-02-10 Streamsage, Inc. Method and system for indexing and searching timed media information based upon relevance intervals
US6785651B1 (en) * 2000-09-14 2004-08-31 Microsoft Corporation Method and apparatus for performing plan-based dialog
JP4108948B2 (ja) * 2000-09-25 2008-06-25 富士通株式会社 複数の文書を閲覧するための装置および方法
US6766328B2 (en) * 2000-11-07 2004-07-20 Ascriptus, Inc. System for the creation of database and structured information from verbal input
US8712791B2 (en) * 2000-11-22 2014-04-29 Catalis, Inc. Systems and methods for documenting medical findings of a physical examination
US20020087311A1 (en) * 2000-12-29 2002-07-04 Leung Lee Victor Wai Computer-implemented dynamic language model generation method and system
US20020087315A1 (en) 2000-12-29 2002-07-04 Lee Victor Wai Leung Computer-implemented multi-scanning language method and system
US6714939B2 (en) * 2001-01-08 2004-03-30 Softface, Inc. Creation of structured data from plain text
US20020099717A1 (en) * 2001-01-24 2002-07-25 Gordon Bennett Method for report generation in an on-line transcription system
WO2002082318A2 (en) * 2001-02-22 2002-10-17 Volantia Holdings Limited System and method for extracting information
US6754626B2 (en) * 2001-03-01 2004-06-22 International Business Machines Corporation Creating a hierarchical tree of language models for a dialog system based on prompt and dialog context
US7366979B2 (en) * 2001-03-09 2008-04-29 Copernicus Investments, Llc Method and apparatus for annotating a document
EP1490790A2 (en) * 2001-03-13 2004-12-29 Intelligate Ltd. Dynamic natural language understanding
US6834264B2 (en) * 2001-03-29 2004-12-21 Provox Technologies Corporation Method and apparatus for voice dictation and document production
US7188064B2 (en) * 2001-04-13 2007-03-06 University Of Texas System Board Of Regents System and method for automatic semantic coding of free response data using Hidden Markov Model methodology
US7519529B1 (en) * 2001-06-29 2009-04-14 Microsoft Corporation System and methods for inferring informational goals and preferred level of detail of results in response to questions posed to an automated information-retrieval or question-answering service
JP2003022091A (ja) 2001-07-10 2003-01-24 Nippon Hoso Kyokai <Nhk> 音声認識方法および音声認識装置ならびに音声認識プログラム
US20030065503A1 (en) * 2001-09-28 2003-04-03 Philips Electronics North America Corp. Multi-lingual transcription system
US20030069760A1 (en) * 2001-10-04 2003-04-10 Arthur Gelber System and method for processing and pre-adjudicating patient benefit claims
CA2461214A1 (en) * 2001-10-18 2003-04-24 Yeong Kuang Oon System and method of improved recording of medical transactions
US20030101054A1 (en) * 2001-11-27 2003-05-29 Ncc, Llc Integrated system and method for electronic speech recognition and transcription
US20030105638A1 (en) * 2001-11-27 2003-06-05 Taira Rick K. Method and system for creating computer-understandable structured medical data from natural language reports
US20030144885A1 (en) * 2002-01-29 2003-07-31 Exscribe, Inc. Medical examination and transcription method, and associated apparatus
WO2003067471A1 (fr) * 2002-02-04 2003-08-14 Celestar Lexico-Sciences, Inc. Appareil et procede permettant de traiter des connaissances dans des documents
US7257531B2 (en) * 2002-04-19 2007-08-14 Medcom Information Systems, Inc. Speech to text system using controlled vocabulary indices
US7197460B1 (en) * 2002-04-23 2007-03-27 At&T Corp. System for handling frequently asked questions in a natural language dialog service
US7869998B1 (en) * 2002-04-23 2011-01-11 At&T Intellectual Property Ii, L.P. Voice-enabled dialog system
US7028038B1 (en) * 2002-07-03 2006-04-11 Mayo Foundation For Medical Education And Research Method for generating training data for medical text abbreviation and acronym normalization
US20040230404A1 (en) * 2002-08-19 2004-11-18 Messmer Richard Paul System and method for optimizing simulation of a discrete event process using business system data
US20060041836A1 (en) * 2002-09-12 2006-02-23 Gordon T J Information documenting system with improved speed, completeness, retriveability and granularity
US7016844B2 (en) * 2002-09-26 2006-03-21 Core Mobility, Inc. System and method for online transcription services
AU2003290955A1 (en) * 2002-11-22 2004-06-18 Transclick, Inc. Language translation system and method
US7774694B2 (en) * 2002-12-06 2010-08-10 3M Innovation Properties Company Method and system for server-based sequential insertion processing of speech recognition results
US7444285B2 (en) * 2002-12-06 2008-10-28 3M Innovative Properties Company Method and system for sequential insertion of speech recognition results to facilitate deferred transcription services
JP4415546B2 (ja) * 2003-01-06 2010-02-17 三菱電機株式会社 音声対話処理装置とそのプログラム
US20040148170A1 (en) * 2003-01-23 2004-07-29 Alejandro Acero Statistical classifiers for spoken language understanding and command/control scenarios
US7958443B2 (en) * 2003-02-28 2011-06-07 Dictaphone Corporation System and method for structuring speech recognized text into a pre-selected document format
US8095544B2 (en) * 2003-05-30 2012-01-10 Dictaphone Corporation Method, system, and apparatus for validation
US20040243545A1 (en) * 2003-05-29 2004-12-02 Dictaphone Corporation Systems and methods utilizing natural language medical records
US8311835B2 (en) * 2003-08-29 2012-11-13 Microsoft Corporation Assisted multi-modal dialogue
US20050065774A1 (en) * 2003-09-20 2005-03-24 International Business Machines Corporation Method of self enhancement of search results through analysis of system logs
JP2005122128A (ja) * 2003-09-25 2005-05-12 Fuji Photo Film Co Ltd 音声認識システム及びプログラム
US7860717B2 (en) * 2003-09-25 2010-12-28 Dictaphone Corporation System and method for customizing speech recognition input and output
US20050120300A1 (en) * 2003-09-25 2005-06-02 Dictaphone Corporation Method, system, and apparatus for assembly, transport and display of clinical data
US20050144184A1 (en) * 2003-10-01 2005-06-30 Dictaphone Corporation System and method for document section segmentation
US7996223B2 (en) * 2003-10-01 2011-08-09 Dictaphone Corporation System and method for post processing speech recognition output
US7599950B2 (en) * 2004-03-15 2009-10-06 Yahoo! Inc. Systems and methods for collecting user annotations
US7379946B2 (en) * 2004-03-31 2008-05-27 Dictaphone Corporation Categorization of information using natural language processing and predefined templates
US20050240439A1 (en) * 2004-04-15 2005-10-27 Artificial Medical Intelligence, Inc, System and method for automatic assignment of medical codes to unformatted data
US20050273365A1 (en) * 2004-06-04 2005-12-08 Agfa Corporation Generalized approach to structured medical reporting
US20050288930A1 (en) * 2004-06-09 2005-12-29 Vaastek, Inc. Computer voice recognition apparatus and method
EP1774508A2 (en) * 2004-07-09 2007-04-18 Gesturerad, Inc. Gesture-based reporting method and system
US20060020886A1 (en) * 2004-07-15 2006-01-26 Agrawal Subodh K System and method for the structured capture of information and the generation of semantically rich reports
US20060020466A1 (en) * 2004-07-26 2006-01-26 Cousineau Leo E Ontology based medical patient evaluation method for data capture and knowledge representation
US7584103B2 (en) * 2004-08-20 2009-09-01 Multimodal Technologies, Inc. Automated extraction of semantic content and generation of a structured document from speech
US20130304453A9 (en) * 2004-08-20 2013-11-14 Juergen Fritsch Automated Extraction of Semantic Content and Generation of a Structured Document from Speech
US8412521B2 (en) * 2004-08-20 2013-04-02 Multimodal Technologies, Llc Discriminative training of document transcription system
US7650628B2 (en) * 2004-10-21 2010-01-19 Escription, Inc. Transcription data security
US20060129435A1 (en) * 2004-12-15 2006-06-15 Critical Connection Inc. System and method for providing community health data services
US7502741B2 (en) * 2005-02-23 2009-03-10 Multimodal Technologies, Inc. Audio signal de-identification
WO2007024769A2 (en) * 2005-08-22 2007-03-01 The Personal Bee, Inc. Semantic discovery engine
WO2007056601A2 (en) * 2005-11-09 2007-05-18 The Regents Of The University Of California Methods and apparatus for context-sensitive telemedicine
US7957968B2 (en) * 2005-12-22 2011-06-07 Honda Motor Co., Ltd. Automatic grammar generation using distributedly collected knowledge
US7610192B1 (en) * 2006-03-22 2009-10-27 Patrick William Jamieson Process and system for high precision coding of free text documents against a standard lexicon
US8731954B2 (en) * 2006-03-27 2014-05-20 A-Life Medical, Llc Auditing the coding and abstracting of documents
US8233751B2 (en) * 2006-04-10 2012-07-31 Patel Nilesh V Method and system for simplified recordkeeping including transcription and voting based verification
US8121838B2 (en) * 2006-04-11 2012-02-21 Nuance Communications, Inc. Method and system for automatic transcription prioritization
US20070299665A1 (en) * 2006-06-22 2007-12-27 Detlef Koll Automatic Decision Support
US8356245B2 (en) * 2007-01-05 2013-01-15 International Business Machines Corporation System and method of automatically mapping a given annotator to an aggregate of given annotators
US7917355B2 (en) * 2007-08-23 2011-03-29 Google Inc. Word detection
CA2680304C (en) * 2008-09-25 2017-08-22 Multimodal Technologies, Inc. Decoding-time prediction of non-verbalized tokens
US8290961B2 (en) * 2009-01-13 2012-10-16 Sandia Corporation Technique for information retrieval using enhanced latent semantic analysis generating rank approximation matrix by factorizing the weighted morpheme-by-document matrix

Also Published As

Publication number Publication date
DK1787288T3 (da) 2012-10-29
US20060041428A1 (en) 2006-02-23
JP2008511024A (ja) 2008-04-10
WO2006023622A2 (en) 2006-03-02
CA2577721A1 (en) 2006-03-02
PL1787288T3 (pl) 2013-01-31
EP1787288A4 (en) 2008-10-08
WO2006023622A3 (en) 2007-04-12
CA2577721C (en) 2015-03-24
EP1787288A2 (en) 2007-05-23
US7584103B2 (en) 2009-09-01
US20090048833A1 (en) 2009-02-19
JP4940139B2 (ja) 2012-05-30
EP1787288B1 (en) 2012-08-15

Similar Documents

Publication Publication Date Title
ES2394726T3 (es) Extracción automática de contenido semántico y generación de un documento estructurado a partir del habla
US20100299135A1 (en) Automated Extraction of Semantic Content and Generation of a Structured Document from Speech
US7805299B2 (en) Method and apparatus for improving the transcription accuracy of speech recognition software
US7668718B2 (en) Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile
US8335688B2 (en) Document transcription system training
US7580835B2 (en) Question-answering method, system, and program for answering question input by speech
US10733976B2 (en) Method and apparatus for improving the transcription accuracy of speech recognition software
US8600748B2 (en) System and methods for matching an utterance to a template hierarchy
Mukhamadiyev et al. Automatic speech recognition method based on deep learning approaches for Uzbek language
Ajami Use of speech-to-text technology for documentation by healthcare providers
US9652991B2 (en) Systems and methods for content scoring of spoken responses
Van den Bosch et al. Implicit schemata and categories in memory-based language processing
Parker Sounding out sonority
Wadud et al. Non-autoregressive end-to-end neural modeling for automatic pronunciation error detection
Ten Bosch et al. DIANA, a process-oriented model of human auditory word recognition
Alrumiah et al. Intelligent Quran Recitation Recognition and Verification: Research Trends and Open Issues
Stüker et al. Towards Context-Dependent Phonetic Spelling Error Correction in Children's Freely Composed Text for Diagnostic and Pedagogical Purposes.
Kaland et al. Which language r you speaking?/r/as a language marker in Tyrolean and Italian bilinguals
WO2007048053A1 (en) Method and apparatus for improving the transcription accuracy of speech recognition software
US20090099847A1 (en) Template constrained posterior probability
Brhanemeskel et al. Amharic speech search using text word query based on automatic sentence-like segmentation
Kąkol et al. Detecting lombard speech using deep learning approach
Kim et al. Korean Prosody Phrase Boundary Prediction Model for Speech Synthesis Service in Smart Healthcare
Tanner Structured phonetic variation across dialects and speakers of English and Japanese
Azim et al. A Weighted Combination of Speech with Text-based Models for Arabic Diacritization.