ES2394726T3 - Extracción automática de contenido semántico y generación de un documento estructurado a partir del habla - Google Patents
Extracción automática de contenido semántico y generación de un documento estructurado a partir del habla Download PDFInfo
- Publication number
- ES2394726T3 ES2394726T3 ES05789851T ES05789851T ES2394726T3 ES 2394726 T3 ES2394726 T3 ES 2394726T3 ES 05789851 T ES05789851 T ES 05789851T ES 05789851 T ES05789851 T ES 05789851T ES 2394726 T3 ES2394726 T3 ES 2394726T3
- Authority
- ES
- Spain
- Prior art keywords
- document
- linguistic
- audio stream
- structured
- linguistic model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title description 3
- 238000000034 method Methods 0.000 claims abstract description 124
- 238000005259 measurement Methods 0.000 claims abstract description 3
- 239000003814 drug Substances 0.000 claims description 10
- 229940079593 drug Drugs 0.000 claims description 9
- 238000012549 training Methods 0.000 description 31
- 238000013518 transcription Methods 0.000 description 23
- 230000035897 transcription Effects 0.000 description 23
- 238000010586 diagram Methods 0.000 description 18
- 230000008569 process Effects 0.000 description 17
- 230000036961 partial effect Effects 0.000 description 13
- 230000014509 gene expression Effects 0.000 description 11
- 230000006870 function Effects 0.000 description 10
- 210000000038 chest Anatomy 0.000 description 8
- 238000002591 computed tomography Methods 0.000 description 8
- 230000008901 benefit Effects 0.000 description 6
- 238000004590 computer program Methods 0.000 description 6
- 238000002483 medication Methods 0.000 description 6
- 206010020751 Hypersensitivity Diseases 0.000 description 5
- 230000007815 allergy Effects 0.000 description 5
- 206010035664 Pneumonia Diseases 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000012916 structural analysis Methods 0.000 description 3
- 239000004606 Fillers/Extenders Substances 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000000135 prohibitive effect Effects 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 208000026935 allergic disease Diseases 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000004393 prognosis Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000002269 spontaneous effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H15/00—ICT specially adapted for medical reports, e.g. generation or transmission thereof
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
Un procedimiento que comprende las etapas:(A) identificar un modelo lingüístico probabilista que incluye una pluralidad de modelos lingüísticos probabilistasasociada a una pluralidad de subestructuras de un documentos; y(B) utilizar un descodificador de reconocimiento de habla para aplicar el modelo lingüístico 5 probabilista a un flujo deaudio hablado para producir un documento que incluye contenido organizado en la pluralidad desubestructuras, en el cual el contenido en cada una de la pluralidad de subestructuras es producidoreconociendo el habla usando la subestructura, en el cual la pluralidad de modelos lingüísticos probabilistasestán organizados en una jerarquía, y en el cual la etapa (B) comprende las etapas de:(B)(1) identificar una trayectoria a través de la jerarquía, que comprende las etapas de:(B)(1)(a) identificar una pluralidad de trayectoria a través de la jerarquía(B)(1)(b) para cada una de la pluralidad de trayectorias P, producir un documento estructuradocandidato para el flujo de audio hablado usando el descodificador de reconocimiento de habla parareconocer el flujo de audio hablado usando los modelos lingüísticos en la trayectoria P;B(1)© aplicar una medición a la pluralidad de documentos estructurados candidatos producidos en laetapa (B)(1)(b) para producir una pluralidad de puntuaciones de pertinencia para la pluralidad dedocumentos estructurados candidatos; y(B)(1)(d) seleccionar la trayectoria que produce los documentos estructurados candidatos que tienenla mayor puntuación pertinente;(B)(2) generar el documento que tiene una estructura que corresponde a la trayectoria identificada en la etapa(B)(1).
Description
Extracción automática de contenido semántico y generación de un documento estructurado a partir del habla
Esta solicitud está relacionada con la Solicitud de patente de los Estados Unidos titulada “Documento Transcription System Training”.
Campo de la invención
La presente invención se refiere al reconocimiento automático del habla, y más en particular, a técnicas para transcribir automáticamente el habla.
Es deseable en muchos contextos generar un documento escrito basado en el habla humana. En la profesión legal, por ejemplo, los transcriptores transcriben testimonios dados en procedimientos judiciales y en declaraciones para producir una transcripción escrita del testimonio. Asimismo, en la profesión médica, se producen transcripciones de diagnósticos, pronósticos, prescripciones y otras informaciones dictadas por los médicos y otros profesionales médicos. Las transcripciones en estos y otros campos necesitan típicamente ser muy precisas (medidas en términos de grado de correspondencia entre el contenido semántico (significado) del discurso original y el contenido semántico de la transcripción resultante) debido a la confianza puesta en las transcripciones resultantes y el perjuicio que podría causar una imprecisión (tal como proporcionar una prescripción de fármaco incorrecta a un paciente). Los altos grados de fiabilidad pueden, sin embargo ser difíciles de obtenerse de manera consistente por varias razones, tales como las variaciones en : (1) las características de los hablantes cuyo habla es transcrito (por ejemplo, acento, volumen, dialecto, velocidad); (2) condiciones externas (por ejemplo, ruido de fondo); (3) el transcriptor o el sistema de transcripción (por ejemplo capacidades de escucha o captura de audio imperfectas, comprensión imperfecta del lenguaje); o (4) medio de grabación/transmisión (por ejemplo, papel, cinta de audio analógica, red telefónica analógica, algoritmos de compresión aplicados en redes telefónicas digitales, y ruidos/artefactos debidos a los canales de teléfonos celulares).
En un primer momento la transcripción solo se realizaba por transcriptores humanos que escuchaban el habla, el discurso, bien entiempo real (por ejemplo, en persona “tomando dictado”) o escuchando una grabación. Una ventaja de los transcriptores humanos es que pueden tener un conocimiento específico de un campo, tal como el conocimiento de la medicina y la terminología médica, lo cual les permite interpretar ambigüedades en el discurso y por lo tanto mejorar la precisión de la transcripción. Los transcriptores humanos, sin embargo, tienen varios inconvenientes. Por ejemplo, los transcriptores humanos producen transcripciones a una velocidad relativamente lenta y su precisión se va reduciendo a lo largo del tiempo como consecuencia del cansancio.
Existen varios sistemas de reconocimiento automático del habla para reconocer el habla humano generalmente y para transcribir el habla en particular. Los sistemas de reconocimiento de habla que crean transcripciones son denominados “sistemas de transcripción automatizados” o “sistemas de dictado automatizados”. El software de disco listo para usar, por ejemplo, puede ser usado por los usuarios de un ordenador personal para dictar documentos en un procesador de texto como alternativa a escribir tales documentos usando un teclado.
Los sistemas de dictado automatizados intentan típicamente producir una transcripción del discurso palabra a palabra. Tal transcripción, en la cual hay una correspondencia unívoca entre las palabras en el flujo de audio hablado y las palabras en la transcripción, se denomina en el presente documento “transcripción literal”. Los sistemas de dictado automatizados no son perfectos y por lo tanto pueden fallar al producir transcripciones literalmente perfectas.
En algunas circunstancias, sin embargo, una transcripción literal no es deseable. De hecho, los transcriptores pueden intencionalmente introducir varios cambios en la transcripción escrita. Una transcripción puede, por ejemplo, filtrar efectos espontáneos del habla (por ejemplo expresiones de pausa, vacilaciones, comienzos falsos), descartar observaciones y comentarios irrelevantes, convertir datos en un formato estándar, insertar encabezamientos u otros materiales explicativos, o cambiar la secuencia del discurso para ajustar la estructura de un informe escrito.
En el campo médico, por ejemplo, los informes hablados producidos por los médicos se transcriben a menudo en informes escritos con formatos estándar. Por ejemplo con referencia a la figura 1B, se muestra un ejemplo de un informe médico estructurado y formateado 111. El informe 111 incluye una variedad de secciones 112-138 que aparecen en una secuencia predeterminada cuando se visualiza el informe 111. En el ejemplo particular mostrado en la figura 1B, el informe incluye una sección de encabezado 112, una sección subjetiva 122, una sección objetiva 134, una sección de evaluación 136, y una sección de plan 138. Las secciones pueden incluir texto así como subsecciones. Por ejemplo, la sección de encabezado 112 incluye una sección de nombre de hospital 120 (que contiene el texto “Hospital General”), una sección de nombre de paciente 114 (que contiene el texto “Jane DOE”, una sección de número de tarjeta 116 (que contiene el texto “851D”), y una sección de fecha de informe 118 (que contiene el texto (10/1/1993”).
Asimismo, la sección subjetiva 122 incluye varias informaciones subjetivas acerca del paciente, incluidas tanto en el texto como en una sección de historial médico 124, una sección de medicaciones 126, una sección de alergias 128, una sección de historial familiar 130, y una sección de historial social 132. La sección objetiva 134 incluye varias informaciones objetivas. Aunque no se ilustra en la figura 1B, la información en la sección objetiva puede incluir subsecciones que contienen la información ilustrada. La sección de evaluación 136 incluye una evaluación textual de la condición del paciente, y la subsección de plan 138 incluye una descripción textual de un plan de tratamiento.
Cabe resaltar que la información puede aparece en una forma diferente en el informe 111 de la forma en que tal información fue dictada por el médico. Por ejemplo la fecha en la sección de fecha de informe 118 puede haber sido dicha como “octubre, uno de 1993” “primero de octubre de 1993” o d otra forma. El transcriptor, sin embargo, transcribió tal discurso usando el texto “10/1/1993) en la sección de fecha de informe 118, quizás porque e hospital especificado en la sección de hospital 120 requiere que las fechas se expresen en los informes escritos con tal formato.
Asimismo, la información en la informe médico 111 puede no aparecer en la misma secuencia que en la grabación de audio original, debido a la necesidad de conformarse a un formato de informe requerido o por algún otro motivo. Por ejemplo, el médico que dicta puede haber dictado en primer lugar la sección objetiva 134, seguida de la sección subjetiva 122, y a continuación el encabezado 120. El informe escrito 111, sin embargo, contiene el encabezado 120 en primer lugar, seguido de la sección subjetiva 122 y a continuación la sección objetiva 134. Tal estructura de informe puede, por ejemplo, ser necesaria para los informes médicos en el hospital especificado en la sección de hospital 120.
El principio del informe 111 puede haber sido generado basándose en un flujo de audio hablado tal como el siguiente: “El doctor Smith uh el primero de octubre um de 1993, identidad del paciente ochentaicinco uno d um a continuación se encuentra el historial familiar del paciente que he revisado ….” Debería ser evidente que una transcripción literal de este discurso sería difícil de entender y no sería particularmente útil.
Cabe resaltar por ejemplo que algunas palabras, tales como “ a continuación se encuentra un” no aparecen en el informe escrito 111. Asimismo, la expresión que marca pausa como “uh” no aparece en el informe escrito 111. Además, el informe escrito 111 organiza el discurso original en las secciones predefinidas 112-140 reordenando el discurso. Como lo ilustran estos ejemplos, el informe escrito 111 no es una transcripción literal del discurso de médico que dicta.
En resumen, un informe tal como el informe 111 puede ser más deseable que una transcripción literal por varios motivos (por ejemplo, porque organiza la información de tal manera que facilita la comprensión). Por lo tanto sería deseable que un sistema de transcripción automática fuese capaz de generar un informe estructurado (en lugar de una transcripción literal) basándose en el discurso sin estructurar.
Con referencia a la figura 1A, se muestra un diagrama de flujo de datos de un sistema de la técnica anterior 100 para generar un documento estructurado 110 basado en un flujo de audio hablado 102. Tal sistema produce el documento de texto estructurado 110 a partir del flujo de audio hablado 102 usando un procedimiento en dos etapas: (1) un reconocedor de habla automático 104 genera una transcripción literal 106 basada en el flujo de audio hablado 102; y (2) un procesador de lenguaje natural 108 identifica la estructura en la transcripción 106 y de este modo crea el documento estructurado 110, que tiene el mismo contenido que la transcripción106, pero que está organizado dentro de la estructura (por ejemplo formato de informe) identificada por el procesador de lenguaje natural 108.
Por ejemplo, algunos sistemas existentes intentan generar documentos de texto estructurados ; (1) analizando eflujo de audio hablado 102 para identificar y distinguir el contenido hablado en el flujo de audio 102 de pistas estructurales explícitas o implícitas en el flujo de audio 102; (2) convirtiendo las porciones de “contenido” del flujo de audio hablado 102 en texto en bruto; y (3) usando las pistas estructurales identificadas para convertir el texto en bruto en el informe estructurado 110. Ejemplos de pistas estructurales explícitas incluyen instrucciones de formato (por ejemplo, “párrafo nuevo”, “línea nueva”, “siguiente punto”) e identificadores de párrafos (por ejemplo “constataciones”, impresiones” conclusiones” ). Ejemplos de pistas estructurales implícitas incluyen pausas largas que pueden indicar límites de párrafo, indicios prosódicos que indican el fin de una enumeración, y el propio contenido hablado.
Por varios motivos descritos más en detalle en lo sucesivo, el documento estructurado 110 producido por el sistema 100 puede que no sea óptimo. Por ejemplo, el documento estructurado 110 puede contener palabras incorrectamente transcritas (por ejemplo mal reconocidas),la estructura del documento estructurado 110 puede fallar en reflejar la estructura deseada del documento, y el contenido del flujo de audio hablado 102 puede ser insertado en las subestructuras incorrectas (por ejemplo, secciones, párrafos o frases) en el documento estructurado.
Asimismo, además de o en lugar de generar el documento estructurado 110 basado en el flujo de audio hablado 102, puede ser deseable extraer el contenido semántico (tal como información acerca de medicaciones, alergias o enfermedades previas del paciente descritas en el flujo de audio 102) del flujo de audio hablado 102. Aunque tal contenido semántico puede ser útil para generar el documento estructurado 110, tal contenido puede también ser útil para otros fines, tales como popularizar una base de datos de información de paciente que se puede analizar independientemente del documento 110. Los sistemas de la técnica anterior tal como el sistema 100 mostrado en la figura 1, sin embargo, están típicamente destinados a generar el documento estructurado 110 basándose principalmente
o solo en información sintáctica en el flujo de audio hablado 102. Tales sistemas no son, por lo tanto, útiles para extraer contenido semántico.
Lo que se necesita es sin embargo, técnicas mejoradas para generar documentos estructurados basados en flujos de audio hablados.
El documento US 2002/0123891 divulga un procedimiento de conversión de habla en texto usando una jerarquía de modelos contextuales. En el procedimiento divulgado, el modelo contextual que refleja más precisamente una o más expresiones habladas de usuario se usa para convertir el discurso en texto. El preámbulo de las reivindicaciones independientes anexas al presente documento se basa en este documento.
Se divulgan técnicas para generar automáticamente documentos estructurados basados en el habla, incluyendo identificación de conceptos relevantes y su interpretación. En una realización, un generador de documento estructurado usa un procedimiento integrado para generar un documento de texto estructurado (tal como un informe médico de texto estructurado) basado en un flujo de audio hablado. El flujo de audio hablado puede ser reconocido usando un modelo lingüístico que incluye una pluralidad de submodelos dispuestos en una estructura jerárquica. Cada uno de los submodelos puede corresponder a un concepto que está previsto que aparezca en el flujo de audio hablado. Por ejemplo, los submodelos pueden corresponder a secciones de documento. Los submodelos pueden, por ejemplo, ser modelos lingüísticos de n-gramas o gramáticas sin contexto. Diferentes porciones del flujo de audio hablado pueden ser reconocidas usando diferentes submodelos. El documento de texto estructurado resultante puede tener una estructura jerárquica que corresponde a la estructura jerárquica de los submodelos lingüísticos que se usaron para generar el documento de texto estructurado.
Por ejemplo, en un aspecto de la presente invención, se proporciona un procedimiento de acuerdo con la reivindicación independiente 1.
Otras características y ventajas de varios aspectos y realizaciones de la presente invención se pondrán de manifiesto a partir de la siguiente descripción y de las reivindicaciones.
Breve descripción de los dibujos
La figura 1A es un diagrama de de flujo de datos de un sistema de la técnica anterior para generar un documento estructurado basado en un flujo de audio hablado; La figura 1B ilustra un informe médico de texto generado basado en un informe hablado; La figura 2 es un diagrama de flujo de un procedimiento que se ejecuta en una realización de la presente invención para generar un documento de texto estructurado basado en un documento hablado; La figura 3 es un diagrama de flujo de datos de un sistema que lleva a cabo el procedimiento de la figura 2 en una realización de la presente invención; La figura 4 ilustra un ejemplo de de un flujo de audio hablado en una realización de la presente invención; La figura 5 ilustra un documento de texto estructurado de acuerdo con una realización de la presente invención; La figura 6 es un ejemplo de un documento presentado que es presentado basado en el documento de texto estructurado de la figura 5 de acuerdo con una realización de la presente invención La figura 7 es un diagrama de flujo de un procedimiento que es ejecutado por el generador de documento estructurado de la figura 3 en una realización de la presente invención para generar un documento de texto estructurado. La figura 8 es un diagrama de flujo de datos que ilustra una porción del sistema de la figura 3 en detalle relacionado con el procedimiento de la figura 7 de acuerdo con una realización de la presente invención. La figura 9 es un diagrama que ilustra correspondencias entre modelos de lenguaje, subestructuras de documento que corresponden a los modelos de lenguaje, y contenidos candidatos producidos usando los modelos lingüísticos de acuerdo con una realización de la presente invención; La figura 10A es un diagrama que ilustra un modelo lingüístico jerárquico de acuerdo con una realización de la presente invención; La figura 10B es un diagrama que ilustra una trayectoria a través del modelo lingüístico jerárquico de la figura 10A de acuerdo con una realización de la presente invención; La figura 10C es un diagrama que ilustra un modelo lingüístico jerárquico de acuerdo con una realización de la presente invención; La figura 11A es un diagrama de flujo de un procedimiento que es ejecutado por el generador de documento estructurado de la figura 3 para generar un documento de texto estructurado de acuerdo con una realización de la presente invención; La figura 11B es un diagrama de flujo de un procedimiento que usa un proceso integrado para seleccionar una trayectoria a través de un modelo lingüístico jerárquico y para generar un documento de texto estructurado basado en el habla de acuerdo con una realización de la presente invención; Las figuras 11C-11D son diagramas de flujo de procedimientos que son ejecutados en una realización de la presente invención para calcular una puntuación de pertinencia para un documento candidato; La figura 12A es un diagrama de flujo de datos que ilustra una porción del sistema de la figura 3 en detalle relacionado con el procedimiento de la figura 11A de acuerdo con una realización de la presente invención.
La figura 12B es un diagrama de flujo de datos que ilustra una realización del generador de documento estructurado de la figura 3 que lleva a cabo el procedimiento de la figura 11B en una realización de la presente invención. La figura 13 es un diagrama de flujo de un procedimiento que es usado en una realización de la presente invención para generar un modelo lingüístico jerárquico para su uso en la generación de documentos de texto estructurados. La figura 14 es un diagrama de flujo de un procedimiento que es usado en una realización de la presente invención para generar un documento de texto estructurado que usa distintas etapas de reconocimiento de habla y análisis estructural; y La figura 15 es un diagrama de flujo de un sistema que aplica el procedimiento de la figura 14 de acuerdo con una realización de la presente invención.
Descripción detallada
Con referencia a la figura 2, se muestra un diagrama de flujo de un procedimiento 200 que es aplicado en una realización de la presente invención para generar un documento de texto estructurado basado en un documento hablado. Con referencia a la figura 3, se muestra un diagrama de flujo de datos de un sistema 300 para aplicar el procedimiento 200 de la figura 2 de acuerdo con una realización de la presente invención.
El sistema 300 incluye un flujo de audio hablado 302, que puede, por ejemplo, ser un flujo de audio hablado en directo o grabado de un informe médico dictado por un médico. Con referencia a la figura 4, se muestra una representación de texto de un ejemplo del flujo de audio hablado 302. En la figura 4, el texto entre los signos porcentuales representa la puntuación hablada (por ejemplo “%coma%”, “%punto%”, y “%dos puntos%”) indicios estructurales explícitos (por ejemplo “%nuevo párrafo%”) en el flujo de audio 302. Se puede observar a partir del flujo de audio 302 ilustrado en la figura 4 que una transcripción literal del flujo de audio 302 no sería particularmente útil con el fin de entender el diagnóstico, pronóstico u otra información contenida en el informe médico representado por el flujo de audio 302.
El sistema 300 incluye asimismo un modelo lingüístico probabilista 304. El término “modelo lingüístico probabilista” usado en el presente documento se refiere a cualquier modelo lingüístico que asigna probabilidades a las secuencias de palabras habladas. Las gramáticas libres de contexto (probabilista) y los modelos lingüísticos de n-gramas 306a-e son ambos ejemplos de “modelos lingüísticos probabilista” tal como se usa este término en el presente documento.
En general, una gramática libre de contexto especifica una pluralidad de formas habladas para un concepto y asocia probabilidades a cada una de las formas habladas. Una gramática de estado finito es un ejemplo de una gramática sin contexto. Por ejemplo, una gramática de estado finito para la fecha del 1 de octubre 1993, puede incluir la forma hablada de octubre primero de 1993” con una probabilidad de 0,7, la forma hablada diez noventa y tres” con una probabilidad de 0,2 y la forma hablada “primer de octubre noventa y tres” con una probabilidad del 0,1. La probabilidad asociada a cada forma hablada es una probabilidad estimada de que el concepto será hablado en esa forma hablada en un flujo de audio particular. Una gramática de estado finito, es por lo tanto, un tipo de modelo lingüístico probabilista.
En general, un modelo lingüístico de n-grama especifica la probabilidad de que se produzca una secuencia particular de n palabras en un flujo de audio hablado. Se considera, por ejemplo, un modelo lingüístico “unigrama”, para el cual n=1. Para cada palabra en un lenguaje, un unigrama especifica la probabilidad de que se produzca la palabra en un documento hablado. Un modelo lingüístico “bigrama” (para el cual n=2) especifica probabilidades de que se produzcan pares de palabras en un documento hablado. Por ejemplo, un modelo bigrama puede especificar la probabilidad condicional de que se produzca la palabra “gato” en un documento hablado dado que la palabra anterior en el documento era “el”. Asimismo, un modelo lingüístico “trigrama” especifica las probabilidades de tres palabras y así sucesivamente. Las probabilidades especificadas por modelos lingüísticos de n-grama y gramáticas de estado finito se pueden obtener formando tales documentos usando un discurso de entrenamiento y un texto de entrenamiento, como se describe más en detalle en la solicitud de patente referenciada anteriormente titulada “Document Transcription System Training”.
El modelo lingüístico probabilista 304 incluye una pluralidad de submodelos 306a-e, cada uno de los cuales es un modelo lingüístico probabilista. Los submodelos 306a-e pueden incluir modelos lingüísticos de n-grama. Los submodelos 306a-e puede incluir modelos lingüísticos de n-grama y/o gramáticas de estado finito en una combinación. Asimismo, como se describe más en detalle en lo sucesivo, cada uno de los submodelos 306a-e puede contener submodelos adicionales, y así sucesivamente. Aunque se muestran cinco submodelos en la figura 3, el modelo lingüístico probabilista 304 puede incluir cualquier número de submodelos.
El objetivo del sistema 300 mostrado en la figura 3 es producir un documento de texto estructurado 310 que incluye el contenido del flujo de audio hablado 302, en el que el contenido está organizado en una estructura particular y donde los conceptos son identificados e interpretados en una forma legible por máquina. El documento de texto estructurado 310 incluye una pluralidad de subestructuras 312a-f tal como secciones, párrafos, y/o frases. Cada una de las subestructuras 312a-f puede incluir subestructuras adicionales, y así sucesivamente. Aunque se muestran seis subestructuras en la figura 3, el documento de texto estructurado 310 puede incluir cualquier número de subestructuras.
Por ejemplo, con referencia a la figura 5, se muestra un ejemplo del documento de texto estructurado 310. En el ejemplo ilustrado en la figura 5, el documento de texto estructurado 310 es un documento XML. El documento de texto estructural 310 puede, sin embargo, ser aplicado en cualquier forma. Como se muestra en la figura 5, el documento estructurado 310 incluye seis subestructuras 312a-f, cada una de las cuales puede representar una sección del documento 310.
Por ejemplo, el documento estructurado 310 incluye la sección de encabezado 312a que incluye metadatos acerca del documento 310, tal como un título 314 del documento 310 (“Exploración CT del tórax sin contraste”) y la fecha 316 en la cual se dictó el documento 310 (“<fecha>22-abr-2003</fecha>”). Obsérvese que el contenido en la sección de encabezado 312a se obtuvo desde el principio del flujo de audio hablado 302 (Figura 4). Asimismo, cabe resaltar que la sección de encabezado 312a incluye tanto texto plano (por ejemplo, el título 314) como una subestructura (por ejemplo, la fecha 316) que representa un concepto de que se ah interpretado de una forma legible por ordenador como un triplete de valores (día-mes-año).
Representar la fecha de una forma legible por ordenador permite que la fecha sea almacenada en una base de datos y sea procesada más fácilmente que si la fecha fuese almacenada en forma de texto. Por ejemplo, si múltiples fechas en el flujo de audio 302 han sido reconocidas y almacenadas en forma legible por máquina, tales fechas pueden compararse fácilmente entre sí por un ordenador. En otro ejemplo, la información estadística acerca del contenido del flujo de audio 302, tal como el tiempo medio entre las visitas médicas, pueden generarse fácilmente si las fechas están almacenadas en forma legible por ordenador. Esta ventaja de realizaciones de la presente invención se aplica generalmente no solo a fechas sino al reconocimiento de cualquier tipo de contenido semántico y el almacenamiento de tal contenido en forma legible por máquina.
El documento estructurado 310 incluye, además, una sección de comparación 312b, que incluye contenido que describe estudios anterior llevados a cabo en el mismo paciente que el paciente que es objeto del documento (informe) 310. Caber destacar que el contenido en la sección de comparación 312b se obtuvo a partir de la porción del flujo de audio 302 que empieza con “comparación con” y termina con “seis de abril de dos mil uno”, pero que la sección de comparación 312b no incluye el texto “comparación con” que está en un ejemplo de un indicio de sección. El uso de tales indicios para identificar el principio de una sección u otra subestructura de documento se describirá más en detalle en lo sucesivo.
En resumen, el documento estructurado 310 incluye una sección técnica 312c, que describe técnicas que han sido llevadas a cabo en los procedimientos realizados sobre el paciente; una sección de constataciones 312d, que describe las constataciones del médico; y una sección de impresión 312e, que describe las impresiones del médico acerca del paciente.
Los documento XML, tal como el documento estructural ejemplar 310 ilustrados en la figura 5, no están destinados típicamente para ser visto directamente por un usuario final. En su lugar, tales documentos son representados típicamente de una manera que es más fácil de leer antes de ser presentados al usuario final El sistema 300, por ejemplo, incluye un motor de presentación 314 que presenta el documento de texto estructurado 310 basado en una hoja de estilo 316 para producir un documento presentado 318. Las técnicas para generar hojas de estilo y para presentar documentos según las hojas de estilo son bien conocidas por los expertos en la técnica.
Con referencia a la figura 6, se muestra un ejemplo del documento presentado 318. El documento presentado 318 incluye cinco secciones 602a-e, cada una de las cuales puede corresponder a una o más de las seis subestructuras 312a-f en el documento de texto estructurado 310. Más específicamente, el documento presentado 318 incluye una sección de encabezado 602a, una sección de comparación 602b, una sección técnica 602c, una sección de constataciones 602d y una sección de impresiones 602e. Cabe resaltar que puede haber o no una correspondencia unívoca entre secciones en el documento presentado 318 en el documento de texto estructurado 310. Por ejemplo, cada una de las subestructuras 312a-f no necesita representar un tipo distinto de sección de documento. Si por ejemplo, dos o más subestructuras 312a-f representan el mismo tipo de sección (tal como una sección de encabezado), el motor de presentación 314 puede presentar ambas subestructuras en la misma sección del documento presentado 318.
El sistema 300 incluye un generador de documentos estructurados 308, que identifica el modelo lingüístico probabilista 304 (etapa 202), y utiliza el modelo lingüístico 304 para reconocer el flujo de audio hablado 302 y de este modo producir el documento de texto estructurado 310 (etapa 204). El generador de documento estructurado 308 puede, por ejemplo, incluir un descodificador de reconocimiento de habla automático 320 que produce cada una de las subestructuras 312a-f en el documento de texto estructurado 310 que usa un submodelo correspondiente de los submodelos 306a-e en el modelo lingüístico probabilista 304. Como es bien sabido por el experto en la técnica, un descodificador es un componente de un reconocedor de habla que convierte audio en texto. El descodificador 320 puede, por ejemplo, producir la subestructura 312a usando el submodelo 306a para reconocer una primera porción del flujo de audio hablado
302. Asimismo, el descodificador 320 puede producir la subestructura 312b usando el submodelo 306b para reconocer una segunda porción del flujo de audio hablado 302.
Cabe resaltar que no hay necesidad de una correspondencia unívoca entre los submodelos 306a-e en el modelo lingüístico 304 y las subestructuras 312a-f en el documento estructurado 310. Por ejemplo, el descodificador de reconocimiento del habla puede usar el submodelo 306a para reconocer una primera porción del flujo de audio hablado 302 y de este modo producir las subestructuras 312a, y usar el mismo submodelo 306a para reconocer una segunda porción del flujo de audio hablado 302 y de este modo producir la subestructura 312b. En tal caso, múltiples subestructuras en el documento de texto estructurado 310 pueden contener el contenido de una sola estructura semántica (por ejemplo, sección o párrafo).
El submodelo 306a puede, por ejemplo, ser un modelo lingüístico de “encabezado” que se usa para reconocer porciones del flujo de audio hablado 302 que contienen contenido en la sección de encabezado 312a; el submodelo 306b puede, por ejemplo, ser un modelo lingüístico de “comparación” que se usa para reconocer porciones del flujo de audio hablado 302 que contiene contenido en la sección de comparación 312b; y así sucesivamente. Cada modelo lingüístico de este tipo puede ser entrenado usando texto de entrenamiento de la sección correspondiente de los documentos de entrenamiento. Por ejemplo, el submodelo de encabezado 306a puede ser entrenado usando texto de las secciones de encabezado de una pluralidad de documentos de entrenamiento, y el submodelo de comparación puede ser entrenado usando texto de las secciones de comparación de la pluralidad de documentos de entrenamiento.
Habiéndose descrito en general características de varias realizaciones de la presente invención, las realizaciones de la presente invención se describirán ahora con más detalle. Con referencia a la figura 7, se muestra un diagrama de flujo de un procedimiento que es aplicado por el generador de documentos estructurados 308 en una realización de la presente invención para generar el documento de texto estructurado 310 (Figura 2, etapa 204). Con referencia a la figura 8, se muestra un diagrama de flujo de datos que ilustra una porción del sistema 300 en detalle pertinente para el procedimiento de la figura 7.
En el ejemplo ilustrado en la figura 8, el generador de documentos estructurados 308 incluye un identificador de segmentos 814 que identifica una pluralidad de segmentos S 802a-c en el flujo de audio hablado 302 (etapa 701). Los segmentos 802a-c pueden, por ejemplo, representar conceptos tales como secciones, párrafos, frases, palabras, fechas, horas, o códigos. Aunque solos se muestras tres segmentos 802a-c en la figura 8, el flujo de audio hablado 302 puede incluir cualquier número de porciones. Aunque para facilitar la explicación, todos los segmentos 802a-c son identificados en la etapa 701 de la figura 7 antes de realizar el resto del procedimiento 700, la identificación de los segmentos 802a-c puede realizarse concurrentemente con el reconocimiento del flujo de audio 302 y la generación del documento estructurado 310, como se describirá más en detalle en lo sucesivo respecto de las figuras 11B y 12B.
El generador de documentos estructurados 308 introduce un bucle en cada segmento S en el flujo de audio hablado 302 (etapa 702). Como se ha descrito anteriormente, el generador de documentos estructurados 308 incluye el descodificador de reconocimiento de habla 320, que puede, por ejemplo, incluir uno o más descodificadores convencionales de reconocimiento de habla que incluyen diferentes modelos lingüísticos. Además como se ha descrito anteriormente, cada uno de los submodelos 306a-e puede ser un modelo lingüístico de n-gramas, una gramática sin contexto, o una combinación de los mismos.
Se supone a título de ejemplo que el generador de documentos estructurados 308 está actualmente procesando el segmento 802a del flujo de audio hablado 302. El generador de documentos estructurados 308 selecciona una pluralidad 804 de submodelos 306a-e con los cuales reconocer el actual segmento S. Los submodelos 804 pueden por ejemplo, ser todos los submodelos lingüísticos 306a-e o un subconjunto de los submodelos 306a-e. El descodificador de reconocimiento de habla 320 reconoce el segmento actual S (por ejemplo, el segmento 802a) con cada uno de los submodelos seleccionados 804, produciendo de este modo una pluralidad de contenidos candidatos 808 que corresponden al segmento S (etapa 704). Dicho de otro modo, cada uno de los contenidos candidatos 808 se produce usando el descodificador de reconocimiento de habla 320 para reconocer el segmento actual S que usa un submodelo distinto de los submodelos 804. Obsérvese que cada uno de los contenidos candidatos 808 puede incluir no solo texto reconocido sino también otros tipos de contenidos tales como conceptos (por ejemplo, fechas, horas, códigos, medicaciones, alergias, signos vitales, etc.). Codificados en forma legible por máquina.
El generador de documentos estructurados 308 incluye un selector de contenido final 810 que selecciona uno de los contenidos candidatos 808 como contenido final 812 para el segmento S (706). El selector de contenido final 810 puede usar cualquier técnica de una variedad de técnica que son bien conocidas por el experto en la técnica para seleccionar el resultado del reconocimiento de habla que más se acerca al habla del cual se deriva.
El generador de documentos estructurados 308 hace un seguimiento del submodelo que es usado para producir cada uno de los contenidos candidatos 808. Se n a título de ejemplo que los submodelos 304 incluyen todos los submodelos 306a-e, y que los contenidos candidatos 808 incluye por lo tanto cinco contenidos candidatos por segmento 802a-c (uno producido usando cada uno de los submodelos 306a-e). Por ejemplo, con referencia a la figura 9, se muestra un diagrama que ilustra correspondencias entre las subestructuras de documento 312a-f, los submodelos 306a-e, y los contenidos candidatos 808a-e. Como se ha descrito anteriormente, cada uno de los submodelos 306a-e puede asociarse a una o más subestructuras correspondientes 312a-f en el documento de texto estructurado 310. Estas correspondencias son indicadas en la figura 9 mediante las correspondencias 902a-e entre las subestructuras 312a-e y los submodelos 306a-e. El generador de documentos estructurado 308 puede mantener tal es correspondencias 902a-e en una tabla o usar otros medios.
Cuando el descodificador de reconocimiento de habla 320 reconoce el segmento S (por ejemplo, el segmento 802a) con cada uno de los submodelos 306a-e, produce el contenido candidato correspondiente 808a-e, Por ejemplo, el contenido candidato 808a es el texto que es producido cuando el descodificador de contenido candidato 320 reconoce el segmento 802a con el submodelo 306a, el contenido candidato 808b es el texto que es producido cuando el descodificado de reconocimiento de habla 320 reconoce el segmento 802a con el submodelo 306b, y así sucesivamente. El generador de documento estructurados 308 puede registrar la correspondencia entre los contenidos candidatos 808a-e y los submodelos correspondientes 306a-e en un conjunto de correspondencias de modelo candidato-contenido 816.
Por lo tanto, cuando el generador de documento estructurados 308 selecciona uno de los contenidos candidatos 808a-e como el contenido final 812 para el segmento S (etapa 706), un identificador de correspondencias finales 818 puede usar las correspondencias 816 y el contenido final seleccionado 812 para identificar el submodelo lingüístico que produjo el contenido candidato que ha sido seleccionado como el contenido final 812 (etapa 708). Por ejemplo, si el contenido candidato 808c es seleccionado como el contenido final 812, se puede observar en la figura 9 que el identificador de correspondencias finales 818 puede identificar el submodelo 306C como el submodelo que produjo contenido candidato 808c. El identificador de correspondencias finales 818 puede acumular cada submodelo identificado en el conjunto de correspondencias 820, de manera que en cualquier momento dado las correspondencias 820 identifican la secuencia de submodelos lingüísticos que se usaron para generar los contenidos finales que han sido seleccionados para su inclusión en el documento de texto estructurado 310.
Una vez identificado el submodelo correspondiente al contenido final 812, el generador de documentos estructurado 308 puede identificar la subestructura de documentos asociada al submodelo identificado (etapa 710). Por ejemplo, si el submodelo 306c ha sido identificado en la etapa 708, se puede ver en la figura 9 que la subestructura de documento 312c está asociada al submodelo 306c.
Un insertador de contenido estructurado 822 inserta el contenido final 812 en la subestructura identificada del documento de texto estructurado 310 (etapa 712). Por ejemplo, si la subestructura 312c está identificada en la etapa 710, el insertador de texto 514 inserta el contenido final 812 en la subestructura 312c.
El generador de documentos estructurados repite las etapas 704-712 para el resto de los segmentos 802b-c del flujo de audio hablado 302 (etapa 714), generando de este modo el contenido final 812 para cada uno de los segmentos restantes 802b-c e insertando el contenido final 812 en las subestructuras apropiadas de las subestructuras 312a-f del documento de texto 310. Al concluir el procedimiento 700, el documento de texto estructurado 310 incluye texto que corresponde al flujo de audio hablado 302, y las correspondencias finales de modelo-contenido 820 identifican la secuencia de submodelos lingüísticos que fueron usadas por el descodificador de reconocimiento de habla 320 para generar el texto en el documento de texto estructurado 310.
Cabe señalar que en el proceso de reconocimiento del flujo de audio hablado 302, el procedimiento 700 puede no solo generar texto que corresponde al audio hablado, sino que puede también identificar información semántica representada por el audio y almacenar tal información semántica en una forma legible por máquina. Por ejemplo, con referencia de nuevo a la figura 5, la sección de comparación 312b incluye un elemento de fecha en el cual se representa una fecha particular como un triplete que contiene valores individuales para el día (“06”), mes (“ABR”), y el año (“2001”). Otros ejemplos para conceptos semánticos en el campo médico incluyen signos vitales, medicaciones y sus dosificaciones, alergias, códigos médicos, etc. La extracción y representación de la información semántica de esta manera facilita el proceso de aplicación del procesamiento automatizado sobre tal información. Cabe señalar que la forma particular de representar la información semántica en la figura 5 es meramente un ejemplo y no constituye una limitación de la presente invención.
Como se recordará de la etapa 701, el procedimiento 700 mostrado en la figura 7A identifica el conjunto de segmentos 802a-c antes de identificar los submodelos a usar para reconocer los segmentos 802a-c. Cabe remarcar, sin embargo, que el generador de documentos estructurados 308 puede integrar el proceso de identificación de los segmentos 802a-c con el proceso de identificación de los submodelos a usar para reconocer los segmentos 802a-c, y con el proceso de aplicación de reconocimiento de habla sobre los segmentos 802a-c. Ejemplos de técnicas que se pueden usar para aplicar tal reconocimiento y segmentación integrada se describirán más en detalle en lo sucesivo respecto de las figuras 11B y 12B.
Habiendo descrito en general la operación del procedimiento ilustrado en la figura 7, se considera ahora la aplicación del procedimiento de la figura 7 al flujo de audio ejemplar 302 mostrado en la figura 4. Se supone que la primera porción del flujo de audio hablado 302 es el flujo hablado de las expresiones “Exploración CT del tórax sin contraste veintidós de abril de dos mil tres”. Esta porción puede ser seleccionada en la etapa 702 y reconocida usando todos los submodelos lingüísticos 306a-e en la etapa 704 para producir una pluralidad de contenidos candidatos 808a-e. Como se ha descrito anteriormente, suponiendo que el submodelo 306a-e es un modelo lingüístico de “encabezado”, que el submodelo 306b es un modelo lingüístico de “comparación”, que el submodelo 306c es un modelo lingüístico de técnica, que el submodelo 306d es un modelo lingüístico de “constataciones”, y el que submodelo 306e es un modelo lingüístico de “impresiones”
Debido al hecho que el submodelo 306a es un modelo lingüístico que ha sido entrenado para reconocer el habla en la sección de “encabezado” del documento 310 (por ejemplo, la subestructura 312a), es probable que el contenido candidato 808a producido usando el submodelo 306a coincida con las palabras de la porción de audio anteriormente mencionada en mayor medida que los otros contenidos candidatos 808b-e. Suponiendo que el contenido candidato 808a es seleccionado como el contenido final 812 para esta porción de audio, el insertador de contenido 822 insertará el contenido final 812 producido por el submodelo 306a en la sección de encabezado 312a del documento de texto estructurado 310.
Se supone que la segunda porción del flujo de audio hablado es el flujo hablado de expresiones “comparación con los estudios anteriores del seis de marzo dos mil dos y el seis de abril de dos mil uno”. Esta porción se puede seleccionar en la etapa 702 y reconocer usando todos los submodelos lingüísticos 306a-e en la etapa 704 para producir una pluralidad de contenidos candidatos 808a-e. Debido al hecho que el submodelo 306b es un modelo lingüístico que ha sido entrenado para reconocer habla en la sección de “comparación” del documento 310 (por ejemplo, la subestructura 312b), es probable que el contenido candidato 808b producido usando el submodelo 306b coincida con las palabras de la porción de contenidos candidatos en mayor medida que los otros contenidos referenciados anteriormente 808a y 808c-e. Suponiendo que el contenido candidato 808b es seleccionado como el contenido final 812 para esta porción de audio, el insertador de texto 514 insertará el contenido final 812 producido por el submodelo 306 en la sección de comparación 312b del documento de texto estructurado 310.
El resto del flujo de audio 302 ilustrado en la figura 4 puede ser reconocido e insertado en las subestructuras apropiadas de las subestructuras 312a-f en el documento de texto estructurado 310 de manera similar. Obsérvese que aunque el contenido del flujo de audio hablado 302 ilustrado en la figura 4 aparece en la misma secuencia que las secciones 312a-f en el documento de texto estructurado 310, no es una condición de la presente invención. En su lugar, el contenido puede aparecer en el flujo de audio 302 en cualquier orden. Cada uno de los segmentos 802a-c del flujo de audio 302 es reconocido por el descodificador de reconocimiento de habla 320, y el contenido final resultante 812 es insertado en la subestructura apropiada de las subestructuras 312a-f. En consecuencia, el orden del contenido de texto en las subestructuras 312a-f puede no ser el mismo que el orden del contenido en el flujo de audio hablado. Cabe señalar, sin embargo, que incluso si el orden del contenido de texto es el mismo tanto en el flujo de audio 302 que en el documento de texto estructurado 310, el motor de presentación 314 (figura 3) puede presentar el contenido de texto del documento 310 en cualquier orden deseado.
En otra realización de la presente invención, el modelo lingüístico probabilista 304 es un modelo lingüístico jerárquico. En particular, en esta realización la pluralidad de submodelos 306a-e están organizados en una jerarquía. Como se ha descrito anteriormente, los submodelos 306a-e puede incluir, además, submodelos adicionales, et así sucesivamente, de manera que la jerarquía del modelo lingüístico 304 puede incluir múltiples niveles.
Con referencia a la figura 10A, se muestra un diagrama que ilustra un ejemplo del modelo lingüístico 304 de forma jerárquica. El modelo lingüístico 304 incluye una pluralidad de nodos 1002, 306a-e, 1006a-e, y 1010 y 1012. Los nodos cuadrados 1002, 306b-e, y 1006e y 1012 usan gramáticas probabilistas de estado finito para modelizar conceptos muy limitados (tales como el orden de secciones de informe, indicios de sección, fechas, y horas). Los nodos elípticos 306a, 1006a-d, y 1010 usa modelos lingüísticos estadísticos (de n-gramas) para modelizar un lenguaje menos limitativo.
El término “concepto” tal como se usa en el presente documento incluye por ejemplo, fechas, horas, números, códigos, medicaciones, historial médico, diagnósticos, prescripciones, expresiones, enumeraciones e indicios de sección. Un concepto puede ser expresado verbalmente de muchas maneras. Cada manera de expresar verbalmente un concepto particular es denomina en el presente documento como “forma hablada” del concepto. A veces se hace una distinción entre conceptos “semánticos” y conceptos “sintácticos”. El término “concepto” tal como se usa en el presente documento incluye tanto conceptos semánticos como conceptos sintácticos, pero no se limita a ninguno de ellos y no se basa ninguna definición particular de “concepto semántico” o “concepto sintáctico” o en ninguna distinción entre ambos.
Se considera, por ejemplo, la fecha del 1 de octubre de 1993, que es un ejemplo de un concepto ya que este término se usa en el presente documento. Las formas habladas de este concepto incluyen las expresiones habladas” primero de octubre de mil novecientos noventa y tres”, uno de octubre del noventa y tres”, uno guión diez guión noventa y tres”. El texto tal como “1 de octubre de 1993) y “01/10/1993” son ejemplos de “formas habladas” de este concepto.
Ahora se considera la frase “John Jones tiene neumonía”. Esta frase, que es un concepto tal como se utiliza este término en el presente documento, puede ser expresado verbalmente de varias maneras, tal como las expresiones habladas, “John jones tiene neumonía” y “paciente jones diagnosticado con neumonía”. La frase escrita “John jones tiene neumonía” es un ejemplo de una “forma escrita” del mismo concepto.
Aunque los modelos lingüísticos para conceptos de bajo nivel tal como las fechas y las horas no se muestran en la figura 10A (salvo para el submodelo 1012), el modelo lingüístico jerárquico 304 puede incluir submodelos para tales conceptos de bajo nivel. Por ejemplo, los submodelos de n-gramas 306a, 1006a-d, y 1010 pueden asignar probabilidades a secuencias de palabras que representan fechas, horas y otros conceptos de bajo nivel.
El modelo lingüístico 304 incluye el nodo raíz 1002, que contiene una gramática de estado finito que representa las probabilidades de ocurrencia de los subnodos 306a-e del nodo 1002. El nodo raíz 1002 puede, por ejemplo, indicar probabilidades de las secciones de encabezado, comparaciones, constataciones e impresiones del documento 310 que aparecen en ordenes particulares en el flujo de audio hablado 302.
Bajando un nivel en la jerarquía del modelo lingüístico 304, el nodo 306a es un nodo de “encabezado”, que es un modelo lingüístico de n-gramas que representa probabilidades de ocurrencia de palabras en porciones del flujo de audio hablado 302 destinado a su inclusión en la sección de encabezado 312a del documento de texto estructurado 310.
El nodo 306b contiene una gramática de estado finito de “comparación” que representa probabilidades de ocurrencia de varias formas habladas alternativas de indicios para la sección de comparación 312b del documento de texto. La gramática de estado finito en el nodo de comparación 306 puede por ejemplo, incluir indicios tales como “comparación con”, “comparación para”, “antes es”, y estudios anteriores son”. La gramática de estado finito puede incluir una probabilidad para cada uno de estos indicios. Tales probabilidades pueden, por ejemplo estar basadas en frecuencias de uso observadas de los indicios en un conjunto de habla de entrenamiento para el mismo hablante o en el mismo campo que el flujo de audio hablado 302. Tales frecuencias pueden obtenerse, por ejemplo, usando las técnicas divulgadas en la solicitud de patente mencionada anteriormente titulada “Document Transcription System Training”.
El nodo de comparación 306e incluye un subnodo 1006a de “contenido de comparación, que es un modelo lingüístico de n-gramas que representa probabilidades de ocurrencia de palabras en porciones del flujo de audio hablado 302 destinado para su inclusión en el cuerpo de la sección de comparación 312b del documento de texto 310. El nodo de contenido de comparación 1006a tiene un nodo de fecha 1012 como un niño. Como se ha descrito más en detalle en lo sucesivo, el nodo de fecha 1012 es una gramática de estado finito que representa probabilidades de la fecha sea expresada verbalmente de varias maneras.
Los nodos 306c y 306d pueden entenderse de manera similar. El nodo 306c contiene una gramática de estado finito de “técnica” que representa probabilidades de ocurrencia de varias formas habladas alternativas de indicios para la sección técnica 312c del documento de texto 310. El nodo técnico 306c incluye un subnodo de contenido técnico” 1006b, que es un modelo de lenguaje de n-gramas que representa probabilidades de ocurrencia de palabras en porciones del flujo de audio hablado 302 destinado para su inclusión en el cuerpo de la sección técnica 312c del documento de texto 310. Asimismo, el nodo 306d contiene una gramática de estado finito de “constataciones” que representa probabilidades de ocurrencia de varias formas habladas alternativas de indicios para la sección de constataciones 312d del documento de texto 310. L nodo de constataciones 306d incluye un submodo de “contenido de constataciones” 1006c, que es un modelo lingüístico de n-gramas que representan probabilidades de ocurrencia de palabras en porciones del flujo de audio hablado 302 destinado para su inclusión en el cuerpo de la sección de constatación 312d del documento de texto 310.
El nodo de impresiones 306 es similar a los nodos 306b-d-, porque incluye una gramática de estado finito 1006 que incluye un modelo lingüístico de n-gramas para reconocer indicios de sección y un submodo 1006d que incluye un modelo lingüístico de n-gramas para reconocer el contenido de secciones. Además, sin embargo, el nodo de impresiones 306e incluye un submodo adicional 1006e que a su vez incluye un submodo 1010. Esto indica que el contenido de la sección de impresiones puede ser reconocida usando bien el modelo lingüístico en el nodo de contenido de impresiones 1006d o el nodo “enum” 1006e, gobernado por el modelo lingüístico basado en la gramática de estado finito que corresponde al nodo de impresiones 306e. El nodo “enum” 1006e contiene una gramática de estado finito que indica probabilidad asociadas a diferente maneras de expresar verbalmente indicios de enumeración (tal como “número uno”, “número dos”, “primero”, segundo”, “tercero”, y así sucesivamente). El nodo de contenido de impresiones 1010 puede incluir el mismo modelo lingüístico como el nodo de contenido de impresiones 1006d.
Habiéndose descrito la estructura jerárquica del modelo lingüístico 304 en una realización de la presente invención, ahora se describirán ejemplos de técnicas que se pueden usar para generar el documento estructurado 310 usando el modelo lingüístico 304. Con referencia a la figura 11A, se muestra un diagrama de flujo de un procedimiento que se aplica por el generador de documento estructurada 308 en una realización de la presente invención 308 en una realización de la presente invención para generar el documento de texto estructurado 310 (figura 2, etapa 204). Con referencia a la figura 12A, se muestra un diagrama de flujo de datos que ilustra una porción del sistema 300 en detalle pertinente para el procedimiento de la figura 11A.
EL generador de documento estructurada 308 incluye un selector de trayectoria 1202 que identifica una trayectoria 1204 a través del modelo lingüístico jerárquico 304 (etapa 1102). La trayectoria 1204 es una secuencia ordenada de nodos en el modelo lingüístico jerárquico 304. Los nodos pueden ser tiempos múltiples atravesados en la trayectoria 1204. Ejemplos de técnicas para generar la trayectoria 1204 se describirán más en detalle en lo sucesivo respecto de las figuras 11B y 12B.
Con referencia en la figura 10B, se ilustra un ejemplo de la trayectoria 1204. La trayectoria 1204 incluye los puntos 1020a-j, que especifican una secuencia en la cual para atravesar nodos en el modelo lingüístico 304. Los puntos 1020a-j se denominan “puntos” en lugar de “nodos” para distinguirlos de los nodos 1002, 306a-e, 1006a-e y 1010 en el modelo lingüístico 304.
En el ejemplo ilustrado en la figura 10B, la trayectoria 1204 atraviesa los siguientes nodos del modelo lingüístico 304 en la secuencia: (1) nodo raíz 1002 (punto 1020a); (2) nodo de contenido de encabezado 306a (punto 1020b): (3) nodo de comparación 306b (punto 1020c); (4) nodo de contenido de comparación 1006a (punto 1020d); (5) nodo técnico 306c (punto 1020e); (6) nodo de contenido técnico 1006b (punto 1020f); (7) nodo de constataciones 306d (punto 1020g); (8) nodo de contenido de constataciones 1006c (punto 1020h); (9) nodo de impresiones 306e (punto 1020i); y (10) nodo de contenido de impresiones 1006d (punto 1020j).
Como se puede observar con referencia a la figura 4, reconocer el flujo de audio hablado 302 usando los submodelos lingüísticos que se encuentran a lo largo de la trayectoria 1204 ilustrada en la figura 10B dará como resultado el reconocimiento óptico del habla, ya que el habla en el flujo de audio 302 se produce en la misma secuencia que los submodelos lingüísticos en la trayectoria 1204 ilustrada en la figura 10B. Por ejemplo, el flujo de audio hablado 302 empieza con el habla que es mejor reconocido por el modelo lingüístico de contenido de encabezado 306a (Exploración CT de tórax sin contraste veintidós de abril dos mil tres”), seguido de habla que es mejor reconocida por el modelo lingüístico de comparación 306b (“comparación con”), seguido por el habla que es mejor reconocida por el modelo lingüístico de contenido de comparación 1006a (antes de los estudios del seis de marzo de dos mil dos y el seis de abril de dos mil uno(, y así sucesivamente.
Habiendo identificado la trayectoria 1204, el generador de documento estructurado 308 reconoce el flujo de audio hablado 302 usando los modelos lingüísticos atravesados por la trayectoria 1204 para producir el documento de texto estructurado 310 (etapa 1104). Como se describe más en detalle en lo sucesivo respecto de las figuras 11B y 12B, El reconocimiento de habla y la generación del documento de texto estructurado de la etapa 1104 se pueden integrar con la identificación de trayectoria de la etapa 1102, en lugar de realizarlos por separado..
Más específicamente, el generador de documentos estructurados 308 puede incluir un enumerador de nodos 1206 que repite cada uno de los nodos de modelo lingüístico N 1208 atravesado por la trayectoria seleccionada 1204 (etapa 1106). Para cada nodo N de este tipo, el descodificador de reconocimiento de habla 320 puede reconocer la porción del flujo de audio 302 que corresponde al modelo lingüístico en el nodo N para producir el texto estructurado T correspondiente (etapa 1108). El generador de documentos estructurado 308 puede insertar el texto T 1210 en la estructura del documento textual estructurado 310 que corresponde al nodo N 1208 del modelo lingüístico 304 (etapa 1110).
Por ejemplo, cuando el nodo N es el nodo de comparación 306b (figura 10A), el nodo de comparación 306b se puede usar para reconocer el texto “comparación con” en el flujo de audio hablado 302 (figura 4). Debido a que el nodo de comparación 306b corresponde a una subestructura de documento (por ejemplo, la sección de comparación 312b) en lugar del contenido, el resultado del reconocimiento de habla realizado en la etapa 1108 en este caso puede ser una subestructura de documento, a saber una sección de “comparación” vacía. Tal sección puede insertarse en el documento estructurado 310 en la etapa 1110, por ejemplo, en forma de etiquetas de coincidencia “<comparación>” y “/comparación>”.
Cuando el nodo N es el nodo de contenido de comparación 1006a (figura 10A), el nodo de contenido de comparación 1006a se puede usar para reconocer el texto “antes de estudios del veintiséis de marzo dos mil dos y 6 de abril de dos mil uno” en el flujo de audio hablado 302 (figura 4). Produciendo de este modo el texto estructurado “estudios anteriores de <fecha>26-MAR-2002</fecha> y <fecha>26-ABR-2001</fecha>, como se muestra en la figura 5. Este texto estructurado se puede entonces insertar en la sección de comparación 312b en la etapa 1110 (por ejemplo, entre las etiquetas de “<comparación>” y “>/comparación>”, como se muestra en la figura 5).
El generador de documento estructurado 308 repite las etapas 1108-1110 para el resto de nodos N atravesado por la trayectoria 1204 (etapa 1112), insertando de este modo una pluralidad de textos estructurados 1210 en el documento de texto estructurado 310. El resultado final del procedimiento ilustrado en la figura 11A es la creación del documento de texto estructurado 310, que contiene texto que tiene una estructura que corresponde a la estructura de la trayectoria ‘1204 a través del modelo lingüístico 304. Por ejemplo, se puede observar en la figura 10B que la estructura de la trayectoria ilustrada atraviesa los nodos de modelo lingüístico que corresponden a las secciones de encabezado, comparación, técnica, constataciones e impresiones en secuencia. El documento de texto estructurado resultante 310 (como se ilustra, por ejemplo en la figura 5) incluye de manera similar las secuencias de encabezado, comparación, técnica, constataciones e impresiones en secuencia. El documento de texto estructurado 310 tiene por lo tanto la misma estructura que la trayectoria del modelo lingüístico 1204 que se usó para crear el documento de texto estructurado 310.
Se ha establecido anteriormente que el generador de documentos estructurados 308 inserta texto estructurado reconocido 1210 en las subestructuras apropiadas del documento de texto estructurado 310 (figura 11A, etapa 1110). Como se muestra en la figura 5, el documento de texto estructurado 310 se puede aplicar como un documento XML u otro documento que soporta estructuras anidadas. En tal caso, es necesario insertar cada uno de los textos estructurados reconocidos 1210 en el interior de la subestructura apropiada para que el documento de texto estructurado final 310 tenga una estructura que corresponde con la estructura de la trayectoria 1204. El experto en la técnica entenderá la manera de usar las correspondencias finales de contenido de modelo 820 (figura 8) para usar la trayectoria 1204 para atravesar la estructura del modelo lingüístico 304 y por lo tanto para crear tal documento estructurado.
El sistema ilustrado en la figura 12A incluye un selector de trayectoria 1202, que selecciona una trayectoria 1204 a través del modelo lingüístico 304. El procedimiento ilustrado en la figura 11A usa entonces la trayectoria seleccionada 1204 para generar el documento de texto estructurado 310. Dicho de otro modo, en la figura 11A y 12A, las etapas de selección de trayectoria y de creación de documento estructurado se realizan por separado. Esto no es, sin embargo, una limitación de la presente invención.
En su lugar, con referencia a la figura 11B, se muestra un diagrama de flujo de un procedimiento 1150 que integra las etapas de selección de trayectoria y generación de documentos estructurados. Con referencia a la figura 12B, se muestra una realización del generador de documentos estructurados 308 que aplica el procedimiento 1150 de la figura 11B en una realización de la presente invención. En general, el procedimiento 1150 de la figura 11B busca posibles trayectorias a través de la jerarquía del modelo lingüístico 304 (figura 10A), empezando en el nodo raíz 1002 y expandiéndose hacia fuera. Cualquiera de las diversas técnicas, incluyendo las técnicas bien conocidas por el experto en la técnica, puede ser usada para buscar a través de la jerarquía de modelos lingüísticos. Puesto que el procedimiento 1150 identifica trayectorias parciales a través de la jerarquía de modelo lingüístico, el procedimiento 1150 usa el descodificador de reconocimiento de habla 320 para reconocer porciones cada vez mayores del flujo de audio hablado 302usando los modelos lingüísticos que se encuentran a lo largo de las trayectorias parciales creando de este modo documentos parciales estructurados candidatos. El procedimiento 1150 asigna puntuaciones a cada uno de los documentos estructurados candidatos parciales. La puntuación de pertinencia para cada documento estructurado candidato es una medida de lo bien que se ha llevado a cabo la trayectoria que produjo el documento estructurado candidato . El procedimiento 1150 expande las trayectorias parciales siguiendo de este modo buscando a través de la jerarquía de modelo lenguaje, hasta que todo el flujo de audio hablado 302 haya sido reconocido. El generador de documentos estructurados 308 selecciona el documento estructurado candidato que tiene la mayor puntuación de pertinencia como documento de texto estructurado final 310.
Más específicamente, el procedimiento 1150 inicia una o más trayectorias candidatas 1224 a través del modelo lingüístico 304 (etapa 1152). Por ejemplo, las trayectorias candidatas 1224 pueden iniciarse para contener una única trayectoria que consiste en el nodo raíz 1002. El término “trama” se refiere en el presente documento a un periodo de tiempo corto, tal como 10 milisegundos. El procedimiento 1150 inicia un apuntador de flujo de audio para apunta a la primera trama en el flujo de audio 302 (etapa 1153). Por ejemplo, en la realización ilustrada en la figura 12B, el generador de documentos estructurados 308 contiene un enumerador de flujo de audio 1240 que proporciona una porción 1242 del flujo de audio 302 al descodificador de reconocimiento de habla 320. Al iniciarse el procedimiento 1150, la porción 1242 puede contener solo la primera trama del flujo de audio 302.
El descodificador de reconocimiento de habla 320 reconoce la porción actual 1242 del flujo de audio 302 usando los submodelos lingüísticos en la o las trayectorias candidatas 1224 para generar uno o más documentos parciales estructurados candidatos 1232 (etapa 1154). Cabe señalar que los documentos 1232 son dolo documentos parciales 1232 porque se han generado basados en solo una porción del flujo de audio 302. Cuando se aplica la etapa 1154 en primer lugar, el descodificador de reconocimiento de habla 320 puede reconocer simplemente la primera trama del flujo de audio 302 usando el modelo lingüístico en el nodo raíz 1002 del modelo lingüístico 304.
Cabe señalar que las técnicas divulgadas anteriormente respecto de la figura 11A y la figura 12A pueden ser usados por el descodificador de reconocimiento de habla 320 para generar los documentos parciales estructurados candidatos 1232 usando las trayectorias candidatas 1224. Más específicamente, el descodificador de habla 320 puede aplicar el procedimiento ilustrado en la figura 11A a la porción de flujo de audio 1242 usando cada una de las trayectorias candidatas 1224 como la trayectoria identificada en la etapa 1102 (figura 11A).
Volviendo a las figuras 11B y 12B, un evaluador de pertinencia 1234 genera puntuaciones de pertinencia 1236 para cada uno de los documentos parciales estructurados candidatos 1232 (etapa 1156). Las puntuaciones de pertinencia 1236 son mediciones de lo bien que los documentos parciales estructurados candidatos 1232 representan la porción correspondiente del flujo de audio 302. En general, la puntuación de pertinencia para un documento candidato individual puede ser generada: (1) generando puntuaciones de pertinencia para cada uno de los nodos en la trayectoria correspondiente de las trayectorias candidatas 1224; y (2) usando una función de síntesis para sintetizar la puntuación de pertinencia de nodo individual generada en la etapa (1) en una puntuación de pertinencia global para el documento estructurado candidato. Ejemplos de técnicas que se pueden usar para generar las puntuaciones de pertinencia candidatas 1236 se describirán más en detalle en lo sucesivo respecto de la figura 11C.
Si el generador de documentos estructurados 308 intentase buscar todas las trayectorias posibles a través de la jerarquía del modelo lingüístico 304, los recursos informáticos necesarios para evaluar cada trayectoria posible podrían ser prohibitivos desde el punto de vista económico y del tiempo. Debido al crecimiento exponencial en el número de trayectorias posibles. Por lo tanto, en la realización ilustrada en la figura 12B, un podador de trayectoria 1230 usa las puntuaciones de pertinencia candidatas 1236 para eliminar las trayectorias mal ajustadas de las trayectorias candidatas 1224, produciendo de este modo un conjunto de trayectorias podadas 1222 (etapa 1158).
Si la totalidad del flujo de audio 302 ha sido reconocida (etapa 1160), un selector de documento final 1238 selecciona, entre los documentos parciales estructurados candidatos 1232, el documento estructurado candidato que tiene la mayor puntuación de pertinencia, y proporciona el documento seleccionado como el documento de texto estructurado final 310 (etapa 1164). Si la totalidad del flujo de audio 302 no ha sido reorganizado , un extensor de trayectoria extiende las trayectorias podadas 1222 dentro del modelo lingüístico 304 para producir un nuevo conjunto de trayectorias candidatas 1224 (etapa 1162). Si por ejemplo, las trayectoria candidatas 1222 consiste en una trayectoria individual que contiene el nodo raíz 1002, el extensor de trayectoria 1220 puede extender esta trayectoria en un nodo hacia abajo en la jerarquía ilustrada en la figura 10A para producir una pluralidad de trayectorias candidatas que se extienden desde el nodo raíz 1002, tal como una trayectoria desde el nodo raíz 1002 al nodo de contenido de encabezado 306a, una trayectoria desde el nodo raíz 1002 al nodo de comparación 306b, una trayectoria desde el nodo raíz 1002 al nodo técnico 306c, y así sucesivamente. Varias técnicas de extensión de las trayectorias 1224 para llevar a cabo búsquedas de jerarquía en profundidad, amplitud u otros tipos de búsquedas jerárquicas son bien conocidas por el experto en la técnica.
El enumerador de flujo de audio 1240 extiende la porción 1242 del flujo de audio 302 para incluir la siguiente trama en el flujo de audio 302 (etapa 1163). Las etapas 1154-1160 se repiten entonces usando las nuevas trayectorias candidatas 1224 para reconocer la porción 1242 del flujo de audio 302. De este modo la totalidad del flujo de audio 302 puede ser reconocida usando submodelos apropiados en el modelo lingüístico 304.
Como se ha descrito anteriormente respecto de las figuras 11B y 12B, las puntuaciones de pertinencia 1236 pueden ser generadas para cada uno de los documentos parciales estructurados candidatos 1232 producidos por el generador de documentos estructurados 308 mientras se evalúan las trayectorias candidatas 1224 a través del modelo lingüístico 304. Ahora se describirán ejemplos de técnicas para generar puntuaciones de pertinencia, bien para los documentos parciales estructurados candidatos 1232 ilustrados en la figura 12B o bien para documentos estructurado más en general.
Por ejemplo, con referencia a la figura 10A, cabe señalar que el nodo de contenido de comparación 1006a tiene un nodo de fecha 1012 como un nodo descendiente. Se supone que el texto “Exploración CT del tórax sin contraste veintidós de abril de dos mil tres” ha sido reconocido como texto que corresponde al nodo de contenido de comparación 1006a. Cabe señalar que el nodo de contenido de comparación 1006a se usó para reconocer el texto Exploración CT del tórax sin contraste” y que el nodo de fecha 1012, que es un nodo descendiente del nodo de contenido de comparación 1006a, se uso para generar el texto “veintidós de abril dos mil tres”. La puntuación de pertinencia para este texto puede, por lo tanto, calcularse usando el nodo de contenido de comparación 1006a para calcular una primera puntuación de pertinencia para el texto “Exploración CT del tórax sin contraste" Seguido de cualquier fecha, calculando una segunda puntuación de pertinencia para el texto “veintidós de abril dos mil tres” basado en el nodo de fecha 1012, y multiplicando la primera y segunda puntuaciones de pertinencia.
Con referencia a la figura 11C, se muestra un diagrama de flujo de un procedimiento que es aplicado en una realización de la presente invención para calcular una puntuación de pertinencia para un documento candidato, y que puede por lo tanto usarse para aplicar la etapa 1156 del procedimiento 1150 ilustrado en la figura 11B. Se inicia una puntuación de pertinencia S en un valor de uno para el documento estructurado candidato que se está evaluando (etapa 1172). El procedimiento asigna un apuntado de nodo actual N para apuntar al nodo raíz en la trayectoria candidata que corresponde al documento candidato (etapa 1174).
El procedimiento requiere una función denominada Pertinencia () con los valores N y S (etapa 1176) y restituye el resultado como la puntuación de pertinencia para el documento candidato (etapa 1178). Como se describirá ahora más en detalle, la función Pertinencia () genera la puntuación de pertinencia S usando una factorización jerárquica atravesando la trayectoria candidata que corresponde al documento candidato.
Con referencia a la figura 11D, se muestra un diagrama de flujo de la función Pertinencia () 1180 según una realización de la presente invención. La función1180 identifica la probabilidad P(W(N)) de que el texto W que corresponde al nodo actual N ha sido reconocido por el modelo lingüístico asociado a ese nodo, y multiplica la probabilidad por el valor actual de S para producir un nuevo valor para S (etapa 1184).
Si el nodo N no tiene nodo descendente (etapa 1186), el valor de S es restituido (etapa 1194). Si el nodo N tiene nodo descendente, entonces se requiere la función Pertinencia () 1180 de manera recursiva encada uno de los nodos descendentes, con los resultados que se están multiplicando por el valor de S para producir nuevos valores de S (etapas 1188-1192). El valor resultando de S es restituido (etapa 1194).
Al concluir el procedimiento ilustrado en la figura 11C, el valor de S representa una puntuación de pertinencia para la totalidad del documento estructurado candidato, y el valor de S es restituido, por ejemplo, para su uso en el procedimiento 1150 ilustrado en la figura 11B (etapa 1194).
Por ejemplo, volviendo de nuevo al texto “Exploración CT del tórax sin contraste veintidós de abril dos mil tres”. La puntuación de pertinencia (probabilidad) de este texto se puede obtener identificando la probabilidad del texto “Exploración CT de tórax sin contraste <FECHA>”, donde <FECHA> indica cualquier fecha, multiplicada por la probabilidad condicional del texto “veintidós de abril dos mil tres” que se produce dado que el texto representa una fecha.
Más en general, el efecto del procedimiento ilustrado en la figura 11C es incorporar jerárquicamente las probabilidades de secuencias de palabras según la jerarquía del modelo lingüístico 304, permitiendo las estimaciones de probabilidad individuales asociadas a cada nodo de modelo lingüístico de combinarse sin dificultad con las estimaciones de probabilidad asociadas con otros nodos, Este marco probabilista permite que el sistema modelice y use modelos lingüístico estadísticos con gramáticas de estado finito probabilista integradas y modelos lingüísticos estadísticos integrados.
Como se ha descrito anteriormente, los nodos en el modelo lingüístico 304 representa submodelos lingüístico que especifican las probabilidades de ocurrencia de secuencias de palabras en el flujo de audio hablado 302. En la discusión anterior, se ha supuesto que las probabilidades ya se han asignado en tales modelos lingüísticos. Ahora de divulgarán ejemplos de técnicas para asignar probabilidades a los submodelos lingüísticos (tal como modelos lingüísticos de ngramas y gramáticas sin contexto) en el modelo lingüístico 304.
Con referencia a la figura 13, se muestra un diagrama de flujo de un procedimiento 1300 que se usa en una realización de la presente invención para generar el modelo lingüístico 304. Se selecciona una pluralidad de nodos para su uso en el modelo lingüístico (etapa 1302). Los nodos pueden, por ejemplo, ser seleccionados por un transcriptor u otra persona experto en el ámbito pertinente. Los nodos pueden ser seleccionados en un intento de capturar todos los tipos de conceptos que se pueden dar en el flujo de audio hablado 302. Por ejemplo, en el ámbito médico, se puede seleccionar nodos (tales como los mostrados en la figura 10A) que representan las secciones de un informe médico y los conceptor (tales como fechas, horas, medicaciones, alergias, signos vitales y códigos médicos) que se esperan que haya en un informe médico.
Un concepto y cualquier tipo de modelo lingüístico pueden ser asignados a cada uno de los nodos seleccionados en la etapa 1302 (etapas 1304-1306). Por ejemplo, el nodo 306b (figura 10A) puede ser asignado al concepto “indicio de sección de comparación” y ser asignado al tipo de modelo lingüístico “gramática de estado finito”. De manera similar, el nodo 1006a puede ser asignado al concepto “contenido de comparación” y el tipo de modelo lingüístico “modelo lingüístico de n-gramas”.
Los nodos seleccionados en la etapa 1302 pueden disponerse en una estructura jerárquica (etapa 1308). Por ejemplo, los nodos 1002, 306a-e, 1006a-e y 1010 pueden disponerse en la estructura jerárquica ilustrada en la figura 10A para representar y aplicar dependencias estructurales entre los nodos.
Cada uno de los nodos seleccionados en la etapa 1302 puede entonces entrenarse usando texto que representa un concepto correspondiente (etapa 1310). Por ejemplo, un conjunto de documentos de entrenamiento puede ser identificado. El conjunto de documentos de entrenamiento puede, por ejemplo, ser un conjunto de informes médicos existentes u otros documentos en el mismo ámbito como el flujo de audio hablado 302. Los documentos de entrenamiento pueden ser marcados manualmente para indicar la existencia y la ubicación de estructuras en el documento, tal como secciones, subsecciones, fechas, horas, códigos, y otros conceptos. Tal marcación puede, por ejemplo, ser realizada automáticamente sobre documentos formateados, o manualmente por transcriptores u otros persona cualificadas en el ámbito pertinente. Ejemplos de técnicas para entrenar los nodos seleccionados en la etapa 1302 se describen en la solicitud de patente referenciada anteriormente titulada “Document Transcription System Training”
Técnicas de entrenamiento de modelos lingüísticos convencionales pueden ser usadas en la etapa 1310 para entrenar los modelos lingüísticos de concepto específico para cada uno de los conceptos que se marcan en los documentos de entrenamiento. Por ejemplo, el texto de todas las secciones de “encabezado” marcadas en los documentos de entrenamiento se puede usar para entrenar el nodo de modelo lingüístico 306a que representa la sección de encabezado. De esta manera se pueden entrenar los modelos lingüísticos para cada uno de los nodos 1002, 306a-e, 1006a-e, y 1010 en el modelo lingüístico 304 ilustrado en la figura 10A. El resultado del procedimiento 1300 ilustrado en la figura 13 es un modelo lingüístico jerárquico que tiene posibilidades de entrenamiento, que se pueden usar para generar el documento de texto estructurado 310 de la manera descrita anteriormente. Este modelo lingüístico jerárquico se puede usar entonces, por ejemplo, para resegmentar repetidamente el texto de entrenamiento, como por ejemplo usando las técnicas divulgadas anteriormente e junto con las figuras 11B y 12B. El texto de entrenamiento resegmentado se puede usar para retener el modelo lingüístico jerárquico. Este proceso de resegmentación y reentrenamiento se puede aplicar repetidamente para mejorar repetidamente la calidad del modelo lingüístico.
En los ejemplos descritos anteriormente, el generador de documentos estructurados 308 reconoce el flujo de audio hablado 302 y genera el documento de texto estructurado 310 usando un proceso integrado, generando una transcripción intermedia no estructurada. Tales técnicas, sin embargo, están divulgadas simplemente a título de ejemplo y no constituyen limitaciones de la presente invención.
Con referencia a la figura 14 se muestra un diagrama de flujo de un procedimiento 1400 que se usa en otra realización de la presente invención para generar el documento de texto estructurado 310 usando distintas etapas de reconocimiento de habla y análisis estructural. Con referencia a la figura 15, se muestra un diagrama de flujo de datos de un sistema 1500 que lleva a cabo el procedimiento 1400 de la figura 14 según una realización de la presente invención.
El descodificador de reconocimiento de habla 320 reconoce el flujo de audio hablado 302 usando un modelo lingüístico 1506 para producir una transcripción 1502 del flujo de audio hablado 302. Cabe señalar que el modelo lingüístico 1506 puede ser un modelo lingüístico convencional que es distinto del modelo lingüístico 304. Más específicamente, el modelo lingüístico 1506 puede ser un modelo lingüístico monolítico convencional. El modelo lingüístico 1506 puede, por ejemplo, ser generado usando el mismo cuerpo de entrenamiento que el que se usa para entrenar el modelo lingüístico 304. Mientras las porciones del cuerpo de entrenamiento pueden ser usadas para entrenar el modelo lingüístico 304, el cuerpo entero puede ser usado para entrenar el modelo lingüístico 1506. El descodificador de reconocimiento de habla 320, puede, de este modo, usar técnicas de reconocimiento de habla convencionales para reconocer el flujo de audio hablado 302 usando el modelo lingüístico 1506 y producir de este modo la transcripción 1502.
Cabe señalar que la transcripción 1502 puede ser una transcripción “plana” 1502 del flujo de audio hablado 302, en lugar de un documento estructurado como en los ejemplos anteriores divulgados anteriormente. La transcripción 1502 puede, por ejemplo, incluir una secuencia de texto plano que se parece al texto ilustrado en la figura 4 (que ilustra el flujo de audio hablado 302 en forma de texto).
El sistema 1500 incluye también un analizador estructural 1504, que usa el modelo lingüístico jerárquico 304 para analizar la transcripción 1502 y producir de este modo el documento de texto estructurado 310 (etapa 1404). El analizador estructural 1504 puede usar las técnicas divulgadas anteriormente respecto de las figuras 11C y 12B para: (1) producir múltiples documentos estructurados candidatos que tienen el mismo contenido que la transcripción 1502 pero con estructuras que corresponden a diferentes trayectorias a través del modelo lingüístico 304; (2) generar una puntuación de pertinencia para cada uno de los documentos estructurados candidatos; y (3) seleccionar el documento estructurado candidato con la mayor puntuación de pertinencia como el documento de texto estructurado final. Contrariamente a las técnicas divulgadas anteriormente respecto de las figuras 11C y 12B, sin embargo, la etapa 1404 puede ser aplicada sin llevar a cabo el reconocimiento de habla para generar cada uno de los documentos estructurados candidatos. En su lugar, una vez producida la transcripción 1502 usando el descodificador de reconocimiento de habla 320, los documentos estructurados candidatos pueden ser generados basados en la transcripción 1502 sin llevar a cabo un reconocimiento de habla adicional.
Asimismo, el analizador estructural 1504 no necesita usar todo el modelo lingüístico 304 para producir el documento de texto estructurado 310. En su lugar, el analizador estructural 1504 puede usar un modelo lingüístico “esquelético” a escala reducida, tal como el modelo lingüístico 1030 ilustrado en la figura 10C. Cabe señalar que el modelo lingüístico ejemplar 1030 mostrado en la figura 10C es el mismo que el modelo lingüístico 304 mostrado en la figura 10A, salvo que en el modelo lingüístico esquelético 1030 los nodos de modelo lingüístico de contenido 306a, 1006a-d y 1010 han sido sustituidos por modelos lingüísticos aceptados universalmente 1032a-f, también denominados como modelo lingüístico “No importa”. Los modelos lingüísticos 1032a-f aceptarán cualquier texto que les sea proporciona como entrada. El modelo de lenguaje de indicios de encabezado 306b-e en el modelo lingüístico esquelético 1030 permite que el analizador estructural 1504 analice la transcripción 1502 en las subestructuras correctas en el documento estructurado
310. El uso de los modelo lingüístico aceptados universalmente 1032a-f, permite sin embargo que el analizador estructural 1504 lleve a cabo tal análisis estructural sin incurrir en el gasto (típicamente considerable) de los modelos lingüístico de contenido de entrenamiento, tal como los modelos 306a, 1006a-d y 1010 mostrados en la figura 10A.
Cabe señalar que el modelo lingüístico esquelético 1030 puede seguir también incluir modelos lingüísticos, tales como el modelo lingüístico de fechas 1012, que corresponde a conceptos de bajo nivel. Como consecuencia, el modelo lingüístico esquelético 1030 se puede usar para generar el documento estructurado 310 de la transcripción 1502 sin incurrir en la sobrecarga de modelos lingüísticos de contenido de entrenamiento, mientras conserva la capacidad de analizar conceptos de nivel inferior en el documento estructurado 310.
Entre las ventajas de la invención se encuentra una o más de las siguientes. Las técnicas divulgadas en el presente documento sustituyen el modelo lingüístico global tradicional con una combinación de modelos lingüísticos locales especializados que están mejor adaptados a la sección de un documento que un modelo lingüístico genérico individual. Tal modelo lingüístico tiene varias ventajas.
Por ejemplo, el uso de un modelo lingüístico que contiene submodelos, cada uno de los cuales corresponde a un concepto particular, es ventajoso porque permite que el modelo lingüístico más apropiado sea utilizado para reconocer el habla que corresponde a cada concepto. Dicho de otro modo, si cada uno de los submodelos corresponde a un concepto diferente, entonces cada uno de los submodelos puede ser usado para aplicar un reconocimiento de habla en el habla que representa el concepto correspondiente. Dado que las características del habla pueden variar de un concepto a otro, el uso de tales modelos lingüísticos específicos de concepto puede producir mejores resultados de reconocimiento que los que se producirían usando un modelo lingüístico monolítico para todos los conceptos.
Aunque los submodelos de un modelo lingüístico pueden corresponder a secciones de un documento, esto no es una limitación de la presente invención. En su lugar, cada submodelo en el modelo lingüístico puede corresponder a cualquier concepto, tal como una sección, párrafo, frase, fecha, hora o código ICD9. En consecuencia, los submodelos en el modelo lingüístico pueden coincidir con conceptos particulares con un grado de precisión superior al que sería posible si solo se empleasen modelos lingüísticos específicos de sección. El uso de tales modelos lingüísticos específicos de concepto para una amplia variedad de conceptos puede mejorar, además, la precisión de reconocimiento de habla.
Asimismo, los modelos lingüísticos jerárquicos designados de acuerdo con las realizaciones de la presente invención pueden tener estructuras jerárquicas multinivel, con el efecto de anidar submodelos los unos en el interior de los otros. Como consecuencia; los submodelos en el modelo lingüístico se puede aplicar a porciones del flujo de audio hablado 302 con varios niveles de granularidad, siendo aplicado el modelo lingüístico más apropiado a cada nivel de granularidad. Por ejemplo, un modelo lingüístico de “sección de encabezado” se puede aplicar generalmente al habla en el interior de la sección de encabezado de un documento, mientras que un modelo lingüístico de “fecha” se puede aplicar específicamente al habla que representa fechas en la sección de encabezado. Esta capacidad para anidar modelos lingüísticos y aplicar modelos lingüísticos anidados a diferentes porciones de habla puede mejorar, además, la precisión de reconocimiento permitiendo que el modelo lingüístico más apropiado sea aplicado a cada porción de un flujo de audio hablado.
Otra ventaja del uso de un modelo lingüístico que incluye una pluralidad de submodelos es que las técnicas divulgadas en el presente documento pueden usar tal modelo lingüístico para generar un documento de texto estructurado a partir de un flujo de audio hablado usando un único proceso integrado, en lugar del proceso en dos etapas de la técnica anterior 100 ilustrado en la figura 1A en el que la etapa de reconocimiento de habla va seguida de una etapa de procesamiento del lenguaje natural. En el proceso en dos etapas 100 ilustrado en la figura 1A las etapas llevadas a cabo por el reconocedor de habla 104 y el procesador de lenguaje natural 108 están completamente desacoplados. Debido al reconocedor de habla automático 104 y al procesador de lenguaje natural 108 funcionan independientemente el uno del otro, el resultado 106 del reconocedor de habla automático 104 es un transcripción literal del contenido hablado en el flujo de audio 102. La transcripción literal 106 contiene de este modo el texto correspondiente a todas las palabras habladas en el flujo de audio 102, sean estas palabras relevantes o no relevantes para el documento de texto estructurado deseado final. Tales palabras pueden incluir, por ejemplo, dudas, palabras extrañas o repeticiones, así como pistas estructurales o palabras relacionadas con la tarea. Además, el procesador lingüístico natural 108 se basa en la detección y transcripción exitosas de ciertas palabras clave y/o expresiones clave, tales como pistas estructurales. Si estas palabras/expresiones clave son mal reconocidas por el reconocedor de habla automático 104, la identificación de entidades estructurales por el procesador lingüístico natural 108 puede verse afectado negativamente. Por el contrario, en el procedimiento 200 ilustrado en la figura 2, el reconocimiento de habla y el procesamiento del lenguaje natural están integrados, permitiendo de este modo que el modelo lingüístico influya tanto en el reconocimiento de palabras en el flujo de audio 4302 como en la generación de estructura en el documento de texto estructurado 310, mejorando de este modo la calidad global del documento estructurado 310.
Además de generar el documento estructurado 310, las técnicas divulgadas en el presente documento también se pueden usar para extraer e interpretar contenido semántico del flujo de audio 302. Por ejemplo, el modelo lingüístico de fechas 1012 (figuras 10A-10B) se puede usar para identificar porciones del flujo de audio 302 que representan fechas, y almacenar representaciones de tales fechas en forma legible por ordenador. Por ejemplo, las técnicas divulgadas en el presente documento se pueden usar para identificar la expresión hablada “primero de octubre mil novecientos noventa y tres” como una fecha y almacenar la fecha de una forma legible por ordenador, tal como “mes=10, día=1, año=1998). Almacenar tales conceptos de una forma legible por ordenador permite que el contenido de tales conceptos sea procesado fácilmente por un ordenador, por ejemplo seleccionando secciones de documento por fecha o identificando medicaciones prescritas antes de una fecha dada. Además, las técnicas divulgadas en el presente documento permite que el usuario defina diferentes porciones (por ejemplo, secciones) del documento y elegir qué conceptos se han de extraer en cada sección. Las técnicas divulgadas en el presente documento facilitan de este modo el reconocimiento y el procesamiento del contenido semántico en los flujos de audio hablados. Tales técnicas se pueden aplicar en lugar de o además del almacenamiento de información extraída en un documento estructurado.
Ámbitos tales como los ámbitos médicos y legales, en los cuales hay grandes cuerpos de flujos de audio grabados preexistentes para su uso como texto de entrenamiento, pueden ser particularmente ventajosos en las técnicas divulgadas en el presente texto. Tal texto de entrenamiento se puede usar para entrenar el modelo lingüístico 304 usando las técnicas divulgadas anteriormente respecto de la figura 13. Dado que pueden ser necesarios documentos en tales ámbitos para tener estructuras bien definidas, y dado que tales estructuras se pueden identificar fácilmente en los documentos existentes, puede ser relativamente fácil (aunque consumiendo tiempo) para identificar correctamente las porciones de tales documentos específicos de concepto para su uso en el entrenamiento de cada uno de los nodos de modelo lingüístico de concepto específico en el modelo lingüístico 304. Como consecuencia, cada uno de los nodos de modelo lingüístico puede ser bien entrenado para reconocer el concepto correspondiente, aumentando de este modo la precisión de reconocimiento y aumentando la capacidad del sistema para generar documentos con la estructura requerida.
Asimismo, las técnicas divulgadas en el presente documento se pueden aplicar en tales ámbitos sin requerir ningún cambio en el proceso existente por el cual el audio es grabado y transcrito. En el ámbito médico, por ejemplo, los médicos pueden seguir dictando informes médicos a su manera habitual. Las técnicas divulgadas en el presente documento se pueden usar para generar documentos con la estructura deseada sin tener en cuenta la manera de dictar el flujo de audio hablado. Técnicas alternativas que requieren cambios en el flujo de trabajo, tales como técnicas que requieren que los hablantes se registren (leyendo texto de entrenamiento), que requieren que los hablantes modifiquen su manera de hablar (por ejemplo diciendo siempre los conceptos usando formas habladas predeterminadas), o requieren que las transcripciones sean generadas en un formato particular, pueden tener un coste prohibitivo para su aplicación en ámbitos tales como los campos médico y lega. Tales cambios pueden, de hecho, ser incoherentes con las necesidades institucionales o legales relacionadas con la estructura del informe (tal como los requisitos de informe de seguro). Las técnicas divulgadas en el presente documento, por el contrario, permiten que el flujo de audio 302 sea generado de cualquier manera y tenga cualquier forma.
Asimismo, los submodelos individuales 306a-e en el modelo lingüístico 304 se puede actualizar fácilmente sin afectar al resto del modelo lingüístico. Por ejemplo, el submodelo de contenido de encabezado 306a-e se puede sustituir por un submodelo de contenido de encabezado diferente que se representa diferentemente por la forma en que se dictó la cabecera del documento. ‘La estructura modular del modelo lingüístico 304’ permite que tal modificación/sustitución de submodelos sea levado a cabo sin la necesidad de modificar ninguna parte del modelo lingüístico 304. Como consecuencia, las partes del modelo lingüístico 304 se pueden actualizar fácilmente para reflejar diferentes acuerdos de dictado de documentos.
Asimismo, el documento de texto estructurado 310 que es producido por varias realizaciones de la presente invención se puede usar para entrenar un modelo lingüístico. Por ejemplo, las técnicas de entrenamiento descritas en la solicitud de patente referenciada anteriormente titulada “Documento Transcripción System Training” puede usar el documento de texto estructurado 310 para volver a entrenar y de este modo mejorar el modelo lingüístico 304. El modelo lingüístico vuelto a entrenar 304 se puede usar entonces para producir posteriores documentos de texto estructurados, los cuales pueden a su vez ser usado para volver a entrenar el modelo lingüístico 304. Este proceso iterativo se puede emplear para mejorar la calidad de los documentos estructurados que se producen a lo largo del tiempo.
Cabe entender que aunque la invención se ha descrito anteriormente en términos de realizaciones particulares, las realizaciones anteriores están provistas solo a título ilustrativo, y no limitan o definen el alcance de la invención. Otras varias realizaciones, que incluyen pero no se limitan a lo siguiente, se encuentran también dentro del alcance de las reivindicaciones. Por ejemplo, los elementos y componentes descritos en el presente documento se pueden dividir, además, en componentes adicionales o unirse juntos para formar menos componentes para llevar a cabo las mismas funciones.
El flujo de audio hablado 302 puede ser cualquier flujo de audio, tal como un flujo de audio en directo recibido directamente o indirectamente (tal como en una conexión telefónica o por IP) o un flujo de audio grabado en cualquier medio y en cualquier formato. En el reconocimiento de habla distribuido (DSR), un cliente lleva a cabo el preprocesamiento en un flujo de audio para producir un flujo de audio procesado que es transmitido a un servidor, que lleva a cabo el reconocimiento de habla sobre el flujo de audio procesado. El flujo de audio 302 puede, por ejemplo, ser un flujo de audio procesado producido por un cliente DSR.
Aunque en los ejemplos anteriores se describe cada nodo en el modelo lingüístico 304 como conteniendo un modelo lingüístico que corresponde a un concepto particular, no es un requisito de la presente invención. Por ejemplo, un nodo puede incluir un modelo lingüístico que resulta dela interpolación de un modelo lingüístico de concepto específico asociado al nodo con uno o más de: (1) modelos lingüísticos globales de fondo con otros nodos, o (2) modelos lingüísticos específicos de concepto asociados a otros nodos.
En los ejemplos anteriores, se puede hacer una distinción entre “gramáticas” y “texto”. Cabe apreciar que el texto puede ser representado como una gramática, en la que es una única forma hablada que tiene una sola probabilidad. Por lo tanto, los documentos que se describen en el presente documento como se incluye tanto en el texto como en las gramáticas se pueden aplicar solo usando gramáticas si se desea. Además, una gramática de estado único es simplemente un tipo de gramática sin contexto, que es un tipo de modelo lingüístico que permite que múltiples formas habladas alternativas de un concepto sea aplicado más generalmente a cualquier otro tipo de gramática. Asimismo, aunque la descripción anterior puede referirse a gramáticas de estado finito y modelos lingüísticos de n-gramas, hay simplemente ejemplos de tipos de modelos lingüísticos que se pueden usar junto con las realizaciones de la presente invención. Las realizaciones de la presente invención no están limitadas a su uso junto con cualquier tipo o tipos particulares de modelo o modelos lingüísticos.
La invención no se limita a cualquiera de los campos descritos (tal como informes médicos y legales), sino que se aplica generalmente a cualquier tipo de documentos estructurados.
Las técnicas descritas anteriormente pueden aplicarse, por ejemplo, en hardware, software, microprogramas o cualquier combinación de los mismos. Las técnicas descritas anteriormente se puede aplicar en uno o más programas informáticos que se ejecutan en un ordenador programable incluyendo un procesador, un medio de almacenamiento legible por el procesador (incluyendo, por ejemplo, elementos de almacenamiento y/o memoria volátil y no volátil), al menos un dispositivo de entrada, y al menos un dispositivo de salida. El código de programa se puede aplicar a la entrada introducida usando el dispositivo de entrada para llevar a cabo las funciones descritas y generar la salida. La salida puede ser provista a uno o más dispositivos de salida.
Cada programa informático dentro de las reivindicaciones siguientes puede ser aplicado en cualquier lenguaje de programación, tal como lenguaje ensamblador, lenguaje máquina, un lenguaje de programación de procedimiento de alto nivel, o un lenguaje de programación orientado al objeto. El lenguaje de programación puede, por ejemplo, ser un lenguaje de programación compilado o interpretado.
Cada programa informático de este tipo se puede aplicar en un producto de programa informático materializa de manera tangible en un dispositivo de almacenamiento legible por máquina para su ejecución por un procesador informático. Las etapas del procedimiento de la invención pueden ser llevadas a cabo por un procesador informático que ejecuta un programa materializado de manera tangible en un medio legible por ordenador para aplicar las funciones de la invención que funcionan en la entrada y generan la salida. Los procesadores apropiados incluyen, a título de ejemplo, tanto microprocesadores de uso general como de uso especial. Generalmente el procesador recibe instrucciones y datos de una memoria de solo lectura y/o una memoria de acceso aleatorio. Los dispositivos de almacenamiento apropiados para materializar de manera tangible instrucciones de programa informático incluyen, por ejemplo, todas formas de memoria no volátil, tal como dispositivos de memoria semiconductora, incluyendo dispositivos EPROM, EEPROM, y de memoria ultrarrápida; discos magnéticos tales como los discos duros internos y discos removibles; discos magneto-ópticos; y CD-ROM. Cualquiera de los anteriores puede complementarse con, o incorporarse a, ASIC especialmente diseñadas (Circuitos integrados de aplicación específica o FPGA (Matrices de puertas programables por campos). Un ordenador puede en general recibir también programas y datos de un medio de almacenamiento tal como un disco interno (no mostrado) o un disco removible). Estos elementos se encontrarás también en un ordenador de sobremesa convencional
o de estación de trabajo así como otros ordenadores apropiados para ejecutar programas informáticos que aplican los procedimiento descritos en el presente documento, que se pueden usar junto con cualquier motor de impresión digital o motor de marcado, monitor de visualización, u otro dispositivo de salida de trama capaz de producir píxeles de color o escala de grises sobre papel, película, pantalla de visualización, u otro medio de salida.
Claims (6)
- REIVINDICACIONES1.- Un procedimiento que comprende las etapas:
- (A)
- identificar un modelo lingüístico probabilista que incluye una pluralidad de modelos lingüísticos probabilistas asociada a una pluralidad de subestructuras de un documentos; y
- (B)
- utilizar un descodificador de reconocimiento de habla para aplicar el modelo lingüístico probabilista a un flujo de audio hablado para producir un documento que incluye contenido organizado en la pluralidad de subestructuras, en el cual el contenido en cada una de la pluralidad de subestructuras es producido reconociendo el habla usando la subestructura, en el cual la pluralidad de modelos lingüísticos probabilistas están organizados en una jerarquía, y en el cual la etapa (B) comprende las etapas de:
(B)(1) identificar una trayectoria a través de la jerarquía, que comprende las etapas de:(B)(1)(a) identificar una pluralidad de trayectoria a través de la jerarquía (B)(1)(b) para cada una de la pluralidad de trayectorias P, producir un documento estructurado candidato para el flujo de audio hablado usando el descodificador de reconocimiento de habla para reconocer el flujo de audio hablado usando los modelos lingüísticos en la trayectoria P; B(1)© aplicar una medición a la pluralidad de documentos estructurados candidatos producidos en la etapa (B)(1)(b) para producir una pluralidad de puntuaciones de pertinencia para la pluralidad de documentos estructurados candidatos; y (B)(1)(d) seleccionar la trayectoria que produce los documentos estructurados candidatos que tienen la mayor puntuación pertinente;(B)(2) generar el documento que tiene una estructura que corresponde a la trayectoria identificada en la etapa (B)(1). - 2.- El procedimiento de la reivindicación 1, en el cual la pluralidad de modelos lingüísticos probabilistas incluye al menos un modelo lingüístico de n-gramas.
- 3.- El procedimiento de la reivindicación 1, en el cual la pluralidad de modelos lingüísticos probabilistas incluye al menos un modelo lingüístico de estado finito.
- 4.- El procedimiento de la reivindicación 1, en el cual la pluralidad de subestructura incluye una subestructura que representa un concepto semántico.
- 5.- El procedimiento de la reivindicación 4, en el cual el concepto semántico comprende una medicación.
- 6.- El procedimiento de la reivindicación 1, que comprende, además, una etapa de:(C) presentar el documento para producir una representación que indica la estructura del documento.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/923,517 US7584103B2 (en) | 2004-08-20 | 2004-08-20 | Automated extraction of semantic content and generation of a structured document from speech |
US923517 | 2004-08-20 | ||
PCT/US2005/029354 WO2006023622A2 (en) | 2004-08-20 | 2005-08-18 | Automated extraction of semantic content and generation of a structured document from speech |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2394726T3 true ES2394726T3 (es) | 2013-02-05 |
Family
ID=35910687
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES05789851T Active ES2394726T3 (es) | 2004-08-20 | 2005-08-18 | Extracción automática de contenido semántico y generación de un documento estructurado a partir del habla |
Country Status (8)
Country | Link |
---|---|
US (2) | US7584103B2 (es) |
EP (1) | EP1787288B1 (es) |
JP (1) | JP4940139B2 (es) |
CA (1) | CA2577721C (es) |
DK (1) | DK1787288T3 (es) |
ES (1) | ES2394726T3 (es) |
PL (1) | PL1787288T3 (es) |
WO (1) | WO2006023622A2 (es) |
Families Citing this family (149)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100517300C (zh) | 2002-11-28 | 2009-07-22 | 皇家飞利浦电子股份有限公司 | 分配词类信息的设备和方法 |
US8666725B2 (en) * | 2004-04-16 | 2014-03-04 | University Of Southern California | Selection and use of nonstatistical translation components in a statistical machine translation framework |
US7793217B1 (en) * | 2004-07-07 | 2010-09-07 | Young Kim | System and method for automated report generation of ophthalmic examinations from digital drawings |
US7818041B2 (en) * | 2004-07-07 | 2010-10-19 | Young Kim | System and method for efficient diagnostic analysis of ophthalmic examinations |
EP1787289B1 (en) * | 2004-07-30 | 2018-01-10 | Dictaphone Corporation | A system and method for report level confidence |
US8412521B2 (en) * | 2004-08-20 | 2013-04-02 | Multimodal Technologies, Llc | Discriminative training of document transcription system |
US7844464B2 (en) * | 2005-07-22 | 2010-11-30 | Multimodal Technologies, Inc. | Content-based audio playback emphasis |
US8335688B2 (en) * | 2004-08-20 | 2012-12-18 | Multimodal Technologies, Llc | Document transcription system training |
US7584103B2 (en) * | 2004-08-20 | 2009-09-01 | Multimodal Technologies, Inc. | Automated extraction of semantic content and generation of a structured document from speech |
US20130304453A9 (en) * | 2004-08-20 | 2013-11-14 | Juergen Fritsch | Automated Extraction of Semantic Content and Generation of a Structured Document from Speech |
US7908141B2 (en) * | 2004-09-29 | 2011-03-15 | International Business Machines Corporation | Extracting and utilizing metadata to improve accuracy in speech to text conversions |
DE112005002534T5 (de) * | 2004-10-12 | 2007-11-08 | University Of Southern California, Los Angeles | Training für eine Text-Text-Anwendung, die eine Zeichenketten-Baum-Umwandlung zum Training und Decodieren verwendet |
US7502741B2 (en) * | 2005-02-23 | 2009-03-10 | Multimodal Technologies, Inc. | Audio signal de-identification |
US20060212452A1 (en) * | 2005-03-18 | 2006-09-21 | Cornacchia Louis G Iii | System and method for remotely inputting and retrieving records and generating reports |
US7640255B2 (en) | 2005-05-31 | 2009-12-29 | Sap, Ag | Method for utilizing a multi-layered data model to generate audience specific documents |
US7430715B2 (en) * | 2005-05-31 | 2008-09-30 | Sap, Aktiengesellschaft | Interface for indicating the presence of inherited values in a document |
US8676563B2 (en) * | 2009-10-01 | 2014-03-18 | Language Weaver, Inc. | Providing human-generated and machine-generated trusted translations |
US7693713B2 (en) * | 2005-06-17 | 2010-04-06 | Microsoft Corporation | Speech models generated using competitive training, asymmetric training, and data boosting |
US8886517B2 (en) | 2005-06-17 | 2014-11-11 | Language Weaver, Inc. | Trust scoring for language translation systems |
US8577684B2 (en) | 2005-07-13 | 2013-11-05 | Intellisist, Inc. | Selective security masking within recorded speech utilizing speech recognition techniques |
US8700404B1 (en) | 2005-08-27 | 2014-04-15 | At&T Intellectual Property Ii, L.P. | System and method for using semantic and syntactic graphs for utterance classification |
US8032372B1 (en) * | 2005-09-13 | 2011-10-04 | Escription, Inc. | Dictation selection |
US20070081428A1 (en) * | 2005-09-29 | 2007-04-12 | Spryance, Inc. | Transcribing dictation containing private information |
US20070078806A1 (en) * | 2005-10-05 | 2007-04-05 | Hinickle Judith A | Method and apparatus for evaluating the accuracy of transcribed documents and other documents |
US7640158B2 (en) | 2005-11-08 | 2009-12-29 | Multimodal Technologies, Inc. | Automatic detection and application of editing patterns in draft documents |
US10319252B2 (en) * | 2005-11-09 | 2019-06-11 | Sdl Inc. | Language capability assessment and training apparatus and techniques |
WO2007066304A1 (en) * | 2005-12-08 | 2007-06-14 | Koninklijke Philips Electronics N.V. | Method and system for dynamic creation of contexts |
US8036889B2 (en) * | 2006-02-27 | 2011-10-11 | Nuance Communications, Inc. | Systems and methods for filtering dictated and non-dictated sections of documents |
US8301448B2 (en) | 2006-03-29 | 2012-10-30 | Nuance Communications, Inc. | System and method for applying dynamic contextual grammars and language models to improve automatic speech recognition accuracy |
US7756708B2 (en) * | 2006-04-03 | 2010-07-13 | Google Inc. | Automatic language model update |
US8943080B2 (en) * | 2006-04-07 | 2015-01-27 | University Of Southern California | Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections |
US7831423B2 (en) * | 2006-05-25 | 2010-11-09 | Multimodal Technologies, Inc. | Replacing text representing a concept with an alternate written form of the concept |
US20070299665A1 (en) * | 2006-06-22 | 2007-12-27 | Detlef Koll | Automatic Decision Support |
US8433915B2 (en) | 2006-06-28 | 2013-04-30 | Intellisist, Inc. | Selective security masking within recorded speech |
US20080027726A1 (en) * | 2006-07-28 | 2008-01-31 | Eric Louis Hansen | Text to audio mapping, and animation of the text |
US8886518B1 (en) | 2006-08-07 | 2014-11-11 | Language Weaver, Inc. | System and method for capitalizing machine translated text |
US8521510B2 (en) * | 2006-08-31 | 2013-08-27 | At&T Intellectual Property Ii, L.P. | Method and system for providing an automated web transcription service |
US9122674B1 (en) | 2006-12-15 | 2015-09-01 | Language Weaver, Inc. | Use of annotations in statistical machine translation |
US8433576B2 (en) * | 2007-01-19 | 2013-04-30 | Microsoft Corporation | Automatic reading tutoring with parallel polarized language modeling |
US20080177623A1 (en) * | 2007-01-24 | 2008-07-24 | Juergen Fritsch | Monitoring User Interactions With A Document Editing System |
US8132104B2 (en) * | 2007-01-24 | 2012-03-06 | Cerner Innovation, Inc. | Multi-modal entry for electronic clinical documentation |
US20080221882A1 (en) * | 2007-03-06 | 2008-09-11 | Bundock Donald S | System for excluding unwanted data from a voice recording |
US8615389B1 (en) * | 2007-03-16 | 2013-12-24 | Language Weaver, Inc. | Generation and exploitation of an approximate language model |
WO2008120146A1 (en) | 2007-03-29 | 2008-10-09 | Nuance Communications Austria Gmbh | Method and system for generating a medical report and computer program product therefor |
US8831928B2 (en) * | 2007-04-04 | 2014-09-09 | Language Weaver, Inc. | Customizable machine translation service |
JP5145751B2 (ja) * | 2007-04-06 | 2013-02-20 | コニカミノルタエムジー株式会社 | 医療用の情報処理システム |
US20080273774A1 (en) * | 2007-05-04 | 2008-11-06 | Maged Mikhail | System and methods for capturing a medical drawing or sketch for generating progress notes, diagnosis and billing codes |
US8825466B1 (en) | 2007-06-08 | 2014-09-02 | Language Weaver, Inc. | Modification of annotated bilingual segment pairs in syntax-based machine translation |
US8306822B2 (en) * | 2007-09-11 | 2012-11-06 | Microsoft Corporation | Automatic reading tutoring using dynamically built language model |
US20090216532A1 (en) * | 2007-09-26 | 2009-08-27 | Nuance Communications, Inc. | Automatic Extraction and Dissemination of Audio Impression |
US8301633B2 (en) * | 2007-10-01 | 2012-10-30 | Palo Alto Research Center Incorporated | System and method for semantic search |
US20100017293A1 (en) * | 2008-07-17 | 2010-01-21 | Language Weaver, Inc. | System, method, and computer program for providing multilingual text advertisments |
US8019608B2 (en) | 2008-08-29 | 2011-09-13 | Multimodal Technologies, Inc. | Distributed speech recognition using one way communication |
US20100125450A1 (en) | 2008-10-27 | 2010-05-20 | Spheris Inc. | Synchronized transcription rules handling |
US20100145720A1 (en) * | 2008-12-05 | 2010-06-10 | Bruce Reiner | Method of extracting real-time structured data and performing data analysis and decision support in medical reporting |
JP5377430B2 (ja) * | 2009-07-08 | 2013-12-25 | 本田技研工業株式会社 | 質問応答データベース拡張装置および質問応答データベース拡張方法 |
US8990064B2 (en) * | 2009-07-28 | 2015-03-24 | Language Weaver, Inc. | Translating documents based on content |
CA2789158C (en) | 2010-02-10 | 2016-12-20 | Mmodal Ip Llc | Providing computable guidance to relevant evidence in question-answering systems |
US10417646B2 (en) * | 2010-03-09 | 2019-09-17 | Sdl Inc. | Predicting the cost associated with translating textual content |
US8463673B2 (en) | 2010-09-23 | 2013-06-11 | Mmodal Ip Llc | User feedback in semi-automatic question answering systems |
US8959102B2 (en) | 2010-10-08 | 2015-02-17 | Mmodal Ip Llc | Structured searching of dynamic structured document corpuses |
US9262397B2 (en) | 2010-10-08 | 2016-02-16 | Microsoft Technology Licensing, Llc | General purpose correction of grammatical and word usage errors |
US8768723B2 (en) | 2011-02-18 | 2014-07-01 | Nuance Communications, Inc. | Methods and apparatus for formatting text for clinical fact extraction |
US10460288B2 (en) | 2011-02-18 | 2019-10-29 | Nuance Communications, Inc. | Methods and apparatus for identifying unspecified diagnoses in clinical documentation |
US10032127B2 (en) | 2011-02-18 | 2018-07-24 | Nuance Communications, Inc. | Methods and apparatus for determining a clinician's intent to order an item |
US8924394B2 (en) | 2011-02-18 | 2014-12-30 | Mmodal Ip Llc | Computer-assisted abstraction for reporting of quality measures |
US9904768B2 (en) | 2011-02-18 | 2018-02-27 | Nuance Communications, Inc. | Methods and apparatus for presenting alternative hypotheses for medical facts |
US11003838B2 (en) | 2011-04-18 | 2021-05-11 | Sdl Inc. | Systems and methods for monitoring post translation editing |
US8694303B2 (en) | 2011-06-15 | 2014-04-08 | Language Weaver, Inc. | Systems and methods for tuning parameters in statistical machine translation |
US9412369B2 (en) | 2011-06-17 | 2016-08-09 | Microsoft Technology Licensing, Llc | Automated adverse drug event alerts |
WO2012177662A1 (en) * | 2011-06-19 | 2012-12-27 | Mmodal Ip Llc | Document extension in dictation-based document generation workflow |
US8855997B2 (en) * | 2011-07-28 | 2014-10-07 | Microsoft Corporation | Linguistic error detection |
US8650031B1 (en) * | 2011-07-31 | 2014-02-11 | Nuance Communications, Inc. | Accuracy improvement of spoken queries transcription using co-occurrence information |
US8886515B2 (en) | 2011-10-19 | 2014-11-11 | Language Weaver, Inc. | Systems and methods for enhancing machine translation post edit review processes |
US9009025B1 (en) | 2011-12-27 | 2015-04-14 | Amazon Technologies, Inc. | Context-based utterance recognition |
US9569593B2 (en) | 2012-03-08 | 2017-02-14 | Nuance Communications, Inc. | Methods and apparatus for generating clinical reports |
WO2013133891A1 (en) * | 2012-03-08 | 2013-09-12 | Nuance Communications, Inc. | Methods and apparatus for generating clinical reports |
US9569594B2 (en) | 2012-03-08 | 2017-02-14 | Nuance Communications, Inc. | Methods and apparatus for generating clinical reports |
US8942973B2 (en) | 2012-03-09 | 2015-01-27 | Language Weaver, Inc. | Content page URL translation |
US8612261B1 (en) | 2012-05-21 | 2013-12-17 | Health Management Associates, Inc. | Automated learning for medical data processing system |
US10261994B2 (en) | 2012-05-25 | 2019-04-16 | Sdl Inc. | Method and system for automatic management of reputation of translators |
US9679077B2 (en) * | 2012-06-29 | 2017-06-13 | Mmodal Ip Llc | Automated clinical evidence sheet workflow |
JP6388864B2 (ja) | 2012-08-13 | 2018-09-12 | エムモーダル アイピー エルエルシー | 自由形式テキストに含まれる情報に対応する離散データ表現の維持 |
WO2014031541A2 (en) * | 2012-08-18 | 2014-02-27 | Health Fidelity, Inc. | Systems and methods for processing patient information |
US9405448B2 (en) | 2012-08-30 | 2016-08-02 | Arria Data2Text Limited | Method and apparatus for annotating a graphical output |
US9336193B2 (en) | 2012-08-30 | 2016-05-10 | Arria Data2Text Limited | Method and apparatus for updating a previously generated text |
US9135244B2 (en) | 2012-08-30 | 2015-09-15 | Arria Data2Text Limited | Method and apparatus for configurable microplanning |
US8762133B2 (en) | 2012-08-30 | 2014-06-24 | Arria Data2Text Limited | Method and apparatus for alert validation |
US8762134B2 (en) | 2012-08-30 | 2014-06-24 | Arria Data2Text Limited | Method and apparatus for situational analysis text generation |
US9600471B2 (en) | 2012-11-02 | 2017-03-21 | Arria Data2Text Limited | Method and apparatus for aggregating with information generalization |
WO2014076524A1 (en) | 2012-11-16 | 2014-05-22 | Data2Text Limited | Method and apparatus for spatial descriptions in an output text |
WO2014076525A1 (en) | 2012-11-16 | 2014-05-22 | Data2Text Limited | Method and apparatus for expressing time in an output text |
US9152622B2 (en) | 2012-11-26 | 2015-10-06 | Language Weaver, Inc. | Personalized machine translation via online adaptation |
WO2014102568A1 (en) | 2012-12-27 | 2014-07-03 | Arria Data2Text Limited | Method and apparatus for motion detection |
US9990360B2 (en) | 2012-12-27 | 2018-06-05 | Arria Data2Text Limited | Method and apparatus for motion description |
US10776561B2 (en) | 2013-01-15 | 2020-09-15 | Arria Data2Text Limited | Method and apparatus for generating a linguistic representation of raw input data |
US11024406B2 (en) | 2013-03-12 | 2021-06-01 | Nuance Communications, Inc. | Systems and methods for identifying errors and/or critical results in medical reports |
US9819798B2 (en) | 2013-03-14 | 2017-11-14 | Intellisist, Inc. | Computer-implemented system and method for efficiently facilitating appointments within a call center via an automatic call distributor |
US20140278553A1 (en) * | 2013-03-15 | 2014-09-18 | Mmodal Ip Llc | Dynamic Superbill Coding Workflow |
US10586466B2 (en) | 2013-04-04 | 2020-03-10 | Jonathan Andrew WATERHOUSE | Process for displaying an action vignette while text of a passage associated with the action vignette is correctly read aloud |
US10496743B2 (en) | 2013-06-26 | 2019-12-03 | Nuance Communications, Inc. | Methods and apparatus for extracting facts from a medical text |
WO2015028844A1 (en) | 2013-08-29 | 2015-03-05 | Arria Data2Text Limited | Text generation from correlated alerts |
US9396181B1 (en) | 2013-09-16 | 2016-07-19 | Arria Data2Text Limited | Method, apparatus, and computer program product for user-directed reporting |
US9244894B1 (en) | 2013-09-16 | 2016-01-26 | Arria Data2Text Limited | Method and apparatus for interactive reports |
US9213694B2 (en) | 2013-10-10 | 2015-12-15 | Language Weaver, Inc. | Efficient online domain adaptation |
US10324966B2 (en) | 2014-03-21 | 2019-06-18 | Mmodal Ip Llc | Search by example |
WO2015159133A1 (en) | 2014-04-18 | 2015-10-22 | Arria Data2Text Limited | Method and apparatus for document planning |
US10152532B2 (en) | 2014-08-07 | 2018-12-11 | AT&T Interwise Ltd. | Method and system to associate meaningful expressions with abbreviated names |
US10169826B1 (en) * | 2014-10-31 | 2019-01-01 | Intuit Inc. | System and method for generating explanations for tax calculations |
US10387970B1 (en) | 2014-11-25 | 2019-08-20 | Intuit Inc. | Systems and methods for analyzing and generating explanations for changes in tax return results |
WO2016090010A1 (en) * | 2014-12-03 | 2016-06-09 | Hakman Labs LLC | Workflow definition, orchestration and enforcement via a collaborative interface according to a hierarchical checklist |
US10950329B2 (en) | 2015-03-13 | 2021-03-16 | Mmodal Ip Llc | Hybrid human and computer-assisted coding workflow |
US20170116194A1 (en) | 2015-10-23 | 2017-04-27 | International Business Machines Corporation | Ingestion planning for complex tables |
US10747947B2 (en) * | 2016-02-25 | 2020-08-18 | Nxgn Management, Llc | Electronic health record compatible distributed dictation transcription system |
JP2017167433A (ja) * | 2016-03-17 | 2017-09-21 | 株式会社東芝 | サマリ生成装置、サマリ生成方法及びサマリ生成プログラム |
US10754978B2 (en) | 2016-07-29 | 2020-08-25 | Intellisist Inc. | Computer-implemented system and method for storing and retrieving sensitive information |
US10567850B2 (en) | 2016-08-26 | 2020-02-18 | International Business Machines Corporation | Hierarchical video concept tagging and indexing system for learning content orchestration |
US10445432B1 (en) | 2016-08-31 | 2019-10-15 | Arria Data2Text Limited | Method and apparatus for lightweight multilingual natural language realizer |
US10467347B1 (en) | 2016-10-31 | 2019-11-05 | Arria Data2Text Limited | Method and apparatus for natural language document orchestrator |
US10860685B2 (en) | 2016-11-28 | 2020-12-08 | Google Llc | Generating structured text content using speech recognition models |
EP3571608A4 (en) * | 2017-01-17 | 2020-10-28 | MModal IP LLC | PROCEDURES AND SYSTEMS FOR MANIFESTATION AND TRANSMISSION OF FOLLOW-UP NOTIFICATIONS |
WO2018152352A1 (en) | 2017-02-18 | 2018-08-23 | Mmodal Ip Llc | Computer-automated scribe tools |
US11316865B2 (en) | 2017-08-10 | 2022-04-26 | Nuance Communications, Inc. | Ambient cooperative intelligence system and method |
US11114186B2 (en) | 2017-08-10 | 2021-09-07 | Nuance Communications, Inc. | Automated clinical documentation system and method |
US10579716B2 (en) * | 2017-11-06 | 2020-03-03 | Microsoft Technology Licensing, Llc | Electronic document content augmentation |
CA3083087A1 (en) | 2017-11-22 | 2019-05-31 | Mmodal Ip Llc | Automated code feedback system |
US11250383B2 (en) | 2018-03-05 | 2022-02-15 | Nuance Communications, Inc. | Automated clinical documentation system and method |
EP3762921A4 (en) | 2018-03-05 | 2022-05-04 | Nuance Communications, Inc. | AUTOMATED CLINICAL DOCUMENTATION SYSTEM AND PROCESS |
WO2019173349A1 (en) | 2018-03-05 | 2019-09-12 | Nuance Communications, Inc. | System and method for review of automated clinical documentation |
US10891436B2 (en) * | 2018-03-09 | 2021-01-12 | Accenture Global Solutions Limited | Device and method for voice-driven ideation session management |
US10664662B2 (en) * | 2018-04-18 | 2020-05-26 | Microsoft Technology Licensing, Llc | Multi-scale model for semantic matching |
US11836454B2 (en) | 2018-05-02 | 2023-12-05 | Language Scientific, Inc. | Systems and methods for producing reliable translation in near real-time |
KR20190136578A (ko) * | 2018-05-31 | 2019-12-10 | 삼성전자주식회사 | 음성 인식 방법 및 장치 |
US11455497B2 (en) * | 2018-07-23 | 2022-09-27 | Accenture Global Solutions Limited | Information transition management platform |
US11062704B1 (en) | 2018-12-21 | 2021-07-13 | Cerner Innovation, Inc. | Processing multi-party conversations |
US11094322B2 (en) * | 2019-02-07 | 2021-08-17 | International Business Machines Corporation | Optimizing speech to text conversion and text summarization using a medical provider workflow model |
US10522138B1 (en) * | 2019-02-11 | 2019-12-31 | Groupe Allo Media SAS | Real-time voice processing systems and methods |
US11216480B2 (en) | 2019-06-14 | 2022-01-04 | Nuance Communications, Inc. | System and method for querying data points from graph data structures |
US11043207B2 (en) | 2019-06-14 | 2021-06-22 | Nuance Communications, Inc. | System and method for array data simulation and customized acoustic modeling for ambient ASR |
US11227679B2 (en) | 2019-06-14 | 2022-01-18 | Nuance Communications, Inc. | Ambient clinical intelligence system and method |
US11531807B2 (en) | 2019-06-28 | 2022-12-20 | Nuance Communications, Inc. | System and method for customized text macros |
US11670408B2 (en) | 2019-09-30 | 2023-06-06 | Nuance Communications, Inc. | System and method for review of automated clinical documentation |
US10805665B1 (en) | 2019-12-13 | 2020-10-13 | Bank Of America Corporation | Synchronizing text-to-audio with interactive videos in the video framework |
US11350185B2 (en) | 2019-12-13 | 2022-05-31 | Bank Of America Corporation | Text-to-audio for interactive videos using a markup language |
JP6818916B2 (ja) * | 2020-01-08 | 2021-01-27 | 株式会社東芝 | サマリ生成装置、サマリ生成方法及びサマリ生成プログラム |
US11222103B1 (en) | 2020-10-29 | 2022-01-11 | Nuance Communications, Inc. | Ambient cooperative intelligence system and method |
US11429780B1 (en) | 2021-01-11 | 2022-08-30 | Suki AI, Inc. | Systems and methods to briefly deviate from and resume back to amending a section of a note |
US20220383874A1 (en) | 2021-05-28 | 2022-12-01 | 3M Innovative Properties Company | Documentation system based on dynamic semantic templates |
US20230395063A1 (en) * | 2022-06-03 | 2023-12-07 | Nuance Communications, Inc. | System and Method for Secure Transcription Generation |
Family Cites Families (131)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62221775A (ja) | 1986-03-20 | 1987-09-29 | Fujitsu Ltd | 自然言語処理方式 |
US5434962A (en) * | 1990-09-07 | 1995-07-18 | Fuji Xerox Co., Ltd. | Method and system for automatically generating logical structures of electronic documents |
JPH0769921B2 (ja) | 1990-11-09 | 1995-07-31 | 株式会社日立製作所 | 文書論理構造生成方法 |
AU2868092A (en) * | 1991-09-30 | 1993-05-03 | Riverrun Technology | Method and apparatus for managing information |
JPH06168267A (ja) | 1992-11-30 | 1994-06-14 | Itec:Kk | 構造化文書作成方法及び構造化文書作成支援装置 |
US5384892A (en) * | 1992-12-31 | 1995-01-24 | Apple Computer, Inc. | Dynamic language model for speech recognition |
AU6080094A (en) | 1992-12-31 | 1994-08-15 | Apple Computer, Inc. | Recursive finite state grammar |
US5594638A (en) * | 1993-12-29 | 1997-01-14 | First Opinion Corporation | Computerized medical diagnostic system including re-enter function and sensitivity factors |
NZ248751A (en) * | 1994-03-23 | 1997-11-24 | Ryan John Kevin | Text analysis and coding |
JP2618832B2 (ja) * | 1994-06-16 | 1997-06-11 | 日本アイ・ビー・エム株式会社 | 文書の論理構造の解析方法及びシステム |
US6061675A (en) * | 1995-05-31 | 2000-05-09 | Oracle Corporation | Methods and apparatus for classifying terminology utilizing a knowledge catalog |
US5701469A (en) * | 1995-06-07 | 1997-12-23 | Microsoft Corporation | Method and system for generating accurate search results using a content-index |
GB9525719D0 (en) * | 1995-12-15 | 1996-02-14 | Hewlett Packard Co | Speech system |
US6041292A (en) * | 1996-01-16 | 2000-03-21 | Jochim; Carol | Real time stenographic system utilizing vowel omission principle |
US6684188B1 (en) * | 1996-02-02 | 2004-01-27 | Geoffrey C Mitchell | Method for production of medical records and other technical documents |
US5835893A (en) * | 1996-02-15 | 1998-11-10 | Atr Interpreting Telecommunications Research Labs | Class-based word clustering for speech recognition using a three-level balanced hierarchical similarity |
US5870706A (en) * | 1996-04-10 | 1999-02-09 | Lucent Technologies, Inc. | Method and apparatus for an improved language recognition system |
US5823948A (en) * | 1996-07-08 | 1998-10-20 | Rlis, Inc. | Medical records, documentation, tracking and order entry system |
US5797123A (en) * | 1996-10-01 | 1998-08-18 | Lucent Technologies Inc. | Method of key-phase detection and verification for flexible speech understanding |
US6182029B1 (en) * | 1996-10-28 | 2001-01-30 | The Trustees Of Columbia University In The City Of New York | System and method for language extraction and encoding utilizing the parsing of text data in accordance with domain parameters |
US6055494A (en) * | 1996-10-28 | 2000-04-25 | The Trustees Of Columbia University In The City Of New York | System and method for medical language extraction and encoding |
US5839106A (en) * | 1996-12-17 | 1998-11-17 | Apple Computer, Inc. | Large-vocabulary speech recognition using an integrated syntactic and semantic statistical language model |
US6122613A (en) * | 1997-01-30 | 2000-09-19 | Dragon Systems, Inc. | Speech recognition using multiple recognizers (selectively) applied to the same input sample |
US5995936A (en) * | 1997-02-04 | 1999-11-30 | Brais; Louis | Report generation system and method for capturing prose, audio, and video by voice command and automatically linking sound and image to formatted text locations |
JP2002512712A (ja) * | 1997-03-13 | 2002-04-23 | ファースト オピニオン コーポレイション | 疾患管理システム |
US5970449A (en) * | 1997-04-03 | 1999-10-19 | Microsoft Corporation | Text normalization using a context-free grammar |
US6490561B1 (en) * | 1997-06-25 | 2002-12-03 | Dennis L. Wilson | Continuous speech voice transcription |
US5926784A (en) * | 1997-07-17 | 1999-07-20 | Microsoft Corporation | Method and system for natural language parsing using podding |
EP0903727A1 (en) | 1997-09-17 | 1999-03-24 | Istituto Trentino Di Cultura | A system and method for automatic speech recognition |
WO1999017223A1 (en) * | 1997-09-30 | 1999-04-08 | Ihc Health Services, Inc. | Aprobabilistic system for natural language processing |
US6112168A (en) * | 1997-10-20 | 2000-08-29 | Microsoft Corporation | Automatically recognizing the discourse structure of a body of text |
US6304870B1 (en) * | 1997-12-02 | 2001-10-16 | The Board Of Regents Of The University Of Washington, Office Of Technology Transfer | Method and apparatus of automatically generating a procedure for extracting information from textual information sources |
US6154722A (en) * | 1997-12-18 | 2000-11-28 | Apple Computer, Inc. | Method and apparatus for a speech recognition system language model that integrates a finite state grammar probability and an N-gram probability |
DE19809563A1 (de) * | 1998-03-05 | 1999-09-09 | Siemens Ag | Medizinischer Arbeitsplatz |
US6182039B1 (en) * | 1998-03-24 | 2001-01-30 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus using probabilistic language model based on confusable sets for speech recognition |
US7043426B2 (en) | 1998-04-01 | 2006-05-09 | Cyberpulse, L.L.C. | Structured speech recognition |
US6778970B2 (en) * | 1998-05-28 | 2004-08-17 | Lawrence Au | Topological methods to organize semantic network data flows for conversational applications |
US6915254B1 (en) * | 1998-07-30 | 2005-07-05 | A-Life Medical, Inc. | Automatically assigning medical codes using natural language processing |
US6304848B1 (en) * | 1998-08-13 | 2001-10-16 | Medical Manager Corp. | Medical record forming and storing apparatus and medical record and method related to same |
US6122614A (en) * | 1998-11-20 | 2000-09-19 | Custom Speech Usa, Inc. | System and method for automating transcription services |
US6249765B1 (en) * | 1998-12-22 | 2001-06-19 | Xerox Corporation | System and method for extracting data from audio messages |
US6278968B1 (en) * | 1999-01-29 | 2001-08-21 | Sony Corporation | Method and apparatus for adaptive speech recognition hypothesis construction and selection in a spoken language translation system |
US6243669B1 (en) * | 1999-01-29 | 2001-06-05 | Sony Corporation | Method and apparatus for providing syntactic analysis and data structure for translation knowledge in example-based language translation |
WO2000054180A1 (fr) | 1999-03-05 | 2000-09-14 | Cai Co., Ltd. | Systeme et procede de creation de document formate sur la base de la reconnaissance vocale conversationnelle |
JP2000259175A (ja) | 1999-03-08 | 2000-09-22 | Mitsubishi Electric Corp | 音声認識装置 |
US6526380B1 (en) | 1999-03-26 | 2003-02-25 | Koninklijke Philips Electronics N.V. | Speech recognition system having parallel large vocabulary recognition engines |
US6609087B1 (en) * | 1999-04-28 | 2003-08-19 | Genuity Inc. | Fact recognition system |
US6345249B1 (en) * | 1999-07-07 | 2002-02-05 | International Business Machines Corp. | Automatic analysis of a speech dictated document |
US6434547B1 (en) * | 1999-10-28 | 2002-08-13 | Qenm.Com | Data capture and verification system |
US7725307B2 (en) * | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
US7392185B2 (en) * | 1999-11-12 | 2008-06-24 | Phoenix Solutions, Inc. | Speech based learning/training system using semantic decoding |
JP2003515778A (ja) | 1999-12-02 | 2003-05-07 | トムソン ライセンシング ソシエテ アノニム | 別々の言語モデルによる音声認識方法及び装置 |
US6535849B1 (en) * | 2000-01-18 | 2003-03-18 | Scansoft, Inc. | Method and system for generating semi-literal transcripts for speech recognition systems |
US6738784B1 (en) * | 2000-04-06 | 2004-05-18 | Dictaphone Corporation | Document and information processing system |
GB0011798D0 (en) * | 2000-05-16 | 2000-07-05 | Canon Kk | Database annotation and retrieval |
US6816603B2 (en) * | 2000-05-18 | 2004-11-09 | Commwell, Inc. | Method and apparatus for remote medical monitoring incorporating video processing and system of motor tasks |
US6662168B1 (en) * | 2000-05-19 | 2003-12-09 | International Business Machines Corporation | Coding system for high data volume |
US6636848B1 (en) * | 2000-05-31 | 2003-10-21 | International Business Machines Corporation | Information search using knowledge agents |
US7031908B1 (en) * | 2000-06-01 | 2006-04-18 | Microsoft Corporation | Creating a language model for a language processing system |
US7490092B2 (en) * | 2000-07-06 | 2009-02-10 | Streamsage, Inc. | Method and system for indexing and searching timed media information based upon relevance intervals |
US6785651B1 (en) * | 2000-09-14 | 2004-08-31 | Microsoft Corporation | Method and apparatus for performing plan-based dialog |
JP4108948B2 (ja) * | 2000-09-25 | 2008-06-25 | 富士通株式会社 | 複数の文書を閲覧するための装置および方法 |
US6766328B2 (en) * | 2000-11-07 | 2004-07-20 | Ascriptus, Inc. | System for the creation of database and structured information from verbal input |
US8712791B2 (en) * | 2000-11-22 | 2014-04-29 | Catalis, Inc. | Systems and methods for documenting medical findings of a physical examination |
US20020087311A1 (en) * | 2000-12-29 | 2002-07-04 | Leung Lee Victor Wai | Computer-implemented dynamic language model generation method and system |
US20020087315A1 (en) | 2000-12-29 | 2002-07-04 | Lee Victor Wai Leung | Computer-implemented multi-scanning language method and system |
US6714939B2 (en) * | 2001-01-08 | 2004-03-30 | Softface, Inc. | Creation of structured data from plain text |
US20020099717A1 (en) * | 2001-01-24 | 2002-07-25 | Gordon Bennett | Method for report generation in an on-line transcription system |
WO2002082318A2 (en) * | 2001-02-22 | 2002-10-17 | Volantia Holdings Limited | System and method for extracting information |
US6754626B2 (en) * | 2001-03-01 | 2004-06-22 | International Business Machines Corporation | Creating a hierarchical tree of language models for a dialog system based on prompt and dialog context |
US7366979B2 (en) * | 2001-03-09 | 2008-04-29 | Copernicus Investments, Llc | Method and apparatus for annotating a document |
EP1490790A2 (en) * | 2001-03-13 | 2004-12-29 | Intelligate Ltd. | Dynamic natural language understanding |
US6834264B2 (en) * | 2001-03-29 | 2004-12-21 | Provox Technologies Corporation | Method and apparatus for voice dictation and document production |
US7188064B2 (en) * | 2001-04-13 | 2007-03-06 | University Of Texas System Board Of Regents | System and method for automatic semantic coding of free response data using Hidden Markov Model methodology |
US7519529B1 (en) * | 2001-06-29 | 2009-04-14 | Microsoft Corporation | System and methods for inferring informational goals and preferred level of detail of results in response to questions posed to an automated information-retrieval or question-answering service |
JP2003022091A (ja) | 2001-07-10 | 2003-01-24 | Nippon Hoso Kyokai <Nhk> | 音声認識方法および音声認識装置ならびに音声認識プログラム |
US20030065503A1 (en) * | 2001-09-28 | 2003-04-03 | Philips Electronics North America Corp. | Multi-lingual transcription system |
US20030069760A1 (en) * | 2001-10-04 | 2003-04-10 | Arthur Gelber | System and method for processing and pre-adjudicating patient benefit claims |
CA2461214A1 (en) * | 2001-10-18 | 2003-04-24 | Yeong Kuang Oon | System and method of improved recording of medical transactions |
US20030101054A1 (en) * | 2001-11-27 | 2003-05-29 | Ncc, Llc | Integrated system and method for electronic speech recognition and transcription |
US20030105638A1 (en) * | 2001-11-27 | 2003-06-05 | Taira Rick K. | Method and system for creating computer-understandable structured medical data from natural language reports |
US20030144885A1 (en) * | 2002-01-29 | 2003-07-31 | Exscribe, Inc. | Medical examination and transcription method, and associated apparatus |
WO2003067471A1 (fr) * | 2002-02-04 | 2003-08-14 | Celestar Lexico-Sciences, Inc. | Appareil et procede permettant de traiter des connaissances dans des documents |
US7257531B2 (en) * | 2002-04-19 | 2007-08-14 | Medcom Information Systems, Inc. | Speech to text system using controlled vocabulary indices |
US7197460B1 (en) * | 2002-04-23 | 2007-03-27 | At&T Corp. | System for handling frequently asked questions in a natural language dialog service |
US7869998B1 (en) * | 2002-04-23 | 2011-01-11 | At&T Intellectual Property Ii, L.P. | Voice-enabled dialog system |
US7028038B1 (en) * | 2002-07-03 | 2006-04-11 | Mayo Foundation For Medical Education And Research | Method for generating training data for medical text abbreviation and acronym normalization |
US20040230404A1 (en) * | 2002-08-19 | 2004-11-18 | Messmer Richard Paul | System and method for optimizing simulation of a discrete event process using business system data |
US20060041836A1 (en) * | 2002-09-12 | 2006-02-23 | Gordon T J | Information documenting system with improved speed, completeness, retriveability and granularity |
US7016844B2 (en) * | 2002-09-26 | 2006-03-21 | Core Mobility, Inc. | System and method for online transcription services |
AU2003290955A1 (en) * | 2002-11-22 | 2004-06-18 | Transclick, Inc. | Language translation system and method |
US7774694B2 (en) * | 2002-12-06 | 2010-08-10 | 3M Innovation Properties Company | Method and system for server-based sequential insertion processing of speech recognition results |
US7444285B2 (en) * | 2002-12-06 | 2008-10-28 | 3M Innovative Properties Company | Method and system for sequential insertion of speech recognition results to facilitate deferred transcription services |
JP4415546B2 (ja) * | 2003-01-06 | 2010-02-17 | 三菱電機株式会社 | 音声対話処理装置とそのプログラム |
US20040148170A1 (en) * | 2003-01-23 | 2004-07-29 | Alejandro Acero | Statistical classifiers for spoken language understanding and command/control scenarios |
US7958443B2 (en) * | 2003-02-28 | 2011-06-07 | Dictaphone Corporation | System and method for structuring speech recognized text into a pre-selected document format |
US8095544B2 (en) * | 2003-05-30 | 2012-01-10 | Dictaphone Corporation | Method, system, and apparatus for validation |
US20040243545A1 (en) * | 2003-05-29 | 2004-12-02 | Dictaphone Corporation | Systems and methods utilizing natural language medical records |
US8311835B2 (en) * | 2003-08-29 | 2012-11-13 | Microsoft Corporation | Assisted multi-modal dialogue |
US20050065774A1 (en) * | 2003-09-20 | 2005-03-24 | International Business Machines Corporation | Method of self enhancement of search results through analysis of system logs |
JP2005122128A (ja) * | 2003-09-25 | 2005-05-12 | Fuji Photo Film Co Ltd | 音声認識システム及びプログラム |
US7860717B2 (en) * | 2003-09-25 | 2010-12-28 | Dictaphone Corporation | System and method for customizing speech recognition input and output |
US20050120300A1 (en) * | 2003-09-25 | 2005-06-02 | Dictaphone Corporation | Method, system, and apparatus for assembly, transport and display of clinical data |
US20050144184A1 (en) * | 2003-10-01 | 2005-06-30 | Dictaphone Corporation | System and method for document section segmentation |
US7996223B2 (en) * | 2003-10-01 | 2011-08-09 | Dictaphone Corporation | System and method for post processing speech recognition output |
US7599950B2 (en) * | 2004-03-15 | 2009-10-06 | Yahoo! Inc. | Systems and methods for collecting user annotations |
US7379946B2 (en) * | 2004-03-31 | 2008-05-27 | Dictaphone Corporation | Categorization of information using natural language processing and predefined templates |
US20050240439A1 (en) * | 2004-04-15 | 2005-10-27 | Artificial Medical Intelligence, Inc, | System and method for automatic assignment of medical codes to unformatted data |
US20050273365A1 (en) * | 2004-06-04 | 2005-12-08 | Agfa Corporation | Generalized approach to structured medical reporting |
US20050288930A1 (en) * | 2004-06-09 | 2005-12-29 | Vaastek, Inc. | Computer voice recognition apparatus and method |
EP1774508A2 (en) * | 2004-07-09 | 2007-04-18 | Gesturerad, Inc. | Gesture-based reporting method and system |
US20060020886A1 (en) * | 2004-07-15 | 2006-01-26 | Agrawal Subodh K | System and method for the structured capture of information and the generation of semantically rich reports |
US20060020466A1 (en) * | 2004-07-26 | 2006-01-26 | Cousineau Leo E | Ontology based medical patient evaluation method for data capture and knowledge representation |
US7584103B2 (en) * | 2004-08-20 | 2009-09-01 | Multimodal Technologies, Inc. | Automated extraction of semantic content and generation of a structured document from speech |
US20130304453A9 (en) * | 2004-08-20 | 2013-11-14 | Juergen Fritsch | Automated Extraction of Semantic Content and Generation of a Structured Document from Speech |
US8412521B2 (en) * | 2004-08-20 | 2013-04-02 | Multimodal Technologies, Llc | Discriminative training of document transcription system |
US7650628B2 (en) * | 2004-10-21 | 2010-01-19 | Escription, Inc. | Transcription data security |
US20060129435A1 (en) * | 2004-12-15 | 2006-06-15 | Critical Connection Inc. | System and method for providing community health data services |
US7502741B2 (en) * | 2005-02-23 | 2009-03-10 | Multimodal Technologies, Inc. | Audio signal de-identification |
WO2007024769A2 (en) * | 2005-08-22 | 2007-03-01 | The Personal Bee, Inc. | Semantic discovery engine |
WO2007056601A2 (en) * | 2005-11-09 | 2007-05-18 | The Regents Of The University Of California | Methods and apparatus for context-sensitive telemedicine |
US7957968B2 (en) * | 2005-12-22 | 2011-06-07 | Honda Motor Co., Ltd. | Automatic grammar generation using distributedly collected knowledge |
US7610192B1 (en) * | 2006-03-22 | 2009-10-27 | Patrick William Jamieson | Process and system for high precision coding of free text documents against a standard lexicon |
US8731954B2 (en) * | 2006-03-27 | 2014-05-20 | A-Life Medical, Llc | Auditing the coding and abstracting of documents |
US8233751B2 (en) * | 2006-04-10 | 2012-07-31 | Patel Nilesh V | Method and system for simplified recordkeeping including transcription and voting based verification |
US8121838B2 (en) * | 2006-04-11 | 2012-02-21 | Nuance Communications, Inc. | Method and system for automatic transcription prioritization |
US20070299665A1 (en) * | 2006-06-22 | 2007-12-27 | Detlef Koll | Automatic Decision Support |
US8356245B2 (en) * | 2007-01-05 | 2013-01-15 | International Business Machines Corporation | System and method of automatically mapping a given annotator to an aggregate of given annotators |
US7917355B2 (en) * | 2007-08-23 | 2011-03-29 | Google Inc. | Word detection |
CA2680304C (en) * | 2008-09-25 | 2017-08-22 | Multimodal Technologies, Inc. | Decoding-time prediction of non-verbalized tokens |
US8290961B2 (en) * | 2009-01-13 | 2012-10-16 | Sandia Corporation | Technique for information retrieval using enhanced latent semantic analysis generating rank approximation matrix by factorizing the weighted morpheme-by-document matrix |
-
2004
- 2004-08-20 US US10/923,517 patent/US7584103B2/en not_active Expired - Fee Related
-
2005
- 2005-08-18 DK DK05789851.2T patent/DK1787288T3/da active
- 2005-08-18 PL PL05789851T patent/PL1787288T3/pl unknown
- 2005-08-18 JP JP2007528000A patent/JP4940139B2/ja not_active Expired - Fee Related
- 2005-08-18 CA CA2577721A patent/CA2577721C/en not_active Expired - Fee Related
- 2005-08-18 ES ES05789851T patent/ES2394726T3/es active Active
- 2005-08-18 EP EP05789851A patent/EP1787288B1/en not_active Not-in-force
- 2005-08-18 WO PCT/US2005/029354 patent/WO2006023622A2/en active Application Filing
-
2008
- 2008-10-17 US US12/253,241 patent/US20090048833A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
DK1787288T3 (da) | 2012-10-29 |
US20060041428A1 (en) | 2006-02-23 |
JP2008511024A (ja) | 2008-04-10 |
WO2006023622A2 (en) | 2006-03-02 |
CA2577721A1 (en) | 2006-03-02 |
PL1787288T3 (pl) | 2013-01-31 |
EP1787288A4 (en) | 2008-10-08 |
WO2006023622A3 (en) | 2007-04-12 |
CA2577721C (en) | 2015-03-24 |
EP1787288A2 (en) | 2007-05-23 |
US7584103B2 (en) | 2009-09-01 |
US20090048833A1 (en) | 2009-02-19 |
JP4940139B2 (ja) | 2012-05-30 |
EP1787288B1 (en) | 2012-08-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2394726T3 (es) | Extracción automática de contenido semántico y generación de un documento estructurado a partir del habla | |
US20100299135A1 (en) | Automated Extraction of Semantic Content and Generation of a Structured Document from Speech | |
US7805299B2 (en) | Method and apparatus for improving the transcription accuracy of speech recognition software | |
US7668718B2 (en) | Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile | |
US8335688B2 (en) | Document transcription system training | |
US7580835B2 (en) | Question-answering method, system, and program for answering question input by speech | |
US10733976B2 (en) | Method and apparatus for improving the transcription accuracy of speech recognition software | |
US8600748B2 (en) | System and methods for matching an utterance to a template hierarchy | |
Mukhamadiyev et al. | Automatic speech recognition method based on deep learning approaches for Uzbek language | |
Ajami | Use of speech-to-text technology for documentation by healthcare providers | |
US9652991B2 (en) | Systems and methods for content scoring of spoken responses | |
Van den Bosch et al. | Implicit schemata and categories in memory-based language processing | |
Parker | Sounding out sonority | |
Wadud et al. | Non-autoregressive end-to-end neural modeling for automatic pronunciation error detection | |
Ten Bosch et al. | DIANA, a process-oriented model of human auditory word recognition | |
Alrumiah et al. | Intelligent Quran Recitation Recognition and Verification: Research Trends and Open Issues | |
Stüker et al. | Towards Context-Dependent Phonetic Spelling Error Correction in Children's Freely Composed Text for Diagnostic and Pedagogical Purposes. | |
Kaland et al. | Which language r you speaking?/r/as a language marker in Tyrolean and Italian bilinguals | |
WO2007048053A1 (en) | Method and apparatus for improving the transcription accuracy of speech recognition software | |
US20090099847A1 (en) | Template constrained posterior probability | |
Brhanemeskel et al. | Amharic speech search using text word query based on automatic sentence-like segmentation | |
Kąkol et al. | Detecting lombard speech using deep learning approach | |
Kim et al. | Korean Prosody Phrase Boundary Prediction Model for Speech Synthesis Service in Smart Healthcare | |
Tanner | Structured phonetic variation across dialects and speakers of English and Japanese | |
Azim et al. | A Weighted Combination of Speech with Text-based Models for Arabic Diacritization. |