BRPI1000442A2 - método, equipamento e meio de armazenamento contendo programa de computador para executar método, para integrar uma fonte de dados estruturados e uma fonte de dados textuais não estruturados - Google Patents

método, equipamento e meio de armazenamento contendo programa de computador para executar método, para integrar uma fonte de dados estruturados e uma fonte de dados textuais não estruturados Download PDF

Info

Publication number
BRPI1000442A2
BRPI1000442A2 BRPI1000442-4A BRPI1000442A BRPI1000442A2 BR PI1000442 A2 BRPI1000442 A2 BR PI1000442A2 BR PI1000442 A BRPI1000442 A BR PI1000442A BR PI1000442 A2 BRPI1000442 A2 BR PI1000442A2
Authority
BR
Brazil
Prior art keywords
data source
query
source
structured data
dynamic
Prior art date
Application number
BRPI1000442-4A
Other languages
English (en)
Inventor
Sourashis Roy
Himanshu Gupta
Hiroki Oya
Mukesh K Mohania
Inagaki Iwao
Original Assignee
Ibm
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ibm filed Critical Ibm
Publication of BRPI1000442A2 publication Critical patent/BRPI1000442A2/pt

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

MéTQDO, EQUIPAMENTO E MEIO DE ARMAZENAMENTO CONTENDO PROGRAMA DE COMPUTADOR PARA EXECUTAR MéTODO, PARA INTEGRAR UMA FONTE DE DADOS ESTRUTURADOS E UMA FONTE DE DADOS TEXTUAIS NãO ESTRUTURADOS Trata-se de uma técnica para a integração dinâmica e a análise semântica de dados estruturados e dados textuais não estruturados, incluindo: a definição e seleção de atributos estáticos e atributos dinâmicos de dados estruturados; a embutidura de visualizações estáticas e dinâmicas dos atributos correspondentes selecionados em um documento anotado; a ligação dos dados textuais não estruturados aos dados estruturados usando os atributos dinâmicos e estáticos definidos; o preenchimento de uma estrutura de um documento anotado de múltiplos documentos anotados; a realização da análise semântica de uma consulta perpassando os dados textuais não estruturados e os dados estruturados; a consulta da estrutura de documento anotado para fornecer resultados satisfazendo a parte estática da consulta; o processamento de partes estáticas e dinâmicas da consulta, consultando a fonte de dados estruturados e aestrutura do documento anotado, como apropriado; e o fornecimento de um resultado do processamento da consulta combinada que satisfaça as partesestática e dinâmica da consulta.

Description

MÉTODO, EQUIPAMENTO E MEIO DE ARMAZENAMENTOCONTENDO PROGRAMA DE COMPUTADOR PARA EXECUTARMÉTODO, PARA INTEGRAR UMA FONTE DE DADOSESTRUTURADOS E UMA FONTE DE DADOS TEXTUAIS NÃOESTRUTURADOS
ANTECEDENTES DA INVENÇÃO
À medida que a quantidade de dados e de informações vêmcrescendo em tamanho e complexidade, as necessidades de gerenciamento doconhecimento também têm crescido. Geralmente, seções maiores de dados e deinformações residem mais em formato não estruturado do que em formatoestruturado, em empresas grandes e pequenas. Para lidar com as necessidadesde integração de dados e de informações através de fontes de dados e deinformações distribuídas, díspares e heterogêneas, diversas técnicas vêm sendodesenvolvidas e estudadas. Além disso, várias técnicas também descrevem aligação de dados não estruturados com dados estruturados.
Em processos convencionais de ligação de dados não estruturadoscom dados estruturados, diferentes partes dos dados são classificadas em partesestáticas e dinâmicas. A identificação das partes dos dados em partes estáticas edinâmicas é útil para a otimização de diversas mensurações de desempenho, talcomo a de tempo de consulta.
Dado um conjunto de fontes de dados não estruturados e de fontesde dados estruturados, integrá-las e ligá-las significativamente para viabilizar arealização de consultas através destes sistemas díspares, heterogêneos edistribuídos mostra-se muito útil para um grande número de atividades científicase comerciais. Uma delas inclui a transformação de dados em informação e eminteligência e conhecimento acionáveis. Ligar dados não estruturados à dadosestruturados manualmente é difícil, caro em termos de trabalho especializado ede tempo de processamento, e é propenso à subjetividade. Para ligar dadosestruturados a dados não estruturados automaticamente, a extração deinformação ou de entidade é freqüentemente feita usando-se palavras-chave(termos não freqüentes) que aparecem em dados não estruturados.
SUMÁRIO DA INVENÇÃO
As concretizações da invenção referem-se a um método,eqipamento e programa de computador que integra dinamicamente fontes dedados estruturados a fontes de dados textuais não estruturados.
De acordo com uma concretização da invenção, apresenta-se ummétodo para integrar uma fonte de dados estruturados e uma fonte de dadostextuais não estruturados. O método acessa a fonte de dados estruturados e afonte de dados textuais não estruturados, define um atributo estático e um atributodinâmico da fonte de dados estruturados, seleciona o atributo dinâmico da fontede dados estruturados, e embute uma visualização dinâmica do atributo dinâmicoselecionado em um documento anotado. O método ainda seleciona o atributoestático da fonte de dados estruturados, embute uma visualização estática doatributo estático selecionado no documento anotado,
De acordo com outra concretização da invenção, apresenta-se ummétodo para usar o documento anotado obtido na concretização anterior para:criar uma estrutura de documento anotado e um repositório de índice ligando afonte de dados textuais não estruturados com a fonte de dados estruturadosusando o atributo estático definido e o atributo dinâmico; e "povoar" ou preenchera estrutura de documento anotado que abrange o documento anotado.
Ainda de acordo com outra concretização da invenção, apresenta-seum método para: consultar a estrutura de documento anotado usando orepositório de índice realizando a análise semântica de uma consulta às fontes dedados textuais não estruturados e de dados estruturados; consultar a estrutura dedocumento anotado para fornecer resultados satisfazendo uma parte estática daconsulta; processar uma parte dinâmica da consulta usando ao menos umadentre a fonte de dados estruturados e a estrutura de documento anotado; efornecer um resultado do procèssamento da consulta combinada satisfazendo aspartes estática e dinâmica da consulta, (obs: uma consulta significa um comandorequisitando a busca de uma informação).Outras concretizações do invento são fornecidas nas reivindicaçõesreferentes.
BREVE DESCRIÇÃO DOS DESENHOS
As concretizações da presente invenção encontrar-se-ão descritasdetalhadamente abaixo, a título de exemplo apenas, fazendo referência aosdesenhos esquemáticos que acompanham o presente documento, nos quais:
A Figura 1 é um desenho esquemático para a criação de umaestrutura de documento anotado e de um repositório de índice, conforme umaconcretização da invenção;
A Figura 2 mostra um desenho esquemático de um documentoanotado, conforme uma concretização da invenção;
A Figura 3 mostra um desenho esquemático de um processador deconsultas usando o repositório de índice e a fonte de dados estruturados;
A Figura 4 é uma ilustração esquemática de um processador aeconsultas, conforme uma concretização da invenção;
A Figura 5 é uma ilustração esquemática de um ambiente de análiseusando o processador de consultas, tal como descrito na Fig. 3, e a estrutura dedocumento anotado e o repositório de índice, tal como descrito na Fig. 1, e
A Figura 6 mostra um desenho esquemático de um sistema deprocessamento de dados para a integração de fontes de dados estruturados e dedados textuais não estruturados, conforme uma concretização da invenção.
DESCRIÇÃO DETALHADA
Na integração de dados não estruturados com dados estruturados,há duas classes de dados: estáticos e dinâmicos. Os dados estáticos são camposde dados que não mudam com muita freqüência, por exemplo, o número daprevidência social de uma pessoa, ou da sua identidade, ou a data de seuaniversário. Os dados dinâmicos, por outro lado, podem sofrer mudanças maisfrequentemente. Um exemplo de um dado dinâmico poderia ser o endereço deuma pessoa, o número do seu telefone celular etc.
Para ligar estes atributos estáticos e dinâmicos de dadosestruturados com dados não estruturados, é uma prática comum implementaruma das três abordagens seguintes:
1. Abordagem materializada
2. Abordagem puramente virtual
3. Abordagem híbrida
Na abordagem materializada, anotações/metadados descobertos dedados estruturados podem ser inteiramente materializados no documento nãoestruturado. O termo "materializado" significa que cada linha ou registro écomputado, armazenado e mantido durante as atualizações das tabelas deorigem da fonte de dados estruturados. Na abordagem puramente virtual,"visualizações virtuais" de anotações/metadados descobertos do banco de dadosestruturados são criados. A visualização virtual é uma visualização onde osregistros contidos no resultado da visualização não são nem computados nemarmazenados. A abordagem material tem a vantagem de não necessitar consultaro banco de dados em tempo de execução. A abordagem material tem, no entanto,a desvantagem de que nem todas as modificações efetuadas no banco de dadossão refletidas de forma dinâmica, podendo, portanto, não fornecer resultadosprecisos. Por outro lado, a abordagem puramente virtual é capaz de refletir asmodificações efetuadas no banco de dados automaticamente quando odocumento está sendo acessado. A deficiência da abordagem puramente virtual,porém, é que ela tem aumentado o tempo de resposta. A abordagem híbrida éparcialmente materializada e parcialmente virtual. Os campos de dados estáticossão materializados e os atributos dinâmicos são virtualizados. A consulta éfederada e os resultados das partes estáticas e dinâmicas são fundidos. Portanto,a abordagem híbrida é capaz de utilizar as vantagens de ambas as abordagens,da materializada e da puramente virtual.
Vários aspectos das concretizações da invenção apresentam umsistema de análise semântica fim-a-fim (end to end) que possibilita a integraçãode dados estruturados e dados textuais não estruturados, onde o sistema deanálise semântica embute visualizações estáticas e visualizações dinâmicas nosdocumentos anotados e ós indexa de modo a aumentar a precisão e a utilidadede uma consulta a este sistema.
Deve-se notar que nos desenhos os elementos, componentes,blocos de função ou aparelhos representados estão referidos por números.
A Figura 1 é uma concretização exemplar de um desenhoesquemático para a criação de uma estrutura de documento anotado e de umrepositório de índice, conforme uma concretização da invenção, e mostra umbloco de criação de uma estrutura de documento anotado e de um repositório deíndice 100 concretizando um processo para a criação de uma estrutura dedocumento anotado e de um repositório de índice. O bloco de criação da estruturade documento anotado e do repositório de índice 100 inclui fonte de dadosestruturados 105, fonte de dados textuais não estruturados 110, elemento deacesso 115, elemento de ligação 120, elemento embutidor 125, documentoanotado 130, estrutura de documento anotado 135, e repositório de índice 140.
O elemento de acesso 115 acessa dados da fonte de dadosestruturados 105 e é acoplado através da linha 116 à fonte de dadosestruturados 105. A fonte de dados estruturados 105 fornece dados através dalinha 106 ao elemento de acesso 115. O elemento de acesso 115 acessa dadosda fonte de dados textuais não estruturados 110 e é acoplado através da linha117 à fonte de dados textuais não estruturados 110. A fonte de dados textuaisnão estruturados 110 fornece dados através da linha 111 ao elemento de acesso 115.
O elemento de acesso 115 também define as formas de seidentificar entidades estruturadas em dados não estruturados, e classifica osatributos estruturados que precisam ser materializados e virtualizados baseado naidentificação de atributos estáticos è de atributos dinâmicos. O elemento deacesso 115 é acoplado através da linha 118 ao elemento de ligação 120.O elemento de ligação 120 estabelece ligações dos dados textuaisnão estruturados para os dados estruturados. O elemento de ligação 120 éacoplado através da linha 121 ao elemento embutidor 125.
O elemento embutidor 125 utiliza as ligações fornecidas peloelemento de ligação 120. O elemento embutidor 125 acessa a fonte de dadosestruturados 105 através da linha 128 e o dado solicitado é fornecido da fonte dedados estruturados 105 ao elemento embutidor 125 através da linha 129. Oelemento embutidor 125 cria o documento anotado 130 e é acoplado através dalinha 126 ao documento anotado 130.
O documento anotado 130, o qual é armazenado em uma memória,inclui visualizações estáticas e visualizações dinâmicas dos atributos estruturadospreviamente classificados. O elemento embutidor 125 utiliza e ordena umapluralidade desses documentos anotados 130, um dos quais é mostrado na Fig. 1como documento anotado 130, e assim preenche a estrutura de documentoanotado 135 a qual é armazenada em uma memória. Esta ordenação de umapluralidade de documentos anotados 130 é fornecida através da linha 131 que vaide um documento anotado 130 até a estrutura de documento anotado 135.
O elemento embutidor 125, enquanto preenche e cria a estrutura dedocumento anotado 135 também cria um repositório de índice correspondente140. O elemento embutidor 125 é acoplado através da linha 127 ao repositório deíndice 140 que é armazenado em uma memória e tem uma lógica associada.
O repositório de índice 140 funciona para manter os diferentesíndices que ligam os dados não estruturados aos dados estruturados. A troca deinformações entre o repositório de índice 140 e a estrutura de documentosanotados 135 é facilitada pelas linhas 136 e 137.
O repositório de índice 140 facilita a comunicação e a troca de dadosatravés das linhas 141 e 142 para o processamentp da consulta, o qual é descritocom mais detalhes na Fig. 3.
A Figura 2 ilustra uma concretização exemplar de um documentoanotado 130. O elemento 132 mostra ao menos uma parte de uma representaçãotextual de uma comunicação. Isto poderia tomar a forma de um e-mail, de umaparte do e-mail, qualquer outra comunicação textual ou representação textual deuma comunicação multimídia etc. O elemento 133 mostra visualizações estáticasassociadas com alguns ou todos os atributos estáticos identificados nacomunicação textual. O elemento 134 mantém visualizações dinâmicasassociadas com alguns ou todos os atributos identificados como atributosdinâmicos na comunicação textual. Neste exemplo em particular, visualizaçõesdinâmicas do elemento 134 ilustram o uso de SQL (abreviação de StructuredQuery Language) que vem a ser a sigla usada designar Linguagem deConsulta/Pesquisa Estruturada.
A Figura 3 ilustra uma concretização exemplar de um bloco funcionalde um processador de consultas 200, o qual processa uma nova consulta e secomunica com a estrutura de documento anotado 135 através do repositório deíndice 140 também mostrado na Fig. 1. Uma nova consulta ao bloco funcional doprocessador de consultas 200 é descrita pela linha 282. A comunicação entre obloco funcional do processador de consultas 200 e o repositório de índice 140realiza-se através das linhas 141 e 142.
O bloco funcional do processador de consultas 200 inclui fonte dedados estruturados 105, processador de consultas 210, elemento de entrada daconsulta 280 e elemento de resultado da consulta 290. Uma consulta é recebidapelo elemento de entrada da consulta 280 através da linha 282. Esta consulta éenviada pelo elemento de entrada da consulta 280 através da linha 281 para oprocessador de consultas 210. Para obter os resultados da consulta, oprocessador de consultas 210 se comunica com a fonte de dados estruturados105 através da linha 251, e com o repositório de índice 140 através da linha 142.Os resultados da consulta são comunicados pelo repositório de índice 140 atravésda linha 141 para o processador de consultas 210. Uma parte do resultado daconsulta é comunicada pela fonte de dados estruturados 105 através da linha 252para o processador de consultas 210 Um resultado da consulta combinada éentão transmitido pelo processador de consultas 210 ao elemento de resultado daconsulta 290 via linha 241. O elemento de resultado da consulta, transmite, então,o resultado da consulta via linha 291 para qualquer consumidor desse resultado.A Fig.4 mais adiante descreve diversos elementos do processadorde consultas 210. O processador de consultas 210 inclui elemento leitor de índice220, elemento coletor de dados dinâmicos 230, elemento formatador da saída240, elemento leitor de dados dinâmicos 250, e elemento analisador semântico deconsultas 270.
Quando uma consulta é recebida de um elemento de entrada daconsulta 280 tal como mostrado na Fig.3, através da linha 281, o analisadorsemântico de consultas 270 analisa a consulta em suas diversas partes. Aconsulta analisada é enviada pelo elemento analisador de consultas 270 para oelemento coletor de dados dinâmicos 230 através da linha 271. O elementocoletor de dados dinâmicos 230 analisa a consulta semanticamente analisada porparte estática e/ou dinâmica. O elemento coletor de dados dinâmicos 230 secomunica cóm o elemento leitor de dados dinâmicos 250 via linha 232 enviandosolicitações para coletar os dados dinâmicos apropriados. O elemento coletor dedados dinâmicos 230 se comunica com o elemento leitor de índice 220 via linha233 enviando solicitações para coletar os dados dinâmicos e estáticosapropriados. Os resultados correspondentes de dados estáticos e/ou dinâmicossão comunicados pelo elemento leitor de índice 220 ao elemento coletor de dadosdinâmicos 230 via linha 221. Os resultados correspondentes de dados dinâmicossão comunicados pelo elemento leitor de dados dinâmicos 250 ao elementocoletor de dados dinâmicos 230 via linha 253. O elemento coletor de dadosdinâmicos 230 então funde as partes dinâmicas e estáticas dos resultados paragerar um resultado da consulta combinada, e então comunica o resultado daconsulta combinada ao elemento formatador da saída 240 via linha 231. Oformatador da saída 240 formata o resultado da consulta combinada e comunica oresultado através da linha 241 para o elemento de resultado da consulta 290como mostrado na Fig.3.
A Fig. 5 descreve o esquema de realização da análise. A Fig.5 incluium bloco de criação de uma estrutura de documento anotado e de um repositóriode índice 100 tal como descrito na Fig. 1, um bloco funcional de um processadorde consultas 200 tal como descrito na Fig.3 e um bloco .de ambiente de análise300. O bloco de ambiente de análise 300 ainda inclui ferramenta de análise 310 einterface de ferramenta de análise 320.
A Fig.5 é um exemplo de uma das utilizações de uma consultasemântica, sendo uma ferramenta de análise que poderia ser uma ferramenta deinteligência de negócios, podendo realizar análises estatísticas, mineração dedados ou análises multidimensionais incluindo ferramentas de OLAP (abreviaçãode On-line Analytical Processing).
A ferramenta de análise 310 é acoplada à interface da ferramenta deanálise 320 através da linha 321. Quando um sinal de entrada é recebido pelaferramenta de análise 310 proveniente da interface da ferramenta de análise 320através da linha 321, uma solicitação apropriada é enviada pela ferramenta deanálise 310 ao bloco funcional do processador de consultas 200 via linha 311.Alguns exemplos de interface de ferramenta de análise são: ponteiro, teclado,mouse ou tela de toque. O resultado da consulta combinada obtido do blocofuncional do processador de consultas 200 é enviado para a ferramenta deanálise 310 via linha 291.
As concretizações apresentadas podem ser combinadas, por umespecialista, com uma ou várias das outras concretizações mostradas e/oudescritas. As combinações são também possíveis para uma ou maiscaracterísticas das concretizações.
Uma pluralidade de fontes textuais não estruturadas 110 inclui mas -Jnão está limitada a e-mail, documentos de processamento de texto, planilhas,material de apresentação, arquivos de pdf, páginas da Web, relatórios demídia/notícias, dossiês, transcrições, servidores de arquivos, servidores da Web,conteúdo corporativo, repositórios de ferramenta de busca corporativa, intranet(rede local), sistemas de gerenciamento de conhecimento, e sistema degerenciamento de documentos, metadados de sinais de áudio renderizados emformato de texto, e metadados de multimídia renderizados em formato de texto.
A etapa de acesso às fontes de dados estruturados, realizado noelemento de acesso 115, inclui mas não está limitado a acesso baseado em SQL,e acesso baseado em sistema de arquivos e a etapa de acesso às fontes dedados textuais não estruturados inclui mas não se limita à extração, e análise dedados não estruturados.
A etapa de definição de atributos, realizada no elemento de acesso115, inclui mas não se limita a determinar o tópico de uma seção de dadostextuais não estruturados, extrair a seção de dados textuais não estruturados,combinar entidades, e combinar termos.
A etapa de ligação, realizada no elemento de ligação 120, inclui masnão se limita a mapear uma pluralidade de elementos de dados entre uma fontede dados estruturados e uma fonte de dados textuais não estruturados.
A etapa de preenchimento de uma estrutura de documento anotado,realizada no elemento embutidor 125 inclui mas não se limita à criação de umrepositório de índice que indexe uma pluralidade de documentos anotadoscontidos numa estrutura de documento anotado.
A etapa de realização de análise semântica, realizada no blocofuncional do processador de consultas 200, inclui o uso de um processador deconsultas 210 capaz de analisar a consulta em uma parte estática e em uma partedinâmica.
A etapa de consulta à estrutura de documento anotado 135,realizada no bloco funcional do processador de consultas 200, inclui o uso de umelemento analisador de consultas 270 para analisar semanticamente a consulta eo uso de um elemento coletor de dados dinâmicos 230 para direcionar a parteestática da consulta e/ou a parte dinâmica da consulta ao elemento leitor deíndice 220.
A etapa de processamento da consulta, realizada no bloco funcionaldo processador de consultas 200, inclui o uso de um processador de consultas210 para direcionar a parte dinâmica da consulta para o elemento leitor de dadosdinâmicos 250.
A etapa de fornecimento do resultado do processamento da consultacombinada, realizada no bloco funcional do processador de consultas 200, inclui ouso do elemento coletor de dados dinâmicos 230 e do elemento formatador dasaída 240 para fundir os resultados obtidos para a parte estática da consulta epara a parte dinâmica da consulta.
A ferramenta de análise 310 inclui uma pluralidade de ferramentasde dados estruturados tais como ferramentas de inteligência de negócios,ferramentas de análises estatísticas, ferramentas de visualização e demapeamento de dados, e ferramentas de mineração de dados.
A Figura 6 é um diagrama de blocos de um sistema ou equipamentode computador exemplar 600 que pode ser usado para implementar asconcretizações exemplares da presente invenção. O sistema de computador 600inclui um ou mais processadores, tal como o processador 604. O processador 604é conectado a uma infraestrutura de comunicação 602 (por exemplo, umbarramento de comunicação, barra de passagem, ou rede). Várias concretizaçõesde software são descritas nos termos deste sistema de computador exemplar.Após a leitura desta descrição, ficará evidente, a uma pessoa que apresente umconhecimento regular sobre o assunto, como se pode implementar a invençãousando outros sistemas de computadores e/ou arquiteturas de computadores.
O sistema de computador exemplar 600 pode incluir uma interfacede exibição 608 que encaminha gráficos, textos, e outros dados provenientes dainfraestrutura de comunicação 602 (ou de um buffer de quadro, não mostrado)para que sejam exibidos em uma unidade de exibição 610. O sistema decomputador 600 também inclui uma memória principal 606, que pode ser umamemória de acesso aleatório (RAM), e pode também incluir uma memóriasecundária 612. A memória secundária 612 pode incluir, por exemplo, umaunidade de disco rígido 614 e/ou um dispositivo de armazenamento removível616, representando uma unidade de disco flexível, uma unidade de fitamagnetizada, uma unidade de disco óptico, etc. O dispositivo de armazenamentoremovível 616 faz uma leitura da, e/ou escreve para, uma unidade dearmazenamento removível 618 de uma forma bem conhecida àqueles queapresentam uma competência ou um conhecimento regular sobre o assunto. Aunidade de armazenamento removível 618, representa, por exemplo, um discoflexível (ou disquete), uma fita magnetizada, um disco óptico, etc. que é lido eescrito por um dispositivo de armazenamento removível 616. Tal como serácompreendido, a unidade de armazenamento removível 618 inclui um meio dearmazenamento utilizável, contendo softwares e/ou dados armazenados.
Em concretizações exemplares, a memória secundária 612 podeincluir outros meios semelhantes para permitir que programas de computadoresou outras instruções sejam carregadas no sistema de computador. Tais meiospodem incluir, por exemplo, uma unidade de armazenamento removível 622 euma interface 620. Exemplos de tais meios podem incluir um cartucho deprograma e uma interface de cartucho (tal como a encontrada em dispositivos devideo game), um chip de memória removível (tais como EPROM ou PROM) e umencaixe associado, e outras unidades de armazenamento removíveis 622 einterfaces 620 que permitem que o software e os dados sejam transferidos daunidade de armazenamento removível 622 para o sistema de computador 600.
O sistema de computador 600 pode também incluir uma interface decomunicação 624. A interface de comunicação 624 permite que o software e osdados sejam transferidos entre o sistema de computador e os dispositivosexternos. Exemplos de interface de comunicação 624 podem incluir um modem,uma interface de rede (tal como um cartão Ethernet), uma porta de comunicação,um cartão ou abertura PCMCIA, etc. O software e os dados transmitidos viainterface de comunicação 624 estão na forma de sinais, os quais podem ser, porexemplo, eletrônicos, eletromagnéticos, ópticos ou outros sinais capazes deserem recebidos pela interface de comunicação 624. Estes sinais são fornecidospara a interface de comunicação 624 por um caminho de comunicação (isto é, umcanal) 626. O canal 626 transporta sinais e pode ser implementado usando-se fioou cabo, fibra óptica, uma linha de telefone, uma conexão de telefone celular,uma conexão RF, e/ou outros canais de comunicação.
Neste documento, os termos "meio de programa de computador","meio utilizável por computador", e "meio legível pór computador" são usados parareferir-se genericamente a meios tais como memória principal 606 e memóriasecundária 612, dispositivo de armazenamento removível 616, um disco rígidoinstalado em uma unidade de disco rígido 614, e sinais. Estes produtos deprograma de computador são meios para o fornecimento de software para osistema de computador. O meio legível por computador permite que o sistema decomputador leia dados, instruções, mensagens ou pacotes de mensagens, eoutras informações legíveis por computador a partir do meio legível porcomputador. O meio legível por computador, por exemplo, pode incluir memórianão-volátil, como disquete, ROM, memória rápida, memória de unidade de disco,CD-ROM, e outros armazenamentos permanentes. Pode ser usado, por exemplo,para transportar informações, tais como dados e instruções de computador, entresistema de computadores. Além disso, o meio legível por computador podeabranger informações legíveis por computador em um meio de estado transitório,tal como uma conexão entre redes (network link) e/ou uma interface de rede,incluindo uma conexão cabeada (wired network) ou uma conexão sem fio(wireless network), que permite que um computador consiga ler aquelainformação legível por computador.
Os programas de computador (também denominados lógicas decontrole de computador) são armazenados na memória principal 606 e/ou namemória secundária 612. Os programas de computador podem também serrecebidos via interface de comunicação 624. Tais programas, quando executados,permitem que o sistema de computador realize os recursos das concretizaçõesexemplares da presente invenção, tal como tratados aqui. Os programas decomputador, em particular, quando executados, permitem que o processador 604realize os recursos do sistema de computador 600. Portanto, tais programasdescrevem os controladores do sistema de computador.
Apesar de as concretizações exemplares da presente invençãohaverem sido descritas detalhadamente, deve-se ter em mente que modificações,substituições e alternâncias poderão ser feitas, contanto que não se distanciemdo espírito e do escopo das invenções, definidos pelas reivindicações anexas. Asvariações descritas para as concretizações exemplares da presente invençãopodem ser realizadas a partir de qualquer combinação desejável para cadaaplicação específica. Assim, algumas limitações, e/ou aprimoramentos descritosaqui, os quais poderiam representar determinadas vantagens para uma aplicaçãoem particular, não precisam abranger todas as aplicações. Além disso, nem todasas limitações precisam ser implementadas em métodos, sistemas, e/ou aparelhosque incluem um ou mais conceitos descritos com relação às concretizaçõesexemplares da presente invenção.
As técnicas descritas podem ser implementadas como um método,aparelho ou artigo de fabricação envolvendo um software, firmware, microcódigo,hardware, tais como lógica, memória e/ou qualquer outra combinaçãorelacionada. O termo "artigo de fabricação", como usado aqui, refere-se a códigoou lógica e memória implementada em um meio, onde tal meio pode incluir lógicade hardware e memória [por exemplo, um chip de circuito integrado, matriz deportas programáveis (PGA), circuito integrado de aplicação específica (ASIC),etc.] ou meio legível por computador, tal como meios de armazenamentomagnéticos (por exemplo, unidades de disco rígido, disquetes, fitas, etc.),armazenamentos ópticos (CD-ROMs, discos ópticos, etc.), dispositivos dememória volátil e não-volátil [por exemplo, memória de leitura eletricamenteapagável e programável (EEPROM), memória somente para leitura (ROM),memória programável somente para leitura (PROM), memória de acesso aleatório(RAM), memória de acesso aleatório dinâmica (DRAM), memória de acessoaleatório estática (SRAM), flash, firmware, lógica programável, etc.]. O códigocontido no meio legível por computador é acessado e executado por umprocessador. O meio no qual o código ou a lógica são codificados pode tambémincluir sinais de transmissão propagando-se através do espaço ou um meio detransmissão, tal como uma fibra óptica, fio de cobre, etc. O sinal de transmissãono qual o código ou lógica são codificados pode ainda incluir um sinal sem fio,transmissão de satélite, ondas de rádio, sinais infravermelhos, Bluetooth, ainternet etc. O sinal de transmissão no qual o código ou a lógica são codificadosé capaz de ser transmitido por uma estação de transmissão e recebido por umaestação de recepção, onde o código ou a lógica codificado no sinal detransmissão pode ser decodificado e armazenado em hardware ou em um meiolegível por computador nas estações ou dispositivos de recepção e transmissão.Além disso, o "artigo de fabricação" pode incluir uma combinação decomponentes de hardware e software nos quais o código é concretizado,processado, e executado. É claro que aqueles que são especializados nestecampo conseguirão reconhecer que muitas modificações podem ser feitas semque ocorra um distanciamento do escopo das concretizações, e que o artigo defabricação pode incluir qualquer meio de suporte de informação. Por exemplo, oartigo de fabricação inclui um meio de armazenamento contendo instruçõesarmazenadas que, quando executadas por uma máquina, resultam na realizaçãode operações.
Certas concretizações podem tomar a forma de um hardware inteiro,de um software inteiro ou podem conter elementos de ambos, hardware esoftware. Em uma concretização preferida, a invenção é implementada emsoftware, que inclui mas não se limita a firmware, software residente, microcódigo,etc.
Além disso, certas concretizações podem tomar a forma de umproduto de programa de computador, acessível de um meio utilizável porcomputador ou legível por computador, fornecendo um código de programa parauso por ou em conexão com um computador ou qualquer sistema de execuçãode instrução. Para os propósitos desta descrição, um meio utilizável porcomputador ou legível por computador pode ser qualquer aparelho que podeconter, armazenar, comunicar, propagar ou transportar o programa para uso porou em conexão com o sistema de execução de instrução, aparelho, ou dispositivo.
O meio pode ser eletrônico, magnético, óptico, eletromagnético, infravermelho, ousistema semicondutor (ou aparelho ou dispositivo) ou um meio de propagação.Exemplos de um meio legível por computador inclui um semicondutor ou memóriade estado sólido, fita magnética, um disquete de computador removível, umamemória de acesso aleatório (RAM), uma memória somente para leitura (ROM),um disco rígido magnético e um disco óptico. Exemplos atuais de discos ópticosincluem disco compacto" memória somente para leitura (CD-ROM), discocompacto regravável (CD-RW) e disco digital versátil (DVD).
Os termos "determinadas concretizações", "uma concretização","concretização", "concretizações", "a concretização", "as concretizações", "uma oumais concretizações", "algumas concretizações", e "uma concretização" significamuma ou mais (mas não todas) concretizações a menos que expressamenteespecificados de outra maneira. Os termos "incluindo", "abrangendo (ouconstando de)", "tendo" e suas respectivas variações significam "incluindo masnão limitadas a", a menos que expressamente especificados de outra maneira. Alista de itens enumerada não sugere que todos ou quaisquer dos itens sejammutuamente exclusivos, a menos que expressamente especificado de outramaneira. Os termos "um/a", "o/a", "o/a (os/as)" significam "um ou mais", a menosque expressamente especificado de outra maneira.
Elementos que estão em comunicação entre si não precisam estarem contínua comunicação entre si, a menos que expressamente especificado deoutra maneira. Além disso, elementos que estão em comunicação entre si podemse comunicar direta ou indiretamente através de um ou mais intermediários. Alémdisso, uma descrição de uma concretização com vários componentes emcomunicação uns com os outros não sugere que todos estes componentes sejamnecessários. Pelo contrário, uma variedade de componentes opcionais sãodescritos para ilustrar a ampla variedade de possíveis concretizações.
Além disso, embora as etapas do processo, as etapas do método ousimilares possam ser descritas em uma ordem seqüencial, tais processos,métodos e algoritmos podem ser configurados para funcionar em ordensalternadas. Em outras palavras, qualquer seqüência ou ordem de etapas quevenha a ser descrita não indica necessariamente uma exigência de que as etapassejam realizadas naquela ordem. As etapas dos processos descritos aqui podemser realizadas em qualquer ordem prática. Além disso, algumas etapas podem serrealizadas simultaneamente, em paralelo ou concomitantemente. Ademais,algumas ou todas as etapas podem ser realizadas no modo de tempo deexecução.
Quando um único elemento ou artigo for aqui descrito, estará claroque mais de um elemento/artigo (cooperem eles ou não) poderá ser usado emlugar de um elemento/artigo. Do mesmo modo, onde mais de um elemento ouartigo forem descritos (cooperem eles ou não) , ficará claro que um únicoelemento/artigo poderá ser usado em lugar de mais de um dispositivo ou artigo. Afuncionalidade e/ou característica(s) de um elemento podem ser alternativamenteconcretizadas por um ou outros mais elementos que não sejam explicitamentedescritos como tendo tais funcionalidade e/ou característica(s). Dessa maneira,outras concretizações não precisam incluir o elemento em si.
Meio de programa de computador ou programa de computador, nopresente contexto, significa qualquer expressão, em qualquer linguagem, códigoou notação, de um conjunto de instruções destinado a fazer com que um sistematenha uma capacidade de processamento de informações para desempenharuma função específica tanto diretamente como após qualquer ou ambas dasseguintes: a) conversão para outra linguagem, código ou notação; b) reproduçãoem uma forma material diferente.
As concretizações da invenção ainda fornecem um meio dearmazenamento abrangendo um programa de instruções legíveis por máquinapara executar um método para integrar uma fonte de dados estruturados e umafonte de dados textuais não estruturados, sendo as instruções legíveis pormáquina executáveis por um aparelho de processamento digital capa? de:
• acessar a fonte de dados estruturados e a fonte de dadostextuais não estruturados;
• definir um atributo estático e um atributo dinâmico da fonte dedados estruturados;
• selecionar o atributo dinâmico da fonte de dados estruturados;
• embutir uma visualização dinâmica do atributo dinâmicoselecionado em um documento anotado;
• selecionar o atributo estático da fonte de dados estruturados;
• embutir uma visualização estática do atributo estáticoselecionado no documento anotado;
• ligar a fonte de dados textuais não estruturados com a fontede dados estruturados usando o atributo estático definido e oatributo dinâmico definido;
preencher uma estrutura de documento anotado abrangendoo documento anotado;
realizar a análise semântica de uma consulta perpassando afonte de dados textuais não estruturados e a fonte de dadosestruturados;
consultar a estrutura de documento anotado para fornecerresultados da consulta que satisfazem a parte estática daconsulta;
processar uma parte dinâmica da consulta usando a consultada fonte de dados estruturados e a estrutura do documentoanotado; e
fornecer um resultado do processamento da consultacombinada satisfazendo as partes estática e dinâmica daconsulta.

Claims (25)

1. MÉTODO, EQUIPAMENTO E MEIO DE ARMAZENAMENTO CONTENDOPROGRAMA DE COMPUTADOR PARA EXECUTAR MÉTODO, PARAINTEGRAR UMA FONTE DE DADOS ESTRUTURADOS E UMA FONTE DEDADOS TEXTUAIS NÃO ESTRUTURADOS, onde um método para integrar umafonte de dados estruturados e uma fonte de dados textuais não estruturados écaracterizado pelas etapas de:• selecionar um atributo dinâmico de uma fonte de dados estruturados; e• embutir uma visualização dinâmica do atributo dinâmico selecionado emum documento anotado;
2. MÉTODO, EQUIPAMENTO E MEIO DE ARMAZENAMENTO CONTENDOPROGRAMA DE COMPUTADOR PARA EXECUTAR MÉTODO, PARAINTEGRAR UMA FONTE DE DADOS ESTRUTURADOS E UMA FONTE DEDADOS TEXTUAIS NÃO ESTRUTURADOS, onde o método de acordo com areivindicação 1 é caracterizado por incluir ainda as etapas de:• selecionar um atributo estático de uma fonte de dados estruturados; e• embutir uma visualização estática do atributo estático selecionado em umdocumento anotado.
3. MÉTODO, EQUIPAMENTO E MEIO DE ARMAZENAMENTO CONTENDOPROGRAMA DE COMPUTADOR PARA EXECUTAR MÉTODO, PARAINTEGRAR UMA FONTE DE DADOS ESTRUTURADOS E UMA FONTE DEDADOS TEXTUAIS NÃO ESTRUTURADOS, onde o método de acordo com areivindicação 2 é caracterizado por incluir ainda as etapas de:• acessar a fonte de dados estruturados e a fonte de dados textuais nãoestruturados; e• definir o atributo estático e o atributo dinâmico da fonte de dadosestruturados.
4. MÉTODO, EQUIPAMENTO E MEIO DE ARMAZENAMENTO CONTENDOPROGRAMA DE COMPUTADOR PARA EXECUTAR MÉTODO, PARAINTEGRAR UMA FONTE DE DADOS ESTRUTURADOS E UMA FONTE DEDADOS TEXTUAIS NÃO ESTRUTURADOS, onde o método de acordo com areivindicação 3 é caracterizado por incluir ainda as etapas de:• ligar a fonte de dados textuais não estruturados com a fonte de dadosestruturados usando o atributo estático e o atributo dinâmico definidos; e• preencher a estrutura de documento anotado que abrange o documentoanotado.
5. MÉTODO, EQUIPAMENTO E MEIO DE ARMAZENAMENTO CONTENDOPROGRAMA DE COMPUTADOR PARA EXECUTAR MÉTODO, PARAINTEGRAR UMA FONTE DE DADOS ESTRUTURADOS E UMA FONTE DEDADOS TEXTUAIS NÃO ESTRUTURADOS, onde o método de acordo com areivindicação 4 é caracterizado por incluir ainda as etapas de:realizar a análise semântica de uma consulta que perpassa a fonte dedados textuais não estruturados e a fonte de dados estruturados.• consultar a estrutura de documento anotado para fornecer os resultadosque satisfazem a parte estática da consulta.
6. MÉTODO, EQUIPAMENTO E MEIO DE ARMAZENAMENTO CONTENDOPROGRAMA DE COMPUTADOR PARA EXECUTAR MÉTODO, PARAINTEGRAR UMA FONTE DE DADOS ESTRUTURADOS E UMA FONTE DEDADOS TEXTUAIS NÃO ESTRUTURADOS, onde o método de acordo com areivindicação 5 é caracterizado por incluir ainda as etapas de:• processar uma parte dinâmica da consulta usando a consulta da fonte dedados estruturados e da estrutura de documento anotado.
7. MÉTODO, EQUIPAMENTO E MEIO DE ARMAZENAMENTO CONTENDOPROGRAMA DE COMPUTADOR PARA EXECUTAR MÉTODO, PARAINTEGRAR UMA FONTE DE DADOS ESTRUTURADOS E UMA FONTE DEDADOS TEXTUAIS NÃO ESTRUTURADOS, onde o método de acordo com areivindicação 5 é caracterizado por incluir ainda as etapas de:• fornecer um resultado do processamento da consulta combinadasatisfazendo as partes estática e dinâmica da consulta.
8. MÉTODO, EQUIPAMENTO E MEIO DE ARMAZENAMENTO CONTENDOPROGRAMA DE COMPUTADOR PARA EXECUTAR MÉTODO, PARAINTEGRAR UMA FONTE DE DADOS ESTRUTURADOS E UMA FONTE DEDADOS TEXTUAIS NÃO ESTRUTURADOS, onde o método de acordo com areivindicação 1 é caracterizado por.• a etapa de embutidura da visualização dinâmica incluir a criação dodocumento anotado, incluindo a visualização dinâmica e uma selecionadade um conjunto que abrange uma visualização estática de um atributo econteúdo estático da fonte de dados textuais não estruturados.
9. MÉTODO, EQUIPAMENTO E MEIO DE ARMAZENAMENTO CONTENDOPROGRAMA DE COMPUTADOR PARA EXECUTAR MÉTODO, PARAINTEGRAR UMA FONTE DE DADOS ESTRUTURADOS E UMA FONTE DEDADOS TEXTUAIS NÃO ESTRUTURADOS, onde o método de acordo com areivindicação 1 é caracterizado por:• a fonte de dados textuais não estruturados incluir um (item) selecionado deum conjunto que abrange e-mail, documentos de processamento de texto,planilhas, material de apresentação, arquivo pdf, página da Web, relatóriosde mídia/notícias, dossiês, transcrições, servidor de arquivo, servidor daWeb, conteúdo corporativo, repositórios de ferramenta de buscacorporativa, intranet (rede local), sistemas de gerenciamento deconhecimento, e sistema de gerenciamento de documentos, metadados desinais de áudio renderizados em formato de texto, metadados de sinais devídeo renderizados em formato de texto, metadados de imagemrenderizados em formato de texto, metadados de multimídia renderizadosem formato de texto.
10. MÉTODO, EQUIPAMENTO E MEIO DE ARMAZENAMENTO CONTENDOPROGRAMA DE COMPUTADOR PARA EXECUTAR MÉTODO, PARAINTEGRAR UMA FONTE DE DADOS ESTRUTURADOS E UMA FONTE DEDADOS TEXTUAIS NÃO ESTRUTURADOS, onde o método de acordo com areivindicação 3 é caracterizado por:• a etapa de acesso à fonte de dados estruturados incluir um (item)selecionado de um conjunto que abrange acesso baseado em SQL eacesso baseado em sistema de arquivos; e• a etapa de acesso à fonte de dados textuais não estruturados incluir um(item) selecionado de um conjunto que abrange a extração e a análisesemântica dos dados não estruturados.
11. MÉTODO, EQUIPAMENTO E MEIO DE ARMAZENAMENTO CONTENDOPROGRAMA DE COMPUTADOR PARA EXECUTAR MÉTODO, PARAINTEGRAR UMA FONTE DE DADOS ESTRUTURADOS E UMA FONTE DEDADOS TEXTUAIS NÃO ESTRUTURADOS, onde o método de acordo com areivindicação 3 é caracterizado por:• a etapa de definição incluir um (item) selecionado de um conjunto queabrange: a determinação do tópico de uma seção dos dados textuais nãoestruturados; a extração de uma seção dos dados textuais nãoestruturados; a combinação , (matching) de entidades; e a combinação determos.
12. MÉTODO, EQUIPAMENTO E MEIO DE ARMAZENAMENTO CONTENDOPROGRAMA DE COMPUTADOR PARA EXECUTAR MÉTODO, PARAINTEGRAR UMA FONTE DE DADOS ESTRUTURADOS E UMA FONTE DEDADOS TEXTUAIS NÃO ESTRUTURADOS, onde o método de acordo com areivindicação 4 é caracterizado por:• a etapa de ligação incluir o mapeamento de uma pluralidade de elementosde dados entre a fonte de dados estruturados e a fonte de dados textuaisnão estruturados.
13. MÉTODO, EQUIPAMENTO E MEIO DE ARMAZENAMENTO CONTENDOPROGRAMA DE COMPUTADOR PARA EXECUTAR MÉTODO, PARAINTEGRAR UMA FONTE DE DADOS ESTRUTURADOS E UMA FONTE DEDADOS TEXTUAIS NÃO ESTRUTURADOS, onde o método de acordo com areivindicação 4 é caracterizado por:• a etapa de preenchimento da estrutura de documento anotado incluir acriação de um repositório de índice que indexa uma pluralidade dedocumentos anotados contidos em uma estrutura de documento anotado.
14. MÉTODO, EQUIPAMENTO E MEIO DE ARMAZENAMENTO CONTENDOPROGRAMA DE COMPUTADOR PARA EXECUTAR MÉTODO, PARAINTEGRAR UMA FONTE DE DADOS ESTRUTURADOS E UMA FONTE DEDADOS TEXTUAIS NÃO ESTRUTURADOS, onde o método de acordo com areivindicação 5 é caracterizado por:• a etapa de realização da análise semântica incluir o uso de umprocessador de consultas capaz de analisar semanticamente a consultaem parte estática e parte dinâmica.
15. MÉTODO, EQUIPAMENTO E MEIO DE ARMAZENAMENTO CONTENDOPROGRAMA DE COMPUTADOR PARA EXECUTAR MÉTODO, PARAINTEGRAR UMA FONTE DE DADOS ESTRUTURADOS E UMA FONTE DEDADOS TEXTUAIS NÃO ESTRUTURADOS, onde o método de acordo com areivindicação 5 é caracterizado por:• a etapa de consulta da estrutura de documento anotado incluir o uso de umanalisador semântico de consulta para analisar a consulta e o uso de umcoletor de dados dinâmicos para direcionar a parte estática da consultapara um leitor de índice.
16. MÉTODO, EQUIPAMENTO E MEIO DE ARMAZENAMENTO CONTENDOPROGRAMA DE COMPUTADOR PARA EXECUTAR MÉTODO, PARAINTEGRAR UMA FONTE DE DADOS ESTRUTURADOS E UMA FONTE DEDADOS TEXTUAIS NÃO ESTRUTURADOS, onde o método de acordo com areivindicação 6 é caracterizado por:• a etapa de processamento da consulta incluir o uso de um processador deconsultas para direcionar a parte dinâmica da consulta para um leitor dedados dinâmicos.
17. MÉTODO, EQUIPAMENTO E MEIO DE ARMAZENAMENTO CONTENDOPROGRAMA DE COMPUTADOR PARA EXECUTAR MÉTODO, PARAINTEGRAR UMA FONTE DE DADOS ESTRUTURADOS E UMA FONTE DEDADOS TEXTUAIS NÃO ESTRUTURADOS, onde o método de acordo com areivindicação 7 é caracterizado por:• a etapa de fornecimento do resultado do processamento da consultacombinada incluir o uso de um coletor de dados dinâmicos e umformatador da saída para fundir os resultados obtidos para a parte estáticada consulta e para a parte dinâmica da consulta.
18. MÉTODO, EQUIPAMENTO E MEIO DE ARMAZENAMENTO CONTENDOPROGRAMA DE COMPUTADOR PARA EXECUTAR MÉTODO, PARAINTEGRAR UMA FONTE DE DADOS ESTRUTURADOS E UMA FONTE DEDADOS TEXTUAIS NÃO ESTRUTURADOS, onde um método para integrar umafonte de dados estruturados e uma fonte de dados não estruturados écaracterizado pelas etapas de:• acessar a fonte de dados estruturados e a fonte de dados textuais nãoestruturados;• definir um atributo estático e um atributo dinâmico da fonte de dadosestruturados;• selecionar o atributo dinâmico da fonte de dados estruturados;• embutir uma visualização dinâmica do atributo dinâmico selecionado emum documento anotado;• selecionar o atributo estático da fonte de dados estruturados;• embutir uma visualização estática do atributo estático selecionado nodocumento anotado;• ligar a fonte de dados textuais não estruturados com a fonte de dadosestruturados usando o atributo estático definido e o atributo dinâmicodefinido;• preencher uma estrutura de documento anotado abrangendo o documentoanotado;• realizar a análise semântica de uma consulta perpassando a fonte dedados textuais não estruturados e a fonte de dados estruturados;• consultar a estrutura de documento anotado para fornecer resultados daconsulta satisfazendo a parte estática da consulta;• processar uma parte dinâmica da consulta usando a consulta da fonte dedados estruturados e da estrutura do documento anotado; e• fornecer um resultado do processamento da consulta combinadasatisfazendo a parte dinâmica e a parte estática da consulta.
19. MÉTODO, EQUIPAMENTO E MEIO DE ARMAZENAMENTO CONTENDOPROGRAMA DE COMPUTADOR PARA EXECUTAR MÉTODO, PARAINTEGRAR UMA FONTE DE DADOS ESTRUTURADOS E UMA FONTE DEDADOS TEXTUAIS NÃO ESTRUTURADOS, onde o método da reivindicação 18é caracterizado por incluir ainda as etapas de:• analisar o resultado do processamento da consulta combinadasatisfazendo a parte dinâmica e a parte estática da consulta.
20. MÉTODO, EQUIPAMENTO E MEIO DE ARMAZENAMENTO CONTENDOPROGRAMA DE COMPUTADOR PARA EXECUTAR MÉTODO, PARAINTEGRAR UMA FONTE DE DADOS ESTRUTURADOS E UMA FONTE DEDADOS TEXTUAIS NÃO ESTRUTURADOS, onde o método da reivindicação 18é caracterizado por:• ao menos uma das etapas ser desempenhada no modo de tempo deexecução.
21. MÉTODO, EQUIPAMENTO E MEIO DE ARMAZENAMENTO CONTENDOPROGRAMA DE COMPUTADOR PARA EXECUTAR MÉTODO, PARAINTEGRAR UMA FONTE DE DADOS ESTRUTURADOS E UMA FONTE DEDADOS TEXTUAIS NÃO ESTRUTURADOS, onde o método de acordo com areivindicação 19 é caracterizado por:• a etapa de análise do resultado do processamento da consulta combinadaincluir o uso de uma ferramenta de dados estruturados.
22. MÉTODO, EQUIPAMENTO E MEIO DE ARMAZENAMENTO CONTENDOPROGRAMA DE COMPUTADOR PARA EXECUTAR MÉTODO, PARAINTEGRAR UMA FONTE DE DADOS ESTRUTURADOS E UMA FONTE DEDADOS TEXTUAIS NÃO ESTRUTURADOS, onde o método de acordo com areivindicação 21 é caracterizado por:a ferramenta de dados estruturados incluir um (item) selecionado de umconjunto que abrange ferramenta de inteligência de negócios, ferramentade análises estatísticas, ferramenta de visualização e mapeamento dedados, ferramenta de mineração de dados.
23. MÉTODO, EQUIPAMENTO E MEIO DE ARMAZENAMENTO CONTENDOPROGRAMA DE COMPUTADOR PARA EXECUTAR MÉTODO, PARAINTEGRAR UMA FONTE DE DADOS ESTRUTURADOS E UMA FONTE DEDADOS TEXTUAIS NÃO ESTRUTURADOS, onde um equipamento para integraruma fonte de dados estruturados e uma fonte de dados textuais não estruturadosé caracterizado por compreender:unidade de processamento para acessar a fonte de dados estruturados e afonte de dados textuais não estruturados;• unidade de processamento para definir um atributo estático e um atributodinâmico da fonte de dados estruturados;• unidade de processamento para selecionar o atributo dinâmico da fonte dedados estruturados;• unidade de processamento para embutir uma visualização dinâmica doatributo dinâmico selecionado em um documento anotado;• unidade de processamento para selecionar o atributo estático da fonte dedados estruturados;• unidade de processamento para embutir uma visualização estática doatributo estático selecionado no documento anotado;• unidade de processamento para ligar a fonte de dados textuais nãoestruturados com a fonte de dados estruturados usando o atributo estáticodefinido e o atributo dinâmico definido;• unidade de processamento para preencher uma estrutura de documentoanotado abrangendo o documento anotado;• unidade de processamento para realizar a análise semântica de umaconsulta perpassando a fonte de dados textuais não estruturados e a fontede dados estruturados;• unidade de processamento para consultar a estrutura de documentoanotado para fornecer resultados da consulta satisfazendo a parte estáticada consulta;• unidade de processamento para processar uma parte dinâmica da consultausando a consulta da fonte de dados estruturados e da estrutura dedocumento anotado; e• unidade de processamento para fornecer um resultado do processamentoda consulta combinada satisfazendo a parte dinâmica e a parte estática daconsulta.
24. MÉTODO, EQUIPAMENTO E MEIO DE ARMAZENAMENTO CONTENDOPROGRAMA DE COMPUTADOR PARA EXECUTAR MÉTODO, PARAintegrar uma fonte de dados estruturados e uma fonte dedados textuais não estruturados, onde o equipamento dareivindicação 23 é caracterizado por incluir ainda:• unidade de processamento para analisar o resultado combinado deprocessamento da consulta satisfazendo a parte dinâmica e a parteestática da consulta.
25. método, equipamento e meio de armazenamento contendoprograma de computador para executar método, paraintegrar uma fonte de dados estruturados e uma fonte dedados textuais não estruturados, onde um meio de armazenamentotangivelmente contendo um programa de instruções legíveis por máquina paraexecutar um método para integrar uma fonte de dados estruturados e uma fontede dados textuais não estruturados, sendo as instruções legíveis por máquinaexecutáveis por um aparelho de processamento digital, é caracterizado por.• acessar a fonte de dados estruturados e a fonte de dados textuais nãoestruturados;• definir um atributo estático e um atributo dinâmico da fonte de dadosestruturados;• selecionar o atributo dinâmico da fonte de dados estruturados;• embutir uma visualização dinâmica do atributo dinâmico selecionado emum documento anotado;• selecionar o atributo estático da fonte de dados estruturados;• embutir uma visualização estática do atributo estático selecionado nodocumento anotado;• ligar a fonte de dados textuais não estruturados com a fonte de dadosestruturados usando o atributo estático definido e o atributo dinâmicodefinido;preencher uma estrutura de documento anotado abrangendo o documentoanotado;realizar a análise semântica de uma consulta perpassando a fonte dedados textuais não estruturados e a fonte de dados estruturados;consultar a estrutura de documento anotado para fornecer resultados daconsulta satisfazendo a parte estática da consulta;processar uma parte dinâmica da consulta usando a consulta da fonte dedados estruturados e da estrutura do documento anotado; efornecer um resultado do processamento da consulta combinadasatisfazendo a parte dinâmica e a parte estática da consulta.
BRPI1000442-4A 2009-02-25 2010-02-24 método, equipamento e meio de armazenamento contendo programa de computador para executar método, para integrar uma fonte de dados estruturados e uma fonte de dados textuais não estruturados BRPI1000442A2 (pt)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US12/392,152 US20100228794A1 (en) 2009-02-25 2009-02-25 Semantic document analysis

Publications (1)

Publication Number Publication Date
BRPI1000442A2 true BRPI1000442A2 (pt) 2011-03-22

Family

ID=42679178

Family Applications (1)

Application Number Title Priority Date Filing Date
BRPI1000442-4A BRPI1000442A2 (pt) 2009-02-25 2010-02-24 método, equipamento e meio de armazenamento contendo programa de computador para executar método, para integrar uma fonte de dados estruturados e uma fonte de dados textuais não estruturados

Country Status (2)

Country Link
US (1) US20100228794A1 (pt)
BR (1) BRPI1000442A2 (pt)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8688702B1 (en) * 2010-09-14 2014-04-01 Imdb.Com, Inc. Techniques for using dynamic data sources with static search mechanisms
US8442982B2 (en) * 2010-11-05 2013-05-14 Apple Inc. Extended database search
US9626348B2 (en) * 2011-03-11 2017-04-18 Microsoft Technology Licensing, Llc Aggregating document annotations
US20130166597A1 (en) * 2011-12-22 2013-06-27 Sap Ag Context Object Linking Structured and Unstructured Data
US20140164379A1 (en) * 2012-05-15 2014-06-12 Perceptive Software Research And Development B.V. Automatic Attribute Level Detection Methods
EP2992482A1 (en) * 2013-04-29 2016-03-09 Siemens Aktiengesellschaft Data unification device and method for unifying unstructured data objects and structured data objects into unified semantic objects
US9710534B2 (en) * 2013-05-07 2017-07-18 International Business Machines Corporation Methods and systems for discovery of linkage points between data sources
US9465784B1 (en) * 2013-06-20 2016-10-11 Bulletin Intelligence LLC Method and system for enabling real-time, collaborative generation of documents having overlapping subject matter
CN107451164B (zh) * 2016-06-01 2020-05-19 华为技术有限公司 一种语义查询的方法及装置
US20180307735A1 (en) * 2017-04-19 2018-10-25 Ca, Inc. Integrating relational and non-relational databases
US20210141920A1 (en) * 2019-11-08 2021-05-13 Okera, Inc. Dynamic view for implementing data access control policies

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030018668A1 (en) * 2001-07-20 2003-01-23 International Business Machines Corporation Enhanced transcoding of structured documents through use of annotation techniques
US9460414B2 (en) * 2001-08-28 2016-10-04 Eugene M. Lee Computer assisted and/or implemented process and system for annotating and/or linking documents and data, optionally in an intellectual property management system
US20060047696A1 (en) * 2004-08-24 2006-03-02 Microsoft Corporation Partially materialized views
US7599952B2 (en) * 2004-09-09 2009-10-06 Microsoft Corporation System and method for parsing unstructured data into structured data
US7849048B2 (en) * 2005-07-05 2010-12-07 Clarabridge, Inc. System and method of making unstructured data available to structured data analysis tools

Also Published As

Publication number Publication date
US20100228794A1 (en) 2010-09-09

Similar Documents

Publication Publication Date Title
BRPI1000442A2 (pt) método, equipamento e meio de armazenamento contendo programa de computador para executar método, para integrar uma fonte de dados estruturados e uma fonte de dados textuais não estruturados
US11036808B2 (en) System and method for indexing electronic discovery data
US20190236102A1 (en) System and method for differential document analysis and storage
US7487174B2 (en) Method for storing text annotations with associated type information in a structured data store
US9146994B2 (en) Pivot facets for text mining and search
US8825581B2 (en) Simplifying a graph of correlation rules while preserving semantic coverage
US7502809B2 (en) Method and system for efficient and scalable detection and management of global annotations
US8375061B2 (en) Graphical models for representing text documents for computer analysis
US9244956B2 (en) Recommending data enrichments
US20140122535A1 (en) Extracting Semantic Relationships from Table Structures in Electronic Documents
US9594788B2 (en) Displaying logical statement relationships between diverse documents in a research domain
US9626368B2 (en) Document merge based on knowledge of document schema
US7539701B2 (en) Generic infrastructure for migrating data between applications
US11151323B2 (en) Embedding natural language context in structured documents using document anatomy
WO2021051624A1 (zh) 数据获取方法、装置、电子设备及存储介质
US20080114797A1 (en) Importing non-native content into a document
US8131728B2 (en) Processing large sized relationship-specifying markup language documents
CN114297204A (zh) 一种异构数据源的数据存储、检索方法及装置
CN111930708B (zh) 基于Ceph对象存储的对象标签的扩展系统及方法
US20090043785A1 (en) Managing structured content stored as a binary large object (blob)
US11481391B1 (en) Query language operations using a scalable key-item data store
US20110145240A1 (en) Organizing Annotations
US20140074869A1 (en) Autoclassifying compound documents for enhanced metadata search
CN116257545B (zh) 一种数据查询方法、装置、电子设备及存储介质
Singhal et al. Comparative analysis of big data technologies

Legal Events

Date Code Title Description
B03A Publication of a patent application or of a certificate of addition of invention [chapter 3.1 patent gazette]
B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B11B Dismissal acc. art. 36, par 1 of ipl - no reply within 90 days to fullfil the necessary requirements