BR112012011091B1 - método e aparelho para extração e avaliação de qualidade de palavra - Google Patents

método e aparelho para extração e avaliação de qualidade de palavra Download PDF

Info

Publication number
BR112012011091B1
BR112012011091B1 BR112012011091-8A BR112012011091A BR112012011091B1 BR 112012011091 B1 BR112012011091 B1 BR 112012011091B1 BR 112012011091 A BR112012011091 A BR 112012011091A BR 112012011091 B1 BR112012011091 B1 BR 112012011091B1
Authority
BR
Brazil
Prior art keywords
word
level
importance
module
weight
Prior art date
Application number
BR112012011091-8A
Other languages
English (en)
Other versions
BR112012011091A2 (pt
Inventor
Huaijun Liu
Zhongbo Jiang
Gaolin Fang
Original Assignee
Tencent Technology (Shenzhen) Company Limited
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology (Shenzhen) Company Limited filed Critical Tencent Technology (Shenzhen) Company Limited
Publication of BR112012011091A2 publication Critical patent/BR112012011091A2/pt
Publication of BR112012011091B1 publication Critical patent/BR112012011091B1/pt

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Machine Translation (AREA)

Abstract

MÉTODO E APARELHO PARA EXTRAÇÃO E AVALIAÇÃO DE QUALIDADE DE PALAVRA. A presente invenção refere-se a um métod e um aparelho para extração a avaliação de qualidade de palavra. O método inclui: calcular uma Frequência de Documento (DF) de uma palavra em uma massa de dados categorizada; avaliar a palavra em múltiplos aspectos singulares de acordo com a DF da palavra; e avaliar a palavra em múltiplos aspectos de acordo com as múltiplas avaliações de aspecto singulares para obter um peso de importância da palavra. De acordo com a solução da presente invenção, a importância da palavra em uma massa de dados categorizada pode ser avaliada, e palavras com alta qualidade podem ser obtidas através de uma avaliação integrada.

Description

CAMPO DA INVENÇÃO
[0001] A presente invenção refere-se a técnicas de processamento de informação na Internet, e mais particularmente, a um método e um aparelho para extração e avaliação de qualidade de palavra.
ANTECEDENTES DA INVENÇÃO
[0002] Com o rápido desenvolvimento da Internet, o problema de “sobrecarga de informação” se torna cada vez mais sério. Quando as pessoas desfrutam a conveniência trazida pela Internet, as mesmas também são inundadas com a massa de informação na Internet. É urgente solucionar o problema de como extrair informação efetiva da massa de dados da Internet de forma mais precisa e eficaz.
[0003] Atualmente, existem vários tipos de plataformas de Internet. As mesmas fornecem grandes quantidades de dados para os usuários. Entre as mesmas, existem mecanismos de busca familiares, por exemplo, Google, Baidu, Soso; também existem plataformas interativas de Q&A, por exemplo, Zhidao, Wenwen, Answers; e também plataformas de blog populares, por exemplo, Qzone, Sina blog, etc.
[0004] Todas estas plataformas de Internet requerem uma técnica de processamento de texto de linguagem natural, isto é, extrair informação efetiva da massa de dados para processamento. O processamento de texto de linguagem natural é analisar a sintaxe de um documento, por exemplo, análises de categorização, agrupamento, sumarização, similaridade. Visto que cada documento é composto de palavras, cada técnica detalhada no processamento de texto de linguagem natural ne-cessita compreensão de palavras. Portanto, como avaliar a importância de uma palavra com precisão em uma sentença se torna um importante problema a ser pesquisado.
[0005] Por exemplo, como para uma sentença “China tem uma longa história, a grande muralha e exército de terracota são orgulho da China”, em que as palavras “China”, “grande muralha”, “exército de terracota” e “história” são obviamente mais importantes do que as outras.
[0006] A extração e avaliação de qualidade de palavra é determinar a um nível de qualidade adequado para uma palavra candidata. Por exemplo, pode haver três níveis, ou seja, importante, comum e usado constantemente. Então, palavras importantes são selecionadas. Depois disso, palavras comuns e palavras constantemente usadas são selecionadas. Portanto, quando um documento é analisado, palavras importantes podem ser consideradas primeiro, palavras comuns podem ser tomadas como suplementação, de modo que palavras constantemente usadas possam ser filtradas completamente.
[0007] Atualmente, um método de extração e avaliação de qualidade de palavra com base em dados em massa é usualmente implementado calculando uma Frequência de Documento (DF) e uma Frequência Inversa de Documento (IDF) de uma palavra. Ou seja, uma palavra que não aparece constantemente, isto é, uma palavra de baixa frequência é considerada como uma palavra sem importância. Mas, a importância de uma palavra não pode ser determinada precisamente com base na DF ou na IDF calculada. Por exemplo, um resultado calculado com base em um corpo é como segue: a IDF de uma palavra “iluminar” é 2,89, enquanto que a IDF de uma palavra “ha ha” é 4,76. Adicionalmente, como para dados não estruturados, por exemplo, dados de plataforma de Q&A e dados de blog, uma palavra de baixa frequência pode ser uma palavra errada, por exemplo, um trecho errado “asfsdfs- fda” entrado por um usuário, ou “Gao Qi também” (segmentado de uma sentença “Gao QI também tem esperança para a nova dinastia”).
[0008] Adicionalmente, durante a categorização de documento, métodos de valor de característica tais como Ganho de Informação (IG) e X2 são usados usualmente para avaliar a contribuição de uma palavra para uma categoria. Entretanto, apenas características cujos valores classificados nos primeiros n serão selecionadas como características efetivas, em que n é um inteiro e pode ser selecionado de acordo com uma exigência da extração e avaliação de qualidade de palavra. Portanto, um peso de categoria é calculado com base em TF-IDF, em que TF representa Frequência do Termo. Os métodos com base em IG e /2 são usados apenas para selecionar uma palavra característica. Os mesmos trabalham bem com respeito a dados estruturados e em pequena quantidade. Mas, com respeito à massa de dados não estruturados, uma avaliação de aspecto singular não pode refletir completamente a importância de uma palavra e não pode calcular a importância da palavra efetivamente. Por exemplo, com base no mesmo corpo, o /2 da palavra “de” é 96292,63382, enquanto que o /2de “Jingzhou” é apenas 4445,62836. Entretanto, não é óbvio que a palavra “Jingzhou” cujo /2 é menor é mais importante.
SUMÁRIO DA INVENÇÃO
[0009] Modalidades da presente invenção fornecem um método e um aparelho para extração e avaliação de qualidade de palavra, para determinar a importância de uma palavra com precisão.
[00010] De acordo com uma modalidade da presente invenção, é fornecido um método para extração e avaliação de qualidade de palavra. O método inclui: calcular uma Frequência de Documento (DF) de uma palavra em massa de dados categorizada; avaliar a palavra em múltiplos aspectos singulares de acordo com a DF da palavra; e avaliar a palavra em um aspecto múltiplo de acordo com as avaliações nos múltiplos aspectos singulares para obter um peso de importância da palavra.
[00011] De acordo com outra modalidade da presente invenção, é fornecido um aparelho para extração e avaliação de qualidade de palavra. O aparelho inclui: uma unidade para calcular DF, adaptada para calcular a DF de uma palavra em massa de dados categorizada; uma unidade para avaliar aspecto singular, adaptada para avaliar a palavra em múltiplos aspectos singulares de acordo com a DF da palavra; uma unidade para avaliar aspecto múltiplo, adaptada para avaliar a palavra em um aspecto múltiplo de acordo com a avaliação múltipla de aspectos singulares para obter um peso de importância da palavra.
[00012] Modalidades da presente invenção fornecem uma solução aprimorada com base na teoria da probabilidade e teoria da entropia. A entrada é massa de dados categorizada. A saída é palavras de alta qualidade. De acordo com a solução da presente invenção, a importância da palavra em uma massa de dados categorizada pode ser avaliada, e palavras com alta qualidade podem ser obtidas através de uma avaliação integrada.
[00013] A solução da presente invenção pode ser aplicada a vários cenários de extração e avaliação de qualidade de palavra. Por exemplo, quando aplicada em dados de mecanismo de busca, a solução da presente invenção pode extrair palavras de alta qualidade com precisão. As palavras de alta qualidade podem ser usadas para classificar a relatividade da pesquisa e analisar o trecho de pesquisa do usuário. Como outro exemplo, quando sendo aplicada em uma plataforma interativa, plataforma de blog ou notícias, a solução da presente invenção pode extrair uma palavra rótulo no texto com precisão. Portanto, podem ser obtidas palavras rótulo precisas e de alta qualidade para analisar ações do usuário, o que facilita a personificação e recomendação do usuário. Adicionalmente, quando sendo aplicada em categorização, agrupamento e sumarização de documento, a solução pode realizar extração precisa de palavras características para extrair informação de texto. A solução também pode ser aplicada em filtragem de lixo e classificação de anúncio, para extrair com eficiência palavras chave relacionadas à categoria.
BREVE DESCRIÇÃO DAS FIGURAS
[00014] A figura 1 é um fluxograma que ilustra um método para implementar extração e avaliação de qualidade de palavra de acordo com uma modalidade da presente invenção.
[00015] A figura 2 é um diagrama esquemático que ilustra uma comparação de uma curva de normalização linear e uma curva de normalização logarítmica de acordo com uma modalidade da presente invenção.
[00016] A figura 3 é um diagrama esquemático que ilustra uma estrutura de um aparelho para implementar extração e avaliação de qualidade de palavra de acordo com uma modalidade da presente invenção.
[00017] A figura 4A é um diagrama esquemático que ilustra uma primeira estrutura de uma unidade para determinar qualidade de acordo com uma modalidade da presente invenção.
[00018] A figura 4B é um diagrama esquemático que ilustra uma segunda estrutura de uma unidade para determinar qualidade de acordo com uma modalidade da presente invenção.
DESCRIÇÃO DETALHADA DA INVENÇÃO
[00019] Em modalidades da presente invenção, é calculada uma DF de uma palavra em massa de dados categorizada, são realizadas múltiplas avaliações de aspectos singulares da palavra de acordo com a DF, e uma avaliação de aspecto múltiplo da palavra é realizada de acordo com as múltipla avaliações de aspectos singulares para obter um peso de importância da palavra.
[00020] A figura 1 é um fluxograma que ilustra um método para implementar extração e avaliação de qualidade de palavra de acordo com uma modalidade da presente invenção. Como mostrado na figura 1, o método inclui as seguintes etapas.
[00021] Na etapa 101, a DF de uma palavra em massa de dados categorizada é calculada.
[00022] Na modalidade da presente invenção, o que é entrado é a massa de dados categorizada. A massa de dados categorizada se refere a dados de documentos em massa que foram classificados em diferentes categorias. Por exemplo, a massa de dados categorizada pode ser dados de notícias classificados por técnica, esportes, entretenimento. Como outro exemplo, a massa de dados categorizada também pode ser dados de uma plataforma de Q&A interativa classificados por computador, educação e jogos.
[00023] O cálculo da DF da palavra é a primeira etapa para uma extração e avaliação de qualidade. O objetivo do cálculo é obter uma estatística requerida no cálculo subsequente. O cálculo da DF da palavra na massa de dados categorizada inclui principalmente: calcular um vetor de DF da palavra em cada categoria da massa de dados categorizada e calcular a DF da palavra em todas as categorias.
[00024] Antes de a DF da palavra ser calculada, são obtidas palavras segmentando a massa de dados categorizada e pode ser realizado algum processamento para as palavras anteriormente, por exemplo, uniformizar caracteres tradicionais e caracteres simplificados, uniformizar caracteres maiúsculos e caracteres minúsculos, unificar caracteres de largura total e de meia largura, de modo que a palavras usadas para extração e avaliação de qualidade possa ter um formato uniforme.
[00025] O vetor de DF da palavra em cada categoria da massa de dados categorizada é calculado para obter um vetor FW = {df1,df2,...,dfn} , em que dft representa o vetor de DF da palavra w na categoria /, / = 1,2,....n, n representa a quantidade de categorias. Por exemplo, existem duas categorias: computador e esportes, os vetores de DF da palavra “computador” nas duas categorias são respectivamente 1191437 e 48281. Portanto, um vetor de DF da palavra “computador” é expresso como {1191437, 48281}.
[00026] A DF da palavra w em todas as categorias é calculada. Especificamente, a DF da palavra wé uma soma dos vetores de DF da palavra w em todas as categorias, ou seja, DF df , i = 1, 2 ..., n , em que n é a quantidade de categorias.
[00027] Na etapa 102, a palavra é avaliada em múltiplos aspectos singulares com base na DF da palavra.
[00028] Após a DF da palavra ser calculada, múltiplas avaliações de aspectos singulares da palavra serão realizadas com base na teoria da probabilidade e teoria da entropia. Em particular, os seguintes aspectos podem ser considerados.
(1)Frequência Inversa de Documento (IDF)
[00029] IDF é avaliar a qualidade da palavra em todos os dados categorizados com base na DF da palavra. Especificamente, a mesma é expressa como
Figure img0001
em que DF repre senta a DF da palavra em todos os dados categorizados, ou seja, DF df .
(2)Frequência Inversa de Documento Média (AVAIDF)
[00030] AVAIDF é uma média da IDF da palavra em cada categoria,expressa como
Figure img0002
em que
Figure img0003
e a quantidade de categorias.
[00031] O problema de métodos IDF e AVAIDF é como segue: com respeito a palavras de alta frequência, os valores de avaliação, ou seja, tanto o IDF(w) como o AVADIF(w) são baixos; entretanto, com respeito a palavras de baixa frequência, ambos os valores de avaliação são altos. Portanto, se a extração de qualidade de palavra é realizada apenas com base na IDF e na AVAIDF, o resultado avaliado será menos preciso.
(3)quiquadrado X2
[00032] Quiquadrado X2 é usado para avaliar relatividade entre uma palavra e a categoria, expresso como
Figure img0004
, em que A representa um valor de DF real da palavra w em uma certa categoria, T representa um valor teórico de DF da palavra wna categoria, 0 representa um limite do valor teórico de DF, e À representa um fator de correção. Na etapa de vasculhamento 101, dffé A. Portanto, a formula de quiquadrado é expressa como
Figure img0005
, em que , i = 1, 2,n, n representa a quantidade de categorias.
[00033] O método de quiquadrado tem o seguinte problema: o quiquadrado de uma palavra de alta frequência e aquele de uma palavra de baixa frequência não são comparáveis visto que o numerador e de-nommador de cada item
Figure img0006
, ou seja,
Figure img0007
têm magnitudes diferentes. Portanto, o quiquadrado da palavra de alta frequência usualmente é alto e o quiquadrado da palavra de baixa frequência usualmente é baixo. Portanto, a importância da palavra não pode ser determinada comparando quiquadrados. Adicionalmente, como para uma palavra com uma frequência extremamente baixa, o resultado do método de quiquadrado é menos preciso.
(4)Ganho de Informação (IG)
[00034] IG é usado para avaliar a quantidade de informação fornecida por uma palavra para a categoria.
[00035] Uma fórmula universal de IG inclui duas partes: uma entropia da categoria inteira, e um valor esperado de uma entropia da distribuição de cada atributo de característica F, expresso como
Figure img0008
Quando a importância da palavra é avaliada, atributos da característica F usualmente incluem {aparecer na categoria, não aparecer na categoria}. Portanto, IG expressa uma diferença entre a entropia de toda a categoria e a entropia de toda a categoria após considerar a palavra.
[00036] Quando o método de IG é adotado, a expressão detalhada é como segue
Figure img0009
em que,
Figure img0010
representa categoria, i = 1, 2,n, n representa a quantidade de categorias.
[00037] A formula inclui três partes: a primeira parte
Figure img0011
é um valor negativo da entropia de toda a categoria, que corresponde a Entropia(C)', a segunda parte
Figure img0012
é um produto da entropia incluindo a palavra we a probabilidade de que a palavra wapareça; a terceira parte
Figure img0013
é o produto da entropia sem a palavra ive a probabilidade de que a palavra wnão apareça. A segunda parte e a terceira parte constituem
Figure img0014
juntas.
[00038] O método de IG tem o seguinte problema: como para uma palavra com uma frequência muito alta e uma palavra com uma frequência muito baixa, a distribuição dos dois atributos {aparecer na categoria, não aparecer na categoria} é seriamente desbalanceado. Os valores de IG são ambos próximos a 0. É impossível diferenciar as duas palavras simplesmente de acordo com os valores de IG. Portanto, com respeito ao problema acima, uma modalidade da presente invenção fornece uma solução aprimorada com base em um princípio de que os atributos devem ser distribuídos de forma balanceada e a importância da palavra deve ser razoavelmente refletida.
[00039] Primeiro, todas as palavras candidatas são classificados dentro de diferentes intervalos de acordo com a DF, em que maneiras tais como gradiente logarítmico, gradiente linear, gradiente exponencial, gradiente logarítmico e linear, ou gradiente exponencial e linear pode ser adotado para classificar as palavras candidatas.
[00040] Daqui em diante, o gradiente logarítmico é tomado como um exemplo para descrever a classificação das palavras.
[00041] Um vetor de DF de palavra w1na categoria c1;é df1. Calcular [log(df1)] para obter um intervalo
Figure img0015
mapear a palavra w;para o intervalo, ou seja,
Figure img0016
em que etapa representa gradiente, geralmente é um inteiro e pode ser configurado de acordo com uma exigência de precisão de IG; v representa arredondamento para baixo de x, isto é, uma maior inteiro não maior do que x. Portanto, os vetores de DF das palavras em cada intervalo ficam dentro de certo intervalo.
[00042] Após as palavras serem classificados com base na DF, o IG(W} da palavra é calculado com base em cada intervalo, isto é, quando ZG(W) é calculada, o cálculo não é com base em todos os dados categorizados, mas com base nos dados categorizados que correspondem ao intervalo.
[00043] Finalmente, a importância da palavra é obtida com base no intervalo e o IG da palavra mapeado dentro do intervalo. O IG da palavra pode ser unificado em um intervalo uniforme, por exemplo, [baixo, alto] de acordo com a importância da palavra. Portanto, a importância da palavra pode ser obtida de acordo com a posição do IG no intervalo.
[00044] Do exposto acima pode ser visto que, através de classificação das palavras em intervalos com base na DF, a distribuição dos atributos {aparecer na categoria, não aparecer na categoria} da palavra se torna relativamente balanceado, portanto a importância da palavra pode ser determinada com mais precisão.
(5) Informação Mútua (Ml)
[00045] Ml também é usada para avaliar a relatividade entre a pala- vra e a categoria, expressa como
Figure img0017
, em que A representa o valor real de DF da palavra win uma certa categoria, ou seja, dft; T representa um valor teórico de DF da palavra w na categoria.
(6) Entropia Cruzada Esperada (ECE)
[00046] ECE é usada para refletir uma distância entre probabilidades de distribuição da categoria antes e após a palavra w aparecer, expressa como
Figure img0018
, em que
Figure img0019
, c representa categoria, / = 1, 2, n, n representa a quantidade de categorias.
(6) Entropia (ENT)
[00047] ENT é usada para refletir uma uniformidade de distribuição da palavra wem todas as categorias. Quanto menor é ENT, menos uniformemente a palavra wse distribui em todas as categorias. Tal palavra é mais provável de pertencer a um campo específico e portanto é mais importante. A expressão específica de
Figure img0020
, em que
Figure img0021
, n representa a quantidade de categorias.
[00048] Todos os métodos Ml, ECE e ENT têm o seguinte problema: os mesmos consideram apenas a diferença que a palavra distribui em diferentes categorias mas não considera a probabilidade de que a palavra apareça. De fato, entretanto, se a DF da palavra é baixa, a palavra tem uma baixa probabilidade de aparecer e uma confiabilidade da distribuição da palavra nas categorias deve ser relativamente baixa.
(8)Preferência seletiva (SELPRE)
[00049] A SELPRE é usada para avaliar um grau de concentração do significado de uma palavra, ou seja, a capacidade de a palavra ser usada com outras palavras.
[00050] Usualmente, uma palavra importante com significado concentrado pode ser usada apenas com algumas palavras especiais, enquanto que uma palavra generalizada pode ser usada com múltiplas palavras. Portanto, uma distribuição de uso de palavras de duas partes de fala é calculada primeiro. Na modalidade da presente invenção, é possível configurar que substantivos podem ser usados com verbos e adjetivos, adjetivos podem ser usados com substantivos, e verbos podem ser usados com substantivos. A SELPRE da palavra é expressa como
Figure img0022
, em que P(m/w) representa uma pro-babilidade condicional de que a palavra wpossa ser usada com a palavra m, e P(m) representa a probabilidade de que palavra we palavra m sejam usadas juntas.
[00051] O problema do método de SELPRE é como segue: o mesmo não considera a diferença entra as categorias. Portanto, é impossível determinar se uma palavra é uma palavra especial em certo campo de acordo com a SELPRE.
[00052] Nos métodos de avaliação acima, exceto pelo método de ENT, quanto maior é o valor de avaliação, mais importante é a palavra. Do exposto acima pode ser visto que, não importa qual método único é adotado, é impossível obter um resultado preciso. Portanto, é necessário combinar a avaliação de valores de aspecto singular efetivamente. Portanto, um peso de importância que pode refletir com precisão a qua-lidade da palavra pode ser obtido através de uma avaliação integrada.
[00053] Na etapa 103, uma avaliação de aspecto múltiplo da palavra é realizada com base na avaliação múltipla de aspectos singulares para obter um peso de importância da palavra.
[00054] Especificamente, as palavras candidatas são classificados em níveis diferentes de acordo com suas DFs. Uma maneira de avaliação de aspecto múltiplo de cada palavra candidata é determinada de acordo com o nível da palavra candidata para obter um peso de importância da palavra candidata. O processamento é descrito em detalhes adicionais daqui em diante.
[00055] Primeiro, classificar as palavras candidatas em quatro níveis de acordo com as DFs das palavras candidatas em todos os dados categorizados. Os quatro níveis são respectivamente: palavra de frequência superalta, palavra de frequência meio alta, palavra de frequência meio baixa e palavra de frequência superbaixa. A palavra de frequência superalta se refere a uma palavra com uma DF muito alta que aparece na maior parte dos documentos. A palavra de frequência superbaixa se refere a uma palavra com uma DF muito baixa que aparece apenas em muito poucos documentos. A palavra de frequência meio alta se refere a uma palavra cuja DF fica entre a palavra de frequência superalta e a palavra de frequência superbaixa. Embora a DF da palavra de frequência meio alta seja mais baixa do que aquela da palavra de frequência superalta, a mesma é relativamente alta e a palavra de frequência meio alta aparece em muitos documentos. A palavra de frequência meio baixa se refere a uma palavra cuja DF fica entre a palavra de frequência superalta e a palavra de frequência superbaixa. Embora a DF da palavra de frequência meio baixa seja relativamente baixa, a mesma ainda é mais alta do que aquela da palavra de frequência superbaixa. A palavra de frequência meio baixa aparece em alguns documentos. Os quatro níveis podem ser identificados como: SuperAlto, MeioAlto, MeioBaixo e SuperBaixo. Na modalidade da presente invenção, a mesma não é restrita aos quatro níveis acima. Quando os níveis são determinados de acordo com a DF, maneiras diferentes tais como gradiente logarítmico, gradiente linear, gradiente exponencial, gradiente logarítmico e linear, e gradiente exponencial e linear podem ser adotadas. Níveis diferentes podem ter escopos diferentes.
[00056] Portanto, a palavra é classificada em um nível correspondente de acordo com a DF em todos os dados categorizados.
[00057] A seguir, uma maneira de avaliação de aspecto múltiplo é obtida com base na avaliação de aspectos singulares obtidos na etapa 102.
[00058] Os métodos IDF e AVAIDF são ambos baseados na DF. Portanto, ambos os métodos IDF e AVAIDF não têm muita contribuição para a diferenciação da importância de palavras no mesmo nível classificadas de acordo com a DF. Mas o valor absoluto da diferença do IDF e do AVAIDF, isto é, |IDF(w)-AVAIDF(w)| pode refletir uma diferença de distribuição da palavra em categorias diferentes, para refletir se a palavra é importante. Portanto, a formula Diff(w)-|AVAIDF(w)- IDF(w)| é obtida. Esta maneira de avaliação integrada supera efetivamente o defeito de que uma maneira de avaliação singular não pode determinar com precisão a importância da palavra no nível SuperAlto e no nível Super- Baixo. Por exemplo, com respeito a uma palavra “iluminar”, r>z#(iighten) =| 5.54-2.891= 2.65, enquanto que com respeito à palavra “ha ha”, r>z#(haha)=| 5.16-4.761= 0.4. Isto é devido à palavra “iluminar” aparecer muito em algumas categorias mas raramente aparecer em outras. Entretanto, a palavra “ha ha” aparece muito em cada categoria. Uma palavra importante pode ser determinada com precisão por Diff(w). Quanto maior é o valor de Diff(w),mais importante é a palavra.
[00059] Os métodos de Ml, ECE e ENT são todos baseados na probabilidade de distribuição da palavra em cada categoria. Portanto, estes três métodos podem ser usados juntos para avaliar a importância da palavra. Especificamente, Ml(w), ECE(w) e ENT(w) são normalizados linearmente. E visto que a ENT é um relacionamento inverso com a importância da palavra, é requerida uma normalização descendente. En- tãoNormLineari(MI(w)), NormLinearfECEfw)) e NormLinearDesc (ENT(w)), são obtidas. Uma combinação linear das três acima é tomada como uma base de avaliação, expressa
Figure img0023
[00060] Os métodos de IG e quiquadrado são relacionadas tanto a DF como a probabilidade de distribuição da palavra em cada categoria. Portanto, estes dois métodos podem ser combinados para determinar a importância de uma palavra. Especificamente, /2(M’)e IG(w) são normalizados logarítmicos para obter
Figure img0024
, e então os mesmos são combinados para obter
Figure img0025
[00061] 0 método de SELPRE é baseado no relacionamento de pa lavras. O mesmo é usado como uma maneira de avaliação independente. O mesmo é expresso como = Nc,rtriLl>'ieats(SELPRE(}v)) após a normalização linear.
[00062] Algumas das maneiras acima são baseadas na DF, enquanto que algumas das mesmas são baseadas na probabilidade de distribuição da palavra. Portanto, os valores de avaliação têm intervalos diferentes. Consequentemente, os valores de avaliação devem ser normalizados dentro de um intervalo. Em uma modalidade da presente in-venção, são adotados o método de normalização linear e o método de normalização logarítmico. Uma comparação dos dois métodos é mostrada na figura 2. Como mostrado na figura 2, em seus intervalos originais, os dois métodos têm diferentes tendências de mudança. Se a variável x é a função de um logaritmo da probabilidade ou uma função de um logaritmo de DF, o método de normalização linear geralmente é adotado; caso contrário, o método de normalização logarítmico é adotado. Adicionalmente, o método de normalização pode ser selecionado de acordo com a experiência em análise de dados.
[00063] A normalização linear é serve para mapear um intervalo para outro intervalo através de um método linear. A formula é expressa por NormLinear(x) = kx+b ,em qUek > 0, x é Ml(w), ECE(w) e SELPRE(w). O método de normalização logarítmico serve para mapear um intervalo par outro através de um método logarítmico. A formula é expressa como NormLog(x) = log(br+£), em quek > 0, x é z2(ii’) e IG(w). Os dois métodos acima são ascendentes, ou seja, k > 0. Se k < 0, o mesmo é um método descendente. A formula adotado é NormL>neaiDesc(x) = kx+b ou NormLogDescfx) =log(fcr+à), emque xθ ENT(W). Os valores de k e b podem ser calculados de acordo com as extremidades do intervalo após o mapeamento.
[00064] Após serem obtidas as maneiras de avaliação integradas, a maneira de avaliação do aspecto múltiplo da palavra pode ser determinada de acordo com o nível da palavra. Neste documento, maneiras de avaliação aspecto múltiplo correspondentes são configuradas respectivamente para os quatro níveis.
[00065] Como para palavras no nível SuperAlto e no nível MeioAlto, todas as avaliações integradas acima são confiáveis. Portanto, a avaliação múltipla pode adotar uma maneira de ligação, expressa como
Figure img0026
[00066] Como para palavras no nível MeioBaixo, a DF não é alta e existem poucas palavras que podem ser usadas juntas, a maneira de avaliação integrada é menos confiável. Portanto, a maneira de avaliação de aspecto múltiplo de palavras no nível MeioBaixo é expressa como
Figure img0027
[00067] Como para palavras no nível SuperBaixo, o método de IG e o método de quiquadrado são ambos menos confiáveis e existem muito poucas palavras que podem ser usadas juntas. Portanto, o método SEL- PRE não é considerado. Consequentemente, a maneira de avaliação de aspecto múltiplo de palavras no nível SuperBaixo é expresso como
Figure img0028
[00068] Após a maneira de avaliação de aspecto múltiplo da palavra ser determinada de acordo com o nível da palavra, os defeitos da avaliação de aspectos singulares mencionada acima na etapa 102 são superados. Daqui em diante, a avaliação de aspecto múltiplo de palavras em nível de alta frequência (incluindo o nível SuperAlto e o nível Meio- Alto) e o nível SuperBaixa são descritos, em que diferenciações nestes níveis são mais difíceis.
[00069] No nível de alta frequência, são consideradas duas palavras “iluminar” e “ha ha”. Embora os IDFs das duas palavras sejam próximos, a palavra “iluminar” aparece mais na categoria “QQ jogos”, enquanto que “ha ha” aparece uniformemente em todos categorias. Portanto, as duas palavras podem ser diferenciadas através de Diff(w). Adicionalmente, %- de “iluminar” é 1201744, e /2 de “ha ha” é 3412. Após /2(w) ser normalizado, a diferença entre os mesmos é ainda maior. É basicamente a mesma situação com respeito ao IG. Portanto, a importância das duas palavras também pode ser claramente diferenciada através de ProbDFRel(w). Ao mesmo tempo, ProbBaseada(w) é usada principalmente para determinara uniformidade da distribuição da palavra em todos categorias. A mesma também pode diferencias as duas palavras. Como para SelPre(w), “ha ha” é uma palavra mais generalizada e pode ser usada junto com muitas palavras. Entretanto, “iluminar” é usualmente usada em ícones e contexto relacionado a um produto QQ. Portanto, a avaliação de aspecto múltiplo de “iluminar” é 9,65, enquanto que a avaliação de aspecto múltiplo de “ha ha” é 1,27. Portanto, pode ser determinado que “iluminar” é a palavra de alta qualidade, e “ha ha” é a palavra de baixa qualidade.
[00070] No nível SuperBaixo, uma palavra “Chujiangzhen” (uma cidade na província de Hunan) uma palavra entrada randomicamente “fdgfdg” são consideradas. Ambas têm uma DF muito baixa, e suas IDFs são ambas aproximadamente 14. Mas a palavra “Chujiangzhen” aparece na maior parte das vezes na categoria “região”, enquanto que “fdgfdg” pode aparecer em todas as categorias. Portanto, Diff(Chujian- gzhen) - 2,12 e Diff(fdgfdg) = 1,05. Embora o /2 de “Chujiangzhen” e o /2 de “fdgfdg” sejam ambos pequenos, os mesmos podem ser diferenciados levando Diff(w) em consideração. Ao mesmo tempo, a ProbBa- seada(w) de “Chujiangzhen” é obviamente maior do que a ProbBase- ada(w) de “fdgfdg”. Finalmente, é obtido que a avaliação de aspecto múltiplo de “Chujiangzhen” é 9,71, e a avaliação de aspecto múltiplo de “fdgfdg” é 1,13. Portanto, pode ser determinado que “Chujiangzhen” é a alta qualidade palavra e “fdgfdg” é a palavra de baixa qualidade.
[00071] Em vista do exposto acima, o método de combinar a avaliação de aspecto múltiplo e a classificação de nível com base na DF faz com que seja possível determinar a importância de uma palavra de acordo com a maneira de avaliação integrada do nível correspondente. As acima SuperAlta(w), MeioAlta(w), MeioBaixa(w) e SuperBaixa(w) obtidas em cada nível são o peso de importância da palavra no nível correspondente, e podem ser expressas como WgtPart(w) em geral.
[00072] A etapa 104, determina a qualidade da palavra de acordo com o peso de importância da palavra.
[00073] Após o peso de importância da palavra ser obtido, a qualidade da palavra pode ser determinada de acordo com o peso de importância da palavra, assim como para obter palavras de alta qualidade para uso subsequente em processamento de documento.
[00074] Um método de processamento é como segue:
[00075] Primeiro, respectivamente configurar um limite de importância a e um limite βusado constantemente para cada nível. Estes dois limites podem ser configurados de acordo com um requerimento de extração e avaliação. Se muitas palavras importantes são requeridas, a pode ser configurado menor; caso contrário, a pode ser configurado maior. Se for requerido classificar muitas palavras para um intervalo usado constantemente, βpode ser configurado maior; caso contrário, β pode ser configurado menor. Se existem quatro níveis configurados na etapa 103, um par de ae βdeve ser configurado para cada nível. Como resultado, existem quatro pares de ae βao todo.
[00076] Em seguida, determinar a qualidade da palavra em cada nível de acordo com um relacionamento entre os dois limites acima do nível e do peso de importância da palavra no nível. A qualidade da palavra em cada nível pode ser expressa como
Figure img0029
[00077] Após o processamento acima, o que é obtido é meramente a qualidade da palavra no nível. Entretanto, quando um documento é analisado pela seleção de uma palavra importante e uma palavra comum, uma avaliação uniforma padrão é usualmente requerida para diferenciar funções de palavras diferentes.
[00078] Após as palavras candidatas serem classificados em níveis de acordo com a DF, as palavras em cada nível são classificadas efetivamente de acordo com sua importância. Mas valores extremos de WgtPart(w) em níveis diferentes são diferentes. Portanto, um processamento de normalização é requerido, ou seja, normalizar WgtPart(w) de cada nível para obter um peso de importância integrado Wgt(w) da pa lavra. Por exemplo, um peso de importância integrado Wgt(w) = NormLi- near(WgtPart(w)) pode ser obtido através de uma normalização linear. Adicionalmente, a normalização logarítmica também pode ser adotada para obter o peso de importância integrado da palavra.
[00079] Finalmente, baseado no Wgt(w) obtido pelo processamento de normalização, com respeito às palavras da mesma qualidade em ní- veis diferentes, uma classificação integrada de qualidade é realizada. Por exemplo, na etapa 103, são obtidos quatro níveis. Em seguida, com respeito às palavras nos quatro níveis cujas qualidades são importan- tes, realizar uma classificação de qualidade integrada. Um limite muito importante εie um limite de importância comum ε?são configurados para os níveis após o processamento de normalização. Todas as pala- classificadas por qualidade, expressa como
Figure img0030
De maneira similar,
Figure img0031
Figure img0032
[00080] Outro método de processamento é como segue.
[00081] Visto que os valores extremos de WgtPart(w) em níveis diferentes são diferentes, o WgtPart(w) de palavras em níveis diferentes não são comparáveis. Portanto, é requerido outro processamento de normalização, isto é, o WgtPart(w) de cada nível precisa ser normalizado para obter um peso de importância integrado da palavra. Por exemplo, um peso de importância integrado da palavra Wgt(w)=UneNorm(WgtPart(wy) pode ser obtido através de uma normalização linear. Adicionalmente, normalização logarítmica também pode ser adotada para obter o peso de importância integrado da palavra.
[00082] Em seguida, configurar um limite de importância a’ e um limite usado constantemente β’após o processamento de normalização. De acordo com um relacionamento entre os dois limites acima e o peso de importância integrado da palavra, a palavra é classificada, expressa Como
Figure img0033
[00083] As etapas acima podem ser executadas em qualquer aparelho para realizar extração e avaliação de qualidade de palavra, por exemplo, computador, servidor de web, o qual não é restrito nas modalidades da presente invenção.
[00084] A figura 3 é um diagrama esquemático que ilustra uma estrutura de um aparelho para extração e avaliação de qualidade de palavra de acordo com uma modalidade da presente invenção. Como mostrado na figura 3, o aparelho inclui: uma unidade para calcular DF, uma unidade para avaliar aspecto singular e uma unidade para avaliar aspecto múltiplo, em que uma unidade para calcular DF é adaptada para calcular a DF da palavra em massa de dados categorizada; a unidade de avaliação de aspecto singular é adaptada para avaliar a palavra em um aspecto singular de acordo com a DF da palavra; a unidade para avaliar aspecto múltiplo é adaptada para avaliar a palavra em múltiplos aspectos de acordo com múltiplas avaliações de aspectos singulares da palavra para obter um peso de importância da palavra.
[00085] O aparelho pode incluir adicionalmente uma unidade de pré- processamento, adaptada para pré-processar palavras da massa de dados categorizada, por exemplo, unificação de caracteres tradicionais e caracteres simplificados, unificação de letras maiúsculas e letras minúsculas, unificação de caracteres de meia largura e largura total, para padronizar as palavras e tornar as palavras uniformes.
[00086] O aparelho pode incluir adicionalmente uma unidade para determinar qualidade, adaptada para determinar a qualidade da palavra de acordo com o peso de importância da palavra.
[00087] Uma unidade para calcular DF inclui: um módulo para calcular vetor de DF e um módulo para calcular DF, em que um módulo para calcular vetor de DF é adaptado para calcular um vetor de DF da palavra em cada categoria da massa de dados categorizada; um módulo para calcular DF é adaptado para obter uma soma dos vetores de DF da palavra como a DF da palavra em todos os dados categorizados.
[00088] A unidade para avaliar aspecto singular inclui múltiplos módulos cada um dos mesmos é usado para implementar uma avaliação de aspecto singular. A unidade para avaliar aspecto singular pode incluir: um módulo de IDF, um módulo de AVAIDF, um módulo de quiquadrado, um módulo de IG, um módulo de Ml, um módulo de ECE, um módulo de ENT e um módulo de SELPRE. Especificamente, o módulo de IG pode incluir um módulo de divisão de intervalo e um módulo para calcular o IG. O módulo de divisão de intervalo é adaptado para classificar todas as palavras candidatas dentro de diferentes intervalos de acordo com suas DFs. O módulo para calcular o IG é adaptado para calcular o IG da palavra com base nos dados categorizados que correspondem a um intervalo da palavra. Quando o módulo de divisão de intervalo classifica as palavras candidatas, métodos tais como gradiente logarítmico, gradiente linear, gradiente exponencial, gradiente logarítmico e linear, ou gradiente exponencial e linear podem ser adotados.
[00089] A unidade para avaliar aspecto múltiplo inclui: um módulo de divisão de nível e um módulo para determinar a maneira de avaliação de aspecto múltiplo. O módulo de divisão de nível é adaptado para classificar as palavras candidatas dento de níveis diferentes de acordo com as DFs das palavras. A unidade para determinara maneira de avaliação de aspecto múltiplo é adaptada para determinar a maneira de avaliação de aspecto múltiplo da palavra de acordo com o nível da palavra para obter o peso de importância da palavra no nível correspondente. O módulo de divisão de nível pode incluir: um módulo de divisão de intervalo de nível e um módulo para classificar palavra. O módulo de divisão de intervalo é adaptado para configurar intervalos de acordo com as DFs das palavras em todos os dados categorizados. O módulo para classificar palavra é adaptado para classificar a palavra em um nível correspondente de acordo com a DF da palavra em todos os dados categorizados.
[00090] A unidade para determinar qualidade pode incluir: um módulo para configurar limite, um módulo para determinar a qualidade do nível, um módulo para processar a normalização e um módulo para classificação integrada, como mostrado na figura 4A. O módulo para configurar limite é adaptado para configurar um limite de importância e um limite usado constantemente para cada nível, em que os níveis são configurados de acordo com as DFs das palavras em todos os dados categorizados. O módulo para determinar a qualidade do nível é adaptado para determinar a qualidade da palavra no nível de acordo com um relacionamento entre os dois limites e o peso de importância da palavra no nível. O módulo para processar a normalização é adaptado para normalizar o peso de importância da palavra em cada nível para obter um peso de importância integrado da palavra. O módulo para classificação integrada é adaptado para classificar palavras da mesma qualidade em níveis diferentes de acordo com o peso de importância integrado das palavras.
[00091] Alternativamente, a unidade para determinar qualidade também pode incluir: um módulo para processar a normalização, um módulo para configurar limite e um módulo para classificação integrada, como mostrado na figura 4B. O módulo para processar a normalização é adaptado para normalizar o peso de importância da palavra em cada nível para obter um peso de importância integrado da palavra, em que o nível é configurado de acordo com as DFs das palavras em todos os dados categorizados. O módulo para configurar limite é adaptado para configurar um limite de importância e um limite usado constantemente para cada nível. O módulo para classificação integrada é adaptado para classificar a palavra de acordo com um relacionamento entre os dois limites e o peso de importância integrado da palavra.
[00092] O que foi descrito e ilustrado neste documento é um exemplo preferencial da revelação juntamente com algumas de suas variações. As palavras, descrições e figuras usadas neste documento são apresentadas apenas a título de ilustração não significam limitações. Muitas variações são possíveis dentro do espírito e escopo da revelação, o que é entendido ser definido pelas concretizações a seguir -- e seus equivalentes -- em que todas as palavras têm significado em seu sentido mais amplo razoável a menos que indicado em contrário.

Claims (14)

1. Método de extração e avaliação de palavra, que compreende: calcular uma Frequência de Documento (DF) de uma palavra em massa de dados categorizada (101); avaliar a palavra em múltiplos aspectos singulares de acordo com a DF da palavra (102); e classificar palavras candidatas em níveis de acordo com as DFs das palavras candidatas, em que os níveis compreendem um nível SuperAlto, um nível MeioAlto, um nível MeioBaixo e um nível Super- Baixo; e caracterizado pelo fato de que ainda compreende: para cada palavra candidata no nível SuperAlto, no nível MeioAlto ou no nível MeioBaixo determinar o peso de importância da palavra candidata de acordo com: um valor absoluto ou uma diferença entre Frequência Inversa de Documento Média (AVAIDF) e uma Frequência Inversa de Documento (IDF) da palavra candidata, uma combinação linear de Informação Mútua (Ml), Entropia Cruzada Esperada (ECE) e Entropia (ENT) da palavra candidata, uma combinação de quiquadrado com normalização logarítmica e Ganho de Informação (IG) da palavra candidata, e Preferência Seletiva (SELPRE) com normalização logarítmica da palavra candidata; para cada palavra candidata no nível SuperBaixo, determinar o peso de importância da palavra candidata de acordo com: um valor absoluto ou uma diferença entre Frequência Inversa de Documento Média (AVAIDF) e uma Frequência Inversa de Documento (IDF) da palavra candidata, uma combinação linear de Informação Mútua (Ml), Entropia Cruzada Esperada (ECE) e Entropia (ENT) da palavra candidata; e uma combinação de quiquadrado com normalização logarítmica e Ganho de Informação (IG) da palavra candidata.
2. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que o cálculo da DF da palavra em uma massa de dados categorizada compreende: calcular um vetor de DF da palavra em cada categoria da massa de dados categorizada; e obter uma soma de vetores de DF da palavra em todas as categorias como uma DF da palavra em todas as categorias.
3. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a avaliação de aspecto singular compreende um ou mais de: Frequência Inversa de Documento (IDF), IDF Média (AVAIDF), quiquadrado, Ganho de Informação (IG), Informação Mútua (Ml), Entropia Cruzada Esperada (ECE), Entropia (ENT) e preferência seletiva (SELPRE).
4. Método, de acordo com a reivindicação 3, caracterizado pelo fato de que a avaliação de aspecto singular é o IG, a avaliação da palavra de acordo com a DF da palavra compreende: classificar todas as palavras candidatas dentro de intervalos de acordo com as DFs das palavras candidatas; e calcular o IG da palavra com base nos dados categorizados que correspondem a um intervalo da palavra.
5. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a classificação das palavras candidatas em níveis de acordo com as DFs das palavras candidatas compreende: determinar os níveis de acordo com a DF de cada palavra em todos os dados categorizados; e classificar cada palavra em um nível correspondente de acordo com a DF da palavra em todos os dados categorizados.
6. Método, de acordo com qualquer uma das reivindicações 1 a 5, caracterizado pelo fato de que ainda compreende: antes de calcular a DF da palavra na massa de dados categorizada, processar a palavra na massa de dados categorizada com antecedência ; e/ou, após determinar o peso de importância da palavra, determinar uma qualidade da palavra de acordo com o peso de importância da palavra.
7. Método, de acordo com a reivindicação 6, caracterizado pelo fato de que determinar a qualidade da palavra de acordo com o peso de importância da palavra compreende: configurar um limite de importância e um limite usado constantemente para cada nível, em que os níveis são obtidos de acordo com as DFs das palavras em todos os dados categorizados; determinar uma qualidade da palavra no nível correspondente de acordo com um relacionamento entre os dois limites e o peso de importância da palavra no nível; normalizar o peso de importância da palavra in cada nível para obter um peso de importância integrado da palavra; com base no peso de importância integrado da palavra, realizar uma classificação integrada de qualidade para palavras da mesma qualidade em níveis diferentes; ou, normalizar o peso de importância da palavra em cada nível para obter um peso de importância integrado da palavra, em que o nível é obtido de acordo com as DFs das palavras em todos os dados categorizados; configurar um limite de importância e um limite de uso constante; realizar uma classificação integrada de qualidade para a palavra de acordo com um relacionamento entre os dois limites e o peso de importância integrado.
8. Aparelho para extração e avaliação de palavra, caracterizado pelo fato de que que compreende: uma unidade para calcular DF, adaptada para calcular uma DF de uma palavra na massa de dados categorizada; uma unidade para avaliar aspecto singular, adaptada para avaliar a palavra em múltiplos aspectos singulares de acordo com a DF da palavra; uma unidade para avaliar aspecto múltiplo, adaptada para avaliar a palavra em um aspecto múltiplo de acordo com as múltipla avaliações de aspectos singulares para obter um peso de importância da palavra; em que a unidade para avaliar aspecto múltiplo compreende: um módulo de divisão de nível, adaptado para configurar níveis de acordo com as DFs de palavras candidatas, em que os níveis compreendem um nível SuperAlto, um nível MeioAlto, um nível MeioBaixo e um nível SuperBaixo; e um módulo para avaliar aspecto múltiplo, adaptado para, para cada palavra candidata no nível SuperAlto, no nível MeioAlto ou no nível MeioBaixo, determinar o peso de importância da palavra candidata de acordo com: um valor absoluto ou uma diferença entre Frequência Inversa de Documento Média (AVAIDF) e uma Frequência Inversa de Documento (IDF) da palavra candidata, uma combinação linear de Informação Mútua (Ml), Entropia Cruzada Esperada (ECE) e Entropia (ENT) da palavra candidata, uma combinação de quiquadrado com normalização logarítmica e Ganho de Informação (IG) da palavra candidata, e Preferência Seletiva (SELPRE) com normalização logarítmica da palavra candidata; para cada palavra candidata no nível SuperBaixo, determinar o peso de importância da palavra candidata de acordo com: urn valor absoluto ou uma diferença entre Frequência Inversa de Documento Média (AVAIDF) e uma Frequência Inversa de Documento (IDF) da palavra candidata, uma combinação linear de Informação Mútua (Ml), Entropia Cruzada Esperada (ECE) e Entropia (ENT) da palavra candidata; e uma combinação de quiquadrado com normalização logarítmica e Ganho de Informação (IG) da palavra candidata.
9. Aparelho, de acordo com a reivindicação 8, caracterizado pelo fato de que uma unidade para calcular DF compreende: um módulo para calcular vetor de DF, adaptado para calcular um vetor de DF da palavra em cada categoria dos dados categorizados; e um módulo para calcular DF, adaptado para obter uma soma de vetores de DF da palavra como a DF da palavra em todas as categorias.
10. Aparelho, de acordo com a reivindicação 8, caracterizado pelo fato de que a unidade para avaliar aspecto singular compreende: um módulo de Frequência Inversa de Documento (IDF), um módulo de IDF Média (AVAIDF), um módulo de quiquadrado, um módulo de Ganho de Informação (IG), um módulo de Informação Mútua (Ml), um módulo de Entropia Cruzada Esperada (ECE), um módulo de Entropia (ENT) e um módulo de Preferência Seletiva (SELPRE).
11. Aparelho, de acordo com a reivindicação 10, caracterizado pelo fato de que o módulo de IG compreende: um módulo de divisão de intervalo, adaptado para configurar intervalos de acordo com as DFs de todas as palavras candidatas; e um módulo para calcular o IG, adaptado para calcular um IG da palavra de acordo com os dados categorizados que correspondem ao intervalo da palavra.
12. Aparelho, de acordo com a reivindicação 8, caracterizado pelo fato de que o módulo de divisão de nível compreende: um módulo de divisão de intervalo de nível, adaptado para configurar níveis de acordo com as DFs das palavras em todos os dados categorizados; e um módulo para classificar palavra, adaptado para classificar a palavra para um nível correspondente de acordo com a DF da palavra em todos os dados categorizados.
13. Aparelho, de acordo com uma das reivindicações 8 a 12, caracterizado pelo fato de que ainda compreende: uma unidade de pré-processamento, adaptada para processar a palavra em uma massa de dados categorizada com antecedência; e/ou uma unidade para determinar qualidade, adaptada para determinar a qualidade da palavra de acordo com o peso de importância da palavra.
14. Aparelho, de acordo com a reivindicação 13, caracterizado pelo fato de que a unidade para determinar qualidade compreende: um módulo para configurar limite, adaptado para configurar um limite de importância e um limite usado constantemente para cada nível, em que o nível é obtido de acordo com as DFs das palavras em todos os dados categorizados; um módulo para determinar qualidade do nível, adaptado para determinar a qualidade da palavra no nível de acordo com um relacionamento entre os dois limites e o peso de importância da palavra no nível correspondente; um módulo para processar a normalização, adaptado para normalizar o peso de importância da palavra em cada nível para obter um peso de importância integrado da palavra; um módulo para classificação integrada, adaptado para realizar uma classificação integrada de qualidade para palavras da mesma qualidade em níveis diferentes com base no peso de importância integrado da palavra; ou, a unidade para determinar qualidade compreende: um módulo de normalização, adaptado para normalizar o peso de importância da palavra em cada nível para obter um peso de importância integrado da palavra, em que os níveis são divididos de acordo com as DFs das palavras em todos os dados categorizados; um módulo para configurar limite, adaptado para configurar um limite de importância e um limite usado constantemente; e um módulo para classificação integrada, adaptado para realizar uma classificação integrada de qualidade para todas as palavras com base em um relacionamento entre os dois limites e o peso de importância integrado da palavra.
BR112012011091-8A 2009-11-10 2010-06-28 método e aparelho para extração e avaliação de qualidade de palavra BR112012011091B1 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN200910237185.7 2009-11-10
CN200910237185.7A CN102054006B (zh) 2009-11-10 2009-11-10 一种从海量数据中提取有效信息的方法及装置
PCT/CN2010/074597 WO2011057497A1 (zh) 2009-11-10 2010-06-28 一种词汇质量挖掘评价方法及装置

Publications (2)

Publication Number Publication Date
BR112012011091A2 BR112012011091A2 (pt) 2016-07-05
BR112012011091B1 true BR112012011091B1 (pt) 2020-10-13

Family

ID=43958340

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112012011091-8A BR112012011091B1 (pt) 2009-11-10 2010-06-28 método e aparelho para extração e avaliação de qualidade de palavra

Country Status (5)

Country Link
US (1) US8645418B2 (pt)
CN (1) CN102054006B (pt)
BR (1) BR112012011091B1 (pt)
RU (1) RU2517368C2 (pt)
WO (1) WO2011057497A1 (pt)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103186612B (zh) * 2011-12-30 2016-04-27 中国移动通信集团公司 一种词汇分类的方法、系统和实现方法
CN103885976B (zh) * 2012-12-21 2017-08-04 腾讯科技(深圳)有限公司 在网页中配置推荐信息的方法及索引服务器
CN103309984B (zh) * 2013-06-17 2016-12-28 腾讯科技(深圳)有限公司 数据处理的方法和装置
US9959364B2 (en) * 2014-05-22 2018-05-01 Oath Inc. Content recommendations
CN105183784B (zh) * 2015-08-14 2020-04-28 天津大学 一种基于内容的垃圾网页检测方法及其检测装置
CN105975518B (zh) * 2016-04-28 2019-01-29 吴国华 基于信息熵的期望交叉熵特征选择文本分类系统及方法
US11347777B2 (en) * 2016-05-12 2022-05-31 International Business Machines Corporation Identifying key words within a plurality of documents
CN107463548B (zh) * 2016-06-02 2021-04-27 阿里巴巴集团控股有限公司 短语挖掘方法及装置
CN108073568B (zh) * 2016-11-10 2020-09-11 腾讯科技(深圳)有限公司 关键词提取方法和装置
CN107066441A (zh) * 2016-12-09 2017-08-18 北京锐安科技有限公司 一种计算词性相关性的方法及装置
CN107169523B (zh) * 2017-05-27 2020-07-21 鹏元征信有限公司 自动确定机构的所属行业类别的方法、存储设备及终端
CN107562938B (zh) * 2017-09-21 2020-09-08 重庆工商大学 一种法院智能审判方法
CN108269125B (zh) * 2018-01-15 2020-08-21 口碑(上海)信息技术有限公司 评论信息质量评估方法及系统、评论信息处理方法及系统
CN108664470B (zh) * 2018-05-04 2022-06-17 武汉斗鱼网络科技有限公司 视频标题信息量的度量方法、可读存储介质及电子设备
CN109062912B (zh) * 2018-08-08 2023-07-28 科大讯飞股份有限公司 一种翻译质量评价方法及装置
CN109255028B (zh) * 2018-08-28 2021-08-13 西安交通大学 基于教学评价数据可信度的教学质量综合评价方法
CN109062905B (zh) * 2018-09-04 2022-06-24 武汉斗鱼网络科技有限公司 一种弹幕文本价值评价方法、装置、设备及介质
CN110377709B (zh) * 2019-06-03 2021-10-08 广东幽澜机器人科技有限公司 一种减少机器人客服运维复杂度的方法及装置
CN111079426B (zh) * 2019-12-20 2021-06-15 中南大学 一种获取领域文档词项分级权重的方法及装置
CN111090997B (zh) * 2019-12-20 2021-07-20 中南大学 一种基于分级词项的地质文档特征词项排序方法与装置
CN112561500B (zh) * 2021-02-25 2021-05-25 深圳平安智汇企业信息管理有限公司 基于用户数据的薪酬数据生成方法、装置、设备及介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6473753B1 (en) * 1998-10-09 2002-10-29 Microsoft Corporation Method and system for calculating term-document importance
US7024408B2 (en) * 2002-07-03 2006-04-04 Word Data Corp. Text-classification code, system and method
JP4233836B2 (ja) 2002-10-16 2009-03-04 インターナショナル・ビジネス・マシーンズ・コーポレーション 文書自動分類システム、不要語判定方法、文書自動分類方法、およびプログラム
CN1438592A (zh) * 2003-03-21 2003-08-27 清华大学 一种文本自动分类方法
RU2254610C2 (ru) * 2003-09-04 2005-06-20 Государственное научное учреждение научно-исследовательский институт "СПЕЦВУЗАВТОМАТИКА" Способ автоматической классификации документов
US20090119281A1 (en) * 2007-11-03 2009-05-07 Andrew Chien-Chung Wang Granular knowledge based search engine
US8577884B2 (en) * 2008-05-13 2013-11-05 The Boeing Company Automated analysis and summarization of comments in survey response data
CN100583101C (zh) * 2008-06-12 2010-01-20 昆明理工大学 基于领域知识的文本分类特征选择及权重计算方法

Also Published As

Publication number Publication date
CN102054006A (zh) 2011-05-11
WO2011057497A1 (zh) 2011-05-19
RU2012123216A (ru) 2013-12-20
US8645418B2 (en) 2014-02-04
RU2517368C2 (ru) 2014-05-27
CN102054006B (zh) 2015-01-14
BR112012011091A2 (pt) 2016-07-05
US20120221602A1 (en) 2012-08-30

Similar Documents

Publication Publication Date Title
BR112012011091B1 (pt) método e aparelho para extração e avaliação de qualidade de palavra
CN106547739B (zh) 一种文本语义相似度分析方法
WO2018086470A1 (zh) 关键词提取方法、装置和服务器
JP4920023B2 (ja) オブジェクト間競合指標計算方法およびシステム
WO2021139262A1 (zh) 文献主题词聚合方法、装置、计算机设备及可读存储介质
CN108920456A (zh) 一种关键词自动抽取方法
CN106598999B (zh) 一种计算文本主题归属度的方法及装置
CN109783631B (zh) 社区问答数据的校验方法、装置、计算机设备和存储介质
CN110705612A (zh) 一种混合多特征的句子相似度计算方法、存储介质及系统
Rohini et al. Domain based sentiment analysis in regional Language-Kannada using machine learning algorithm
Cieliebak et al. Potential and Limitations of Commercial Sentiment Detection Tools.
KR20230142754A (ko) 모델 교차들을 이용한 문서 분석
CN106649250A (zh) 一种情感新词的识别方法及装置
Węcel et al. Modelling the quality of attributes in Wikipedia infoboxes
CN110688540B (zh) 一种作弊账户筛选方法、装置、设备及介质
Parthasarathy et al. Sentiment analyzer: analysis of journal citations from citation databases
JP2009110508A (ja) オブジェクト間の競合指標計算方法およびシステム
Hofmann et al. Predicting the growth of morphological families from social and linguistic factors
JP2020098592A (ja) ウェブページ内容を抽出する方法、装置及び記憶媒体
US10229194B2 (en) Providing known distribution patterns associated with specific measures and metrics
CN111930949B (zh) 搜索串处理方法、装置、计算机可读介质及电子设备
CN108021595B (zh) 检验知识库三元组的方法及装置
Wojtinnek et al. Semantic relatedness from automatically generated semantic networks
Van Tan et al. Construction of a word similarity dataset and evaluation of word similarity techniques for Vietnamese
CN110728131A (zh) 一种分析文本属性的方法和装置

Legal Events

Date Code Title Description
B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B15K Others concerning applications: alteration of classification

Free format text: A CLASSIFICACAO ANTERIOR ERA: G06F 17/30

Ipc: G06F 16/35 (2019.01), G06F 16/31 (2019.01)

B16A Patent or certificate of addition of invention granted

Free format text: PRAZO DE VALIDADE: 10 (DEZ) ANOS CONTADOS A PARTIR DE 13/10/2020, OBSERVADAS AS CONDICOES LEGAIS.