BR112016017262B1

BR112016017262B1 - Método para busca de objeto e terminal acoplado de forma comunicativa a um servidor.

Info

Publication number: BR112016017262B1
Application number: BR112016017262-0A
Authority: BR
Inventors: Yan Li; Xiaojuan Li; Wenmei Gao
Original assignee: Huawei Technologies Co., Ltd.
Priority date: 2014-05-15
Filing date: 2014-05-15
Publication date: 2022-09-27
Also published as: BR112016017262A2; EP3001333A4; EP3001333A1; WO2015172359A1; KR101864240B1; CN104854539B; CN104854539A; JP6316447B2; US10311115B2; US20160147882A1; JP2017513090A; KR20160104054A

Abstract

MÉTODO E APARELHO PARA BUSCA DE OBJETO. Método e aparelho para busca de objeto, em que o método inclui: receber (101) entrada de voz e entrada de gesto de um usuário; determinar (102), de acordo com a entrada de voz, um nome de um objeto-alvo o qual o usuário espera buscar e um tipo de característica do objeto-alvo; extrair (103) informações de característica do tipo de característica de uma região de imagem selecionada através da entrada de gesto pelo usuário; e buscar (104) pelo objeto-alvo de acordo com as informações de característica extraídas e o nome do objeto-alvo. As soluções fornecidas em uma modalidade da presente invenção podem fornecer a um usuário um modo de busca mais flexível, e reduzir uma restrição em um cenário de aplicativo durante uma busca.

Description

CAMPO DA TÉCNICA

[001] A presente invenção refere-se ao campo de tecnologias de busca no campo de tecnologias de computador e, em particular, a um método e a um aparelho para busca de objeto.

ANTECEDENTES

[002] Atualmente, quando busca um objeto-alvo a ser buscado mediante o uso de uma rede, geralmente, um usuário insere ou seleciona algum critério de busca conhecido para o objeto-alvo e, então, busca pelo objeto-alvo de acordo com o critério de busca. Por exemplo, a busca pode ser realizada de acordo com uma faixa de preço do objeto-alvo ou a busca pode ser realizada de acordo com uma área a qual o objeto-alvo pertence.

[003] Na solução anterior de busca por objeto, é exigido que um usuário tenha capacidade de descrever claramente um critério de busca no qual uma busca é baseada. Por exemplo, o critério de busca pode ser selecionado a partir de algum critério predefinido ou pode ser inserido diretamente. No entanto, em um aplicativo atual, quando busca um objeto-alvo, um usuário pode não ter capacidade de descrever de modo claro um critério de busca esperado pelo usuário. Por exemplo, o usuário espera buscar por um objeto de uma cor particular, mas a cor pode não ser descrita de modo preciso mediante o uso de um nome de uma cor conhecida ou o usuário espera buscar por um objeto de um formato particular, mas o formato não é regular. Consequentemente, nesse caso, o usuário não pode buscar pelo objeto-alvo esperado pelo usuário; além disso, mesmo se a busca for realizada, é possível que um resultado de busca não cumpra uma intenção de busca do usuário devido ao fato de que o critério de busca não é preciso levando, dessa maneira, a um efeito de busca relativamente insuficiente. Um método para busca de objeto na técnica anterior não pode fornecer ao usuário uma maneira de busca mais flexível e é, de modo relativo, amplamente restrito por um cenário de aplicativo.

SUMÁRIO

[004] As modalidades da presente invenção fornecem um método e um aparelho para busca de objeto, para solucionar um problema na técnica anterior que uma maneira de busca mais flexível pode não ser fornecida para um usuário e uma restrição em um cenário de aplicativo é relativamente grande.

[005] De acordo com um primeiro aspecto, um método para busca de objeto é fornecido, incluindo:

[006] receber entrada de voz e entrada de gesto que são de um usuário;

[007] determinar, de acordo com a entrada de voz, um nome de um objeto-alvo o qual o usuário espera buscar e uma categoria de característica do objeto-alvo;

[008] extrair informações de característica da categoria de característica de uma área de imagem selecionada pelo usuário por meio da entrada de gesto; e

[009] buscar o objeto-alvo de acordo com as informações de característica extraídas e o nome do objeto-alvo.

[0010] Em referência ao primeiro aspecto, em uma primeira maneira de implantação possível, a busca pelo objeto-alvo de acordo com as informações de característica extraídas e o nome do objeto- alvo especificamente incluem:

[0011] enviar as informações de característica e o nome do objeto- alvo para um servidor; e

[0012] receber um resultado de busca retornado para o servidor, em que o resultado de busca é obtido pelo servidor ao buscar, de acordo com as informações de característica, pelo objeto-alvo representado pelo nome do objeto-alvo.

[0013] Em referência ao primeiro aspecto ou à primeira maneira de implantação possível do primeiro aspecto, em uma segunda maneira de implantação possível, o recebimento da entrada de voz e da entrada de gesto que são de um usuário especificamente inclui:

[0014] receber entrada de voz e entrada de gesto que são realizadas simultaneamente pelo usuário; ou

[0015] receber entrada de voz do usuário e quando for determinado que nenhuma entrada de gesto é realizada pelo usuário e nenhuma área de imagem é selecionada, instruir o usuário a realizar uma operação de selecionar uma área de imagem e receber entrada de gesto do usuário; ou

[0016] receber entrada de gesto do usuário e quando for determinado que nenhuma entrada de voz é realizada pelo usuário, instruir o usuário a realizar uma operação de entrada de voz e receber entrada de voz do usuário.

[0017] Em referência ao primeiro aspecto ou à primeira maneira de implantação possível do primeiro aspecto, em uma terceira maneira de implantação possível, adquirir a área de imagem selecionada pelo usuário por meio da entrada de gesto inclui:

[0018] adquirir uma área de imagem que é selecionada a partir de uma imagem designada pelo usuário por meio da entrada de gesto e usar a área de imagem como a área de imagem selecionada pelo usuário; ou

[0019] adquirir uma imagem que é obtida ao ser fotografada pelo usuário por meio da entrada de gesto e usar a área de imagem como a área de imagem selecionada pelo usuário.

[0020] De acordo com um segundo aspecto, um aparelho para busca de objeto é fornecido, incluindo:

[0021] uma primeira unidade de recebimento, configurada para receber entrada de voz e entrada de gesto que são de um usuário;

[0022] uma primeira unidade de determinação, configurada para determinar, de acordo com a entrada de voz, um nome de um objeto- alvo o qual o usuário espera buscar e uma categoria de característica do objeto-alvo;

[0023] uma unidade de extração, configurada para extrair informações de característica da categoria de característica de uma área de imagem selecionada pelo usuário por meio da entrada de gesto; e

[0024] uma primeira unidade de busca, configurada para buscar pelo objeto-alvo de acordo com as informações de característica extraídas e o nome do objeto-alvo.

[0025] Em referência ao segundo aspecto, em uma primeira maneira de implantação possível, a primeira unidade de busca é especificamente configurada para: enviar as informações de característica e o nome do objeto-alvo para um servidor e receber um resultado de busca retornado pelo servidor, em que o resultado de busca é obtido pelo servidor ao buscar, de acordo com as informações de característica, pelo objeto-alvo representado pelo nome do objeto- alvo.

[0026] Em referência ao segundo aspecto ou à primeira maneira de implantação possível do segundo aspecto, em uma segunda maneira de implantação possível, a primeira unidade de recebimento é especificamente configurada para: receber entrada de voz e entrada de gesto que são realizadas de modo simultâneo pelo usuário; ou receber entrada de voz do usuário, e quando for determinado que nenhuma entrada de gesto é realizada pelo usuário e nenhuma área de imagem é selecionada, instruir o usuário a realizar uma operação de selecionar uma área de imagem, e receber entrada de gesto do usuário; ou receber entrada de gesto do usuário e quando for determinado que nenhuma entrada de voz é realizada pelo usuário, instruir o usuário a realizar uma operação de entrada de voz e receber entrada de voz do usuário.

[0027] Em referência ao segundo aspecto ou à primeira maneira de implantação possível do segundo aspecto, em uma terceira maneira de implantação possível, a primeira unidade de determinação é adicionalmente configurada para adquirir uma área de imagem que é selecionada a partir de uma imagem designada pelo usuário por meio da entrada de gesto e uso da área de imagem como a área de imagem selecionada pelo usuário; ou adquirir uma imagem que é obtida ao ser fotografada pelo usuário por meio da entrada de gesto e uso da área de imagem como a área de imagem selecionada pelo usuário.

[0028] De acordo com um terceiro aspecto, um método para busca de objeto é fornecido, incluindo:

[0029] receber entrada de voz e entrada de gesto que são de um usuário;

[0030] determinar, de acordo com a entrada de voz, um nome de um objeto-alvo o qual o usuário espera buscar e uma categoria de característica do objeto-alvo;

[0031] enviar, para um servidor, informações de categoria da categoria de característica, o nome do objeto-alvo e uma área de imagem que é selecionada pelo usuário por meio da entrada de gesto; e

[0032] receber um resultado de busca retornado pelo servidor, em que o resultado de busca é obtido pelo servidor ao buscar pelo objeto- alvo representado pelo nome do objeto-alvo, em que uma característica da categoria de característica que é da área de imagem e representada pelas informações de categoria é usada como um critério de busca.

[0033] Em referência ao terceiro aspecto, em uma primeira maneira de implantação possível, o recebimento da entrada de voz e entrada de gesto que são de um usuário especificamente inclui:

[0034] receber entrada de voz e entrada de gesto que são realizadas simultaneamente pelo usuário; ou

[0035] receber entrada de voz do usuário e quando for determinado que nenhuma entrada de gesto é realizada pelo usuário e nenhuma área de imagem é selecionada, instruir o usuário a realizar uma operação de selecionar uma área de imagem e receber entrada de gesto do usuário; ou

[0036] receber entrada de gesto do usuário e quando for determinado que nenhuma entrada de voz é realizada pelo usuário, instruir o usuário a realizar uma operação de entrada de voz e receber entrada de voz do usuário.

[0037] Em referência ao terceiro aspecto, em uma segunda maneira de implantação possível, adquirir a área de imagem selecionada pelo usuário por meio da entrada de gesto inclui:

[0038] adquirir uma área de imagem que é selecionada a partir de uma imagem designada pelo usuário por meio da entrada de gesto e usar a área de imagem como a área de imagem selecionada pelo usuário; ou

[0039] adquirir uma imagem que é obtida ao ser fotografada pelo usuário por meio da entrada de gesto e usar a área de imagem como a área de imagem selecionada pelo usuário.

[0040] De acordo com um quarto aspecto, um aparelho para busca de objeto é fornecido, incluindo:

[0041] uma segunda unidade de recebimento, configurada para receber entrada de voz e entrada de gesto que são de um usuário;

[0042] uma segunda unidade de determinação, configurada para determinar, de acordo com a entrada de voz, um nome de um objeto- alvo o qual o usuário espera buscar e uma categoria de característica do objeto-alvo;

[0043] uma unidade de envio, configurada para enviar, para um servidor, informações de categoria da categoria de característica, o nome do objeto-alvo e uma área de imagem que é selecionada pelo usuário por meio da entrada de gesto; e

[0044] uma terceira unidade de recebimento, configurada para receber um resultado de busca retornado pelo servidor, em que o resultado de busca é obtido pelo servidor ao buscar pelo objeto-alvo representado pelo nome do objeto-alvo, em que uma característica da categoria de característica que é da área de imagem e representada pelas informações de categoria é usada como um critério de busca.

[0045] Em referência ao quarto aspecto, em uma primeira maneira de implantação possível, a segunda unidade de recebimento é especificamente configurada para: receber entrada de voz e entrada de gesto que são realizadas de modo simultâneo pelo usuário; ou receber entrada de voz do usuário, e quando for determinado que nenhuma entrada de gesto é realizada pelo usuário e nenhuma área de imagem é selecionada, instruir o usuário a realizar uma operação de selecionar uma área de imagem, e receber entrada de gesto do usuário; ou receber entrada de gesto do usuário, e quando for determinado que nenhuma entrada de voz é realizada pelo usuário, instruir o usuário a realizar uma operação de entrada de voz, e receber entrada de voz do usuário.

[0046] Em referência ao quarto aspecto, em uma segunda maneira de implantação possível, a segunda unidade de determinação é adicionalmente configurada para: adquirir uma área de imagem que é selecionada a partir de uma imagem designada pelo usuário por meio da entrada de gesto e uso da área de imagem como a área de imagem selecionada pelo usuário; ou adquirir uma imagem que é obtida ao ser fotografada pelo usuário por meio da entrada de gesto e uso da área de imagem como a área de imagem selecionada pelo usuário.

[0047] Os efeitos benéficos da presente invenção incluem o seguinte:

[0048] Nas soluções anteriores fornecidas nas modalidades da presente invenção, quando a busca de objeto é realizada, a entrada de voz e a entrada de gesto que são de um usuário são primeiramente recebidas, um nome de um objeto-alvo pelo qual o usuário espera buscar e uma categoria de característica do objeto-alvo são determinados de acordo com a entrada de voz, e o objeto-alvo é buscado mediante o uso de uma característica da categoria de característica de uma área de imagem selecionada pelo usuário por meio da entrada de gesto e o nome do objeto-alvo como critério de busca. Durante a busca, o usuário precisa apenas inserir, mediante o uso de uma voz, a categoria de característica e o nome do objeto-alvo e selecionar uma área de imagem por meio da entrada de gesto e a categoria de característica, o nome do objeto-alvo e a área de imagem podem ser usados para representar o critério de busca sem exigir descrição clara do critério de busca. Portanto, uma maneira de busca mais flexível é fornecida para o usuário e uma restrição em um cenário de aplicativo é reduzida durante a busca.

[0049] Outras características e vantagens deste pedido são discutidas nas especificações a seguir, algumas das quais se tornam evidentes nas especificações ou são entendidas pela implantação deste pedido. Os objetivos e outras vantagens podem ser implantados e obtidos mediante o uso das especificações escritas, concretizações e uma estrutura especificamente apontada nos desenhos anexos.

BREVE DESCRIÇÃO DOS DESENHOS

[0050] Os desenhos anexos são usados para facilitar adicionalmente o entendimento da presente invenção, constituem uma parte das especificações e são usados em combinação com as modalidades da presente invenção para explicar a presente invenção, mas não constituem limitação à presente invenção. Nos desenhos anexos:

[0051] a Figura 1 é o Fluxograma 1 de um método para busca de objeto de acordo com uma modalidade da presente invenção;

[0052] a Figura 2 é o Fluxograma 2 de um método para busca de objeto de acordo com uma modalidade da presente invenção;

[0053] a Figura 3 é o Fluxograma 3 de um método para busca de objeto de acordo com uma modalidade da presente invenção;

[0054] a Figura 4 é um Diagrama Estrutural Esquemático 1 de um aparelho de busca de objeto de acordo com uma modalidade da presente invenção; e

[0055] a Figura 5 é um Diagrama Estrutural Esquemático 2 de um aparelho de busca de objeto de acordo com uma modalidade da presente invenção.

DESCRIÇÃO DAS MODALIDADES

[0056] Para apresentar uma solução de implantação que fornece a um usuário uma maneira de busca mais flexível e reduz uma restrição em um cenário de aplicativo durante a busca, as modalidades da presente invenção fornecem um método e um aparelho para busca de objeto. As modalidades preferenciais da presente invenção são descritas abaixo em referência aos desenhos anexos das especificações. Deve ser entendido que as modalidades preferenciais descritas no presente documento são usadas apenas para descrever e explicar a presente invenção e não restringem a presente invenção. Além disso, as modalidades da presente invenção e os recursos das modalidades podem ser combinados um com o outro desde que nenhuma colisão ocorra.

[0057] Uma modalidade da presente invenção fornece um método para busca de objeto, que pode ser aplicado a um terminal. Conforme mostrado na Figura 1, o método inclui:

[0058] Etapa 101. Receber entrada de voz e entrada de gesto que são de um usuário;

[0059] Etapa 102. Determinar, de acordo com a entrada de voz, um nome de um objeto-alvo o qual o usuário espera buscar e uma categoria de característica do objeto-alvo;

[0060] Etapa 103. Extrair informações de característica da categoria de característica de uma área de imagem selecionada pelo usuário por meio da entrada de gesto.

[0061] Etapa 104. Buscar pelo objeto-alvo de acordo com as informações de característica extraídas e o nome do objeto-alvo.

[0062] No método anterior mostrado na Figura 1, na etapa 103, o terminal pode extrair diretamente as informações de característica da categoria de característica da área de imagem selecionada pelo usuário. Ao executar a etapa 104, especificamente, o terminal pode buscar um conjunto de objetos armazenados de modo local no terminal ou pode buscar na Internet, ou seja, as informações de característica e o nome do objeto-alvo são enviados para um servidor, e após o servidor obter um resultado de busca ao buscar, de acordo com as informações de característica, pelo objeto-alvo representado pelo nome do objeto-alvo, o resultado de busca retornado pelo servidor é recebido e, adicionalmente, o resultado de busca pode ser exibido.

[0063] Uma modalidade da presente invenção fornece adicionalmente um método para busca de objeto, que é diferente do método anterior mostrado na Figura 1 e também pode ser aplicado a um terminal. Conforme mostrado na Figura 2, o método inclui:

[0064] Etapa 201. Receber entrada de voz e entrada de gesto que são de um usuário;

[0065] Etapa 202. Determinar, de acordo com a entrada de voz, um nome de um objeto-alvo o qual o usuário espera buscar e uma categoria de característica do objeto-alvo;

[0066] Etapa 203. Enviar, para um servidor, informações de categoria da categoria de característica, o nome do objeto-alvo e uma área de imagem que é selecionada pelo usuário por meio da entrada de gesto.

[0067] Etapa 204. Receber um resultado de busca retornado pelo servidor, em que o resultado de busca é obtido pelo servidor ao buscar pelo objeto-alvo representado pelo nome do objeto-alvo, em que uma característica da categoria de característica que é da área de imagem e representada pelas informações de categoria é usada como um critério de busca.

[0068] No método anterior mostrado na Figura 2, após determinar o nome do objeto-alvo o qual o usuário espera buscar e a categoria de característica do objeto-alvo na etapa 202, o terminal envia diretamente, para o servidor, as informações de categoria da categoria de característica, o nome do objeto-alvo e a área de imagem selecionada pelo usuário; e o servidor realiza busca com base nessas peças de informações recebidas e retorna o resultado de busca para o terminal.

[0069] Além disso, adicionalmente, quando realiza a busca, o servidor pode extrair as informações de característica da categoria de característica da área de imagem recebida selecionada pelo usuário e buscar pelo objeto-alvo de acordo com as informações de característica extraídas e o nome do objeto-alvo.

[0070] Para os métodos anteriores para busca de objeto mostrados na Figura 1 e na Figura 2, a etapa 101 e a etapa 102 são as mesmas que a etapa 201 e a etapa 202, respectivamente. Além disso, na etapa 101 e na etapa 102 anteriores e na etapa 201 e na etapa 202, o usuário pode inserir a categoria de característica e o nome do objeto-alvo em uma maneira de entrada de voz. Por exemplo, a categoria de característica de entrada pode incluir: uma cor, um formato, um preço, uma marca, uma imagem e similares, e o nome de entrada do objeto-alvo pode ser um nome de artigo de um artigo que se espera ser buscado.

[0071] Especificamente, o usuário pode inserir informações de voz de uma maneira de entrada de voz, em que as informações de voz portam a categoria de característica e o nome do objeto-alvo. Por exemplo, o usuário insere, mediante o uso de uma voz, "buscar por uma carteira dessa cor", "buscar por uns sapatos dessa marca" e "buscar por uma carcaça de telefone nessa imagem".

[0072] Quando o usuário insere as informações de voz de uma maneira de entrada de voz, uma análise semântica é realizada nas informações de voz inseridas pelo usuário, para determinar a categoria de característica e o nome do objeto-alvo. Diversas maneiras da técnica anterior podem ser usadas para realizar análise semântica nas informações de voz para extrair informações de texto, que não são descritas em detalhe no presente documento.

[0073] Nessa modalidade da presente invenção, quando realiza uma operação de selecionar uma área de imagem, o usuário pode selecionar uma área de imagem de uma imagem designada. Por exemplo, o usuário realiza, por meio de uma operação de gesto, uma operação de seleção em uma tela sensível ao toque que exibe a imagem designada e, em conformidade, a área de imagem selecionada pelo usuário da imagem designada é adquirida e usada como a área de imagem selecionada pelo usuário.

[0074] Ao realizar a operação de selecionar uma área de imagem, o usuário também pode iniciar um modo de fotografia e realizar uma operação de fotografia para obter uma imagem e, em conformidade, a imagem obtida ao ser fotografada pelo usuário é adquirida e usada como a área de imagem selecionada pelo usuário.

[0075] Nessa modalidade da presente invenção, não há uma ordem restrita entre a operação de selecionar a área de imagem pelo usuário e a operação de inserir a categoria de característica e o nome do objeto-alvo.

[0076] Além disso, a operação de selecionar a área de imagem pelo usuário e a operação de inserir as informações de voz podem ser completadas de modo simultâneo. Por exemplo, quando insere as informações de voz, o usuário pode selecionar a área de imagem mediante o uso da operação de gesto.

[0077] A operação de selecionar a área de imagem pelo usuário e a operação de inserir as informações de voz também podem ser completadas uma após a outra. Por exemplo, quando for determinado que as informações de voz são inseridas pelo usuário, mas nenhuma área de imagem é selecionada, o usuário é instruído para realizar a operação de selecionar uma área de imagem; e após o usuário realizar a operação de selecionar uma área de imagem, a área de imagem selecionada pelo usuário é determinada.

[0078] Para outro exemplo, quando for determinado que o usuário realiza uma operação de entrada de gesto para selecionar a área de imagem e nenhuma informação de voz for inserida, o usuário é instruído a realizar uma operação de inserir informações de voz. Após o usuário inserir as informações de voz, a análise semântica é realizada nas informações de entrada de voz de, para determinar a categoria de característica e o nome do objeto-alvo.

[0079] Nos métodos anteriores mostrados na Figura 1 e na Figura 2. , especificamente, as informações de característica da categoria de característica podem ser extraídas da área de imagem selecionada pelo usuário por meio da entrada de gesto e o objeto-alvo representado pelo nome do objeto-alvo pode ser buscado de acordo com as informações de característica extraídas.

[0080] Por exemplo, se a categoria de característica for uma cor, as informações de característica de cor da área de imagem selecionada pelo usuário são extraídas. Diversos tipos na técnica anterior podem ser usados para representar as informações de característica de cor. Por exemplo, um histograma de cor (um histograma de cor descreve razões de cores diferentes para uma imagem inteira) da área de imagem selecionada pelo usuário pode ser extraído; uma cor de uma razão maior, uma quantidade predefinida de cores cujas razões estão em ordem decrescente ou uma cor de uma razão maior que uma razão predefinida no histograma de cor é determinada; um valor de pixel da cor determinada é usado como as informações de característica de cor da área de imagem. Um nome de cor da cor pode ser adicionalmente determinado de acordo com o valor de pixel da cor e o nome da cor é usado como as informações de característica de cor da área de imagem. Quando múltiplas cores no histograma de cor são determinadas, as múltiplas cores podem ser adicionalmente exibidas para o usuário selecionar e as informações de característica de cor, por exemplo, um valor de pixel ou um nome de cor, de uma cor selecionada pelo usuário é determinado.

[0081] Em conformidade, o objeto-alvo representado pelo nome do objeto-alvo pode ser buscado de acordo com as informações de característica de cor extraídas. Por exemplo, a busca é realizada de acordo com o nome da cor ou o valor de pixel.

[0082] Para outro exemplo, se a categoria de característica tiver um formato, informações de característica de formato da área de imagem selecionada pelo usuário são extraídas. O formato pode ser um formato regular, por exemplo, um retângulo, um losango, um círculo, ou um oval e um nome de formato pode ser usado como as informações de característica de formato. O formato também pode ser irregular, por exemplo, um gráfico de um perfil de uma substância na área de imagem selecionada pelo usuário é extraído e o gráfico do perfil é usado como as informações de característica de formato.

[0083] Em conformidade, o objeto-alvo representado pelo nome do objeto-alvo pode ser buscado de acordo com as informações de característica de formato extraídas. Por exemplo, a busca é realizada de acordo com o nome de formato ou o gráfico.

[0084] Para outro exemplo, se a categoria de característica for uma marca, uma identidade de marca na área de imagem selecionada pelo usuário é extraída e usada como informações de característica de marca, em que a identidade de marca pode ser um nome de marca ou um logo de marca.

[0085] Em conformidade, o objeto-alvo representado pelo nome do objeto-alvo pode ser buscado de acordo com as informações de característica de marca extraídas. Por exemplo, a busca é realizada de acordo com o nome de marca ou o logo de marca.

[0086] Para outro exemplo, se a categoria de característica for um preço, informações de número na área de imagem selecionada pelo usuário são extraídas e as informações de número são usadas como informações de característica de preço.

[0087] Em conformidade, a busca pode ser realizada de acordo com as informações de característica de preço extraídas.

[0088] Para outro exemplo, se a categoria de característica for uma imagem, a área de imagem autosselecionada pelo usuário pode ser usada como informações de característica de imagem.

[0089] Em conformidade, o objeto-alvo representado pelo nome do objeto-alvo pode ser buscado de uma maneira de busca de imagem de acordo com a área de imagem selecionada pelo usuário.

[0090] Os métodos anteriores para busca de objeto mostrados na Figura 1 e na Figura 2 podem ser combinados, ou seja, a busca pelo objeto-alvo pode ser uma busca por um conjunto de objetos armazenados de modo local ou pode ser uma busca na Internet.

[0091] Especificamente, a busca pode ser realizada pelo terminal ou pode ser realizada pelo servidor, por exemplo, um servidor de nuvem. Quando a busca é realizada pelo servidor, a categoria de característica e o nome do objeto-alvo que são inseridos pelo usuário e a área de imagem selecionada pelo usuário pode ser enviada para o servidor pelo terminal ou as etapas correspondentes podem ser executadas pelo terminal e pelo servidor, juntos.

[0092] De modo alternativo, o terminal pode determinar, de acordo com as categorias de característica diferentes, se as etapas correspondentes forem executadas pelo terminal ou pelo servidor. Por exemplo, para algumas categorias de característica, após extrair as informações de característica das categorias de característica da área de imagem selecionada pelo usuário, o terminal pode enviar as informações de característica extraídas e o nome do objeto-alvo para o servidor e, então, o servidor busca, de acordo com as informações de característica recebidas, pelo objeto-alvo representado pelo nome do objeto-alvo, para obter um resultado de busca e retorna o resultado de busca para o terminal.

[0093] Uma modalidade específica a seguir é usada para descrever em detalhes os métodos fornecidos na presente invenção em referência aos desenhos anexos.

[0094] A Figura 3 é um fluxograma detalhado de um método para busca de objeto de acordo com uma modalidade da presente invenção, em que o método especificamente inclui as etapas a seguir:

[0095] Etapa 301. Um terminal recebe entrada de voz e entrada de gesto que são de um usuário.

[0096] Nessa etapa, a entrada de voz e a entrada de gesto que são realizadas de modo simultâneo pelo usuário podem ser recebidas.

[0097] De modo alternativo, a entrada de voz do usuário pode ser recebida, e quando for determinado que nenhuma entrada de gesto é realizada pelo usuário e nenhuma área de imagem for selecionada, o usuário é instruído a realizar uma operação de selecionar uma área de imagem e a entrada de gesto do usuário é recebida.

[0098] De modo alternativo, a entrada de gesto do usuário pode ser recebida e quando for determinado que nenhuma entrada de voz é realizada pelo usuário, o usuário é instruído a realizar uma operação de entrada de voz e a entrada de voz do usuário é recebida.

[0099] Etapa 302. O terminal determina, de acordo com a entrada de voz do usuário, um nome de um objeto-alvo o qual o usuário espera buscar e uma categoria de característica do objeto-alvo.

[00100] Nessa etapa, a categoria de característica e o nome do objeto-alvo podem ser determinados ao realizar a análise semântica em informações de voz inseridas pelo usuário.

[00101] Nessa modalidade da presente invenção, a categoria de característica que pode ser inserida pelo usuário pode ser definida de modo flexível de acordo com uma característica do objeto-alvo e um cenário de aplicativo dessa solução. Por exemplo, quando um artigo é buscado, a categoria de característica pode incluir: uma cor, um formato, um preço, uma marca, uma imagem e similares, e o nome de entrada do objeto-alvo pode ser um nome de artigo do artigo que se espera que seja buscado.

[00102] Etapa 303. O terminal adquire uma área de imagem selecionada pelo usuário por meio da entrada de gesto.

[00103] Nessa etapa, o terminal pode adquirir uma área de imagem selecionada pelo usuário de uma imagem designada e uso da área de imagem como a área de imagem selecionada pelo usuário ou pode adquirir uma imagem atual obtida ao ser fotografada pelo usuário e uso da imagem como a área de imagem selecionada pelo usuário.

[00104] Não há ordem estrita entre a etapa 302 e a etapa 303 anteriores.

[00105] Etapa 304. O terminal determina se a categoria de característica inserida pelo usuário é uma categoria de característica predefinida. Se a categoria de característica inserida pelo usuário for a categoria de característica predefinida, ir para a etapa 305, e se a categoria de característica inserida pelo usuário não for a categoria de característica predefinida, ir para a etapa 307.

[00106] Nessa modalidade da presente invenção, para a categoria de característica inserida pelo usuário, uma característica da categoria de característica da área de imagem selecionada pelo usuário pode ser extraída pelo terminal ou pode ser extraída por um servidor. De modo alternativo, algumas categorias de característica podem ser extraídas pelo terminal e algumas outras categorias de característica podem ser extraídas pelo servidor. Portanto, uma categoria de característica cujas informações de característica são extraídas pelo terminal pode ser definida como a categoria de característica predefinida e a determinação anterior é realizada nessa etapa.

[00107] Por exemplo, a cor na cor anterior, formato, preço, marca e imagem é usada como a categoria de característica predefinida.

[00108] Etapa 305. Quando a categoria de característica inserida pelo usuário for a categoria de característica predefinida, o terminal extrai as informações de característica da categoria de característica da área de imagem selecionada pelo usuário.

[00109] Por exemplo, para uma cor, as informações de característica de cor da área de imagem selecionada pelo usuário são extraídas. Para detalhes, pode ser feita referência à descrição anterior.

[00110] Etapa 306. O terminal envia, para um servidor, as informações de característica extraídas da categoria de característica e o nome, inserido pelo usuário, do objeto-alvo.

[00111] Etapa 307. O terminal envia, para o servidor, as informações de categoria da categoria de característica inseridas pelo usuário, o nome do objeto-alvo e a área de imagem selecionada pelo usuário.

[00112] Etapa 308. Após receber as informações de categoria, o nome do objeto-alvo e a área de imagem, o servidor extrai, da área de imagem, as informações de característica da categoria de característica representadas pelas informações de categoria.

[00113] Por exemplo, para detalhes sobre as informações de característica correspondentes que são da área de imagem selecionada pelo usuário e extraídas de uma cor, um preço e uma marca, pode ser feita referência à descrição anterior.

[00114] Além disso, adicionalmente, quando a categoria de característica for uma imagem, a área de imagem recebida pode ser diretamente usada como informações de característica de imagem.

[00115] Etapa 309. Após receber as informações de característica que são da categoria de característica e enviadas pelo terminal, ou após extrair as informações de característica da categoria de característica representadas pelas informações de categoria, o servidor busca, de acordo com as informações de característica extraídas, pelo objeto-alvo representado pelo nome do objeto-alvo, para obter um resultado de busca.

[00116] O resultado de busca é um objeto-alvo que tem as informações de característica da categoria de característica.

[00117] Etapa 310. O servidor retorna o resultado de busca para o terminal.

[00118] Etapa 311. Após receber o resultado de busca retornado pelo servidor, o terminal exibe o resultado de busca para o usuário.

[00119] Ao usar o método anterior para busca de objeto fornecido nessa modalidade da presente invenção, quando realiza uma busca, um usuário apenas precisa realizar entrada de voz e entrada de gesto, e apenas precisa inserir uma categoria de característica e um nome de um objeto-alvo e selecionar uma área de imagem e, então, um critério de busca correspondente pode ser determinado por um terminal ou um servidor, e o objeto-alvo pode ser buscado de acordo com o critério de busca sem exigir que o usuário descreva claramente o critério de busca. Dessa maneira, uma maneira de busca mais flexível é fornecida para o usuário e uma restrição em um cenário de aplicativo é reduzida durante a busca.

[00120] Por exemplo, quando o usuário percebe uma cor muito bonita em uma imagem e deseja buscar por uma carteira dessa cor, é muito provável que um nome de cor clara pode não ser fornecido devido ao fato de que a cor é muito especial. Nesse caso, a busca pode ser realizada mediante o uso do método anterior fornecido nessa modalidade da presente invenção.

[00121] Para outro exemplo, quando o usuário deseja buscar por sapatos de uma marca particular, mas não sabe o nome da marca, e tem apenas uma imagem incluindo um logo de marca da marca, o método anterior fornecido nessa modalidade da presente invenção pode ser usado para selecionar uma área de imagem, incluindo o logo de marca da imagem e a área de imagem é usada como uma imagem selecionada para realizar a busca.

[00122] Com base em um mesmo conceito de invenção e de acordo com os métodos para busca de objeto fornecidos nas modalidades anteriores da presente invenção, em conformidade, essa modalidade da presente invenção fornece adicionalmente um aparelho para busca de objeto, cujo diagrama estrutural esquemático é mostrado na Figura 4. O aparelho inclui especificamente:

[00123] uma primeira unidade de recebimento 401, configurada para receber entrada de voz e entrada de gesto que são de um usuário;

[00124] uma primeira unidade de determinação 402, configurada para determinar, de acordo com a entrada de voz, um nome de um objeto-alvo o qual o usuário espera buscar e uma categoria de característica do objeto-alvo;

[00125] uma unidade de extração 403, configurada para extrair informações de característica da categoria de característica de uma área de imagem selecionada pelo usuário por meio da entrada de gesto; e

[00126] uma primeira unidade de busca 404, configurada para buscar pelo objeto-alvo de acordo com as informações de característica extraídas e o nome do objeto-alvo.

[00127] Adicionalmente, a primeira unidade de busca 404 é especificamente configurada para: enviar as informações de característica e o nome do objeto-alvo para um servidor e receber um resultado de busca retornado pelo servidor, em que o resultado de busca é obtido pelo servidor ao buscar, de acordo com as informações de característica, pelo objeto-alvo representado pelo nome do objeto- alvo.

[00128] Adicionalmente, a primeira unidade de recebimento 401 é especificamente configurada para: receber entrada de voz e entrada de gesto que são realizadas de modo simultâneo pelo usuário; ou receber entrada de voz do usuário e quando for determinado que nenhuma entrada de gesto é realizada pelo usuário e nenhuma área de imagem é selecionada, instruir o usuário a realizar uma operação de selecionar uma área de imagem, e receber entrada de gesto do usuário; ou receber entrada de gesto do usuário, e quando for determinado que nenhuma entrada de voz é realizada pelo usuário, instruir o usuário a realizar uma operação de entrada de voz e receber entrada de voz do usuário.

[00129] Adicionalmente, a primeira unidade de determinação 402 é adicionalmente configurada para: adquirir uma área de imagem selecionada a partir de uma imagem designada pelo usuário por meio da entrada de gesto e uso da área de imagem como a área de imagem selecionada pelo usuário; ou adquirir uma imagem que é obtida ao ser fotografada pelo usuário por meio da entrada de gesto e uso da área de imagem como a área de imagem selecionada pelo usuário.

[00130] As funções das unidades da Figura 4 anterior podem corresponder às etapas de processamento correspondentes do procedimento mostrado na Figura 1 ou na Figura 3, e não serão descritos detalhes no presente documento novamente.

[00131] Com base em um mesmo conceito de invenção e de acordo com os métodos para busca de objeto fornecidos nas modalidades anteriores da presente invenção, em conformidade, essa modalidade da presente invenção fornece adicionalmente um aparelho para busca de objeto, cujo diagrama estrutural esquemático é mostrado na Figura 5. O aparelho inclui especificamente:

[00132] uma segunda unidade de recebimento 501, configurada para receber entrada de voz e entrada de gesto que são de um usuário;

[00133] uma segunda unidade de determinação 502, configurada para determinar, de acordo com a entrada de voz, um nome de um objeto-alvo o qual o usuário espera buscar e uma categoria de característica do objeto-alvo;

[00134] uma unidade de envio 503, configurada para enviar, para um servidor, informações de categoria da categoria de característica, o nome do objeto-alvo e uma área de imagem que é selecionada pelo usuário por meio da entrada de gesto; e

[00135] uma terceira unidade de recebimento 504, configurada para receber um resultado de busca retornado pelo servidor, em que o resultado de busca é obtido pelo servidor ao buscar pelo objeto-alvo representado pelo nome do objeto-alvo, em que uma característica da categoria de característica que é da área de imagem e representada pelas informações de categoria é usada como um critério de busca.

[00136] Adicionalmente, a segunda unidade de recebimento 501 é especificamente configurada para: receber entrada de voz e entrada de gesto que são realizadas de modo simultâneo pelo usuário; ou receber entrada de voz do usuário e quando for determinado que nenhuma entrada de gesto é realizada pelo usuário e nenhuma área de imagem é selecionada, instruir o usuário a realizar uma operação de selecionar uma área de imagem, e receber entrada de gesto do usuário; ou receber entrada de gesto do usuário, e quando for determinado que nenhuma entrada de voz é realizada pelo usuário, instruir o usuário a realizar uma operação de entrada de voz e receber entrada de voz do usuário.

[00137] Adicionalmente, a segunda unidade de determinação 502 é adicionalmente configurada para: adquirir uma área de imagem selecionada a partir de uma imagem designada pelo usuário por meio da entrada de gesto e uso da área de imagem como a área de imagem selecionada pelo usuário; ou adquirir uma imagem que é obtida ao ser fotografada pelo usuário por meio da entrada de gesto e uso da área de imagem como a área de imagem selecionada pelo usuário.

[00138] As funções das unidades da Figura 5 anterior podem corresponder às etapas de processamento correspondentes do procedimento mostrado na Figura 2 ou na Figura 3, e não serão descritos detalhes no presente documento novamente.

[00139] Em conclusão, as soluções fornecidas nas modalidades da presente invenção incluem: receber entrada de voz e entrada de gesto que são de um usuário; determinar, de acordo com a entrada de voz, um nome de um objeto-alvo o qual o usuário espera buscar e uma categoria de característica do objeto-alvo; extrair informações de característica da categoria de característica de uma área de imagem selecionada pelo usuário por meio da entrada de gesto; e buscar pelo objeto-alvo de acordo com as informações de característica extraídas e o nome do objeto-alvo. As soluções fornecidas nas modalidades da presente invenção podem fornecer para um usuário uma maneira de busca mais flexível e reduzir a restrição em um cenário de aplicativo durante a busca.

[00140] Pessoas versadas na técnica devem entender que as modalidades da presente invenção podem ser fornecidas como um método, um sistema ou um produto de programa de computador. Portanto, a presente invenção pode usar uma forma de modalidades apenas de hardware, modalidades apenas de software ou modalidades com uma combinação de software e hardware. Além disso, a presente invenção pode usar uma forma de um produto de programa de computador que é implantado em um ou mais meios de armazenamento usáveis de computador (incluindo, porém, sem limitação uma memória de disco, um CD-ROM, uma memória óptica e similares) que incluem código de programa usável de computador.

[00141] A presente invenção é descrita em referência aos fluxogramas e/ou diagramas de blocos do método, o dispositivo (sistema) e o produto de programa de computador de acordo com as modalidades da presente invenção. Deve ser entendido que instruções de programa de computador podem ser usadas para implantar cada processo e/ou cada bloco nos fluxogramas e/ou nos diagramas de blocos e uma combinação de um processo e/ou um bloco nos fluxogramas e/ou nos diagramas de blocos. Essas instruções de programa de computador podem ser fornecidas por um computador de propósito geral, um computador dedicado, um processador incorporado ou um processador de qualquer outro dispositivo de processamento de dados programável para gerar uma máquina, de modo que as instruções executadas por um computador ou um processador de qualquer outro dispositivo de processamento de dados programável gera um aparelho para implantar uma função específica em um ou mais processos nos fluxogramas e/ou em um ou mais blocos nos diagramas de blocos.

[00142] Essas instruções de programa de computador também podem ser armazenadas em uma memória legível por computador que pode instruir o computador ou qualquer outro dispositivo de processamento de dados programável a trabalhar de uma maneira específica, de modo que as instruções armazenadas na memória legível por computador gerem um artefato que inclui um aparelho de instrução. O aparelho de instrução implanta uma função específica em um ou mais processos nos fluxogramas e/ou em um ou mais blocos nos diagramas de blocos.

[00143] Essas instruções de programa de computador também podem ser carregadas em um computador ou outro dispositivo de processamento de dados programável, de modo que diversas operações e etapas sejam realizadas no computador ou o outro dispositivo programável gerando, desse modo, processamento implantado por computador. Portanto, as instruções executadas no computador ou o outro dispositivo programável fornecem etapas para implantar uma função específica em um ou mais processos nos fluxogramas e/ou em um ou mais blocos nos diagramas de blocos.

[00144] Embora algumas modalidades preferenciais da presente invenção tenham sido descritas, pessoas versadas na técnica podem realizar alterações e modificações nessas modalidades, uma vez que as mesmas aprendem o conceito inventivo básico. Portanto, as concretizações a seguir se destinam a ser interpretadas de modo a cobrir as modalidades preferenciais e todas as alterações e modificações que estão dentro do escopo da presente invenção.

[00145] Obviamente, pessoas versadas na técnica podem realizar diversas modificações e variações à presente invenção sem se afastar do espírito e escopo da presente invenção. A presente invenção se destina a cobrir essas modificações e variações providas desde que as mesmas estejam dentro do escopo de proteção definido pelas concretizações a seguir e suas tecnologias equivalentes.

Claims

1. Método para busca de objeto, implementado por um terminal acoplado de forma comunicativa a um servidor, o método caracterizado pelo fato de que compreende etapas de: receber (101), pelo terminal, entrada de voz e entrada de gesto a partir de um usuário; determinar (102), pelo terminal, um nome de um objeto-alvo que o usuário espera buscar e uma categoria de característica do objeto-alvo de acordo com a entrada de voz; determinar, pelo terminal, se o nome do objeto-alvo e a categoria de característica do objeto-alvo correspondem a uma categoria predefinida; extrair, pelo terminal, informações de características extraídas localmente no terminal de acordo com o nome do objeto- alvo, a categoria de característica do objeto-alvo, e uma imagem correspondendo à entrada de gesto e enviar as informações de característica extraídas e o nome do objeto-alvo para o servidor quando o nome do objeto-alvo e a categoria de característica do objeto-alvo correspondem à categoria predefinida; enviar, pelo terminal, o nome do objeto-alvo, a categoria de característica do objeto-alvo, e a imagem correspondendo à entrada de gesto ao servidor para permitir que o servidor extraia as informações de característica extraídas quando o nome do objeto-alvo e a categoria de característica do objeto-alvo correspondem à categoria predefinida; receber, pelo terminal, um resultado de busca a partir do servidor que corresponde às informações de característica extraídas e a imagem correspondendo à entrada de gesto; e exibir, pelo terminal, o resultado de busca.

2. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a etapa de receber (101) a entrada de voz e a entrada de gesto a partir do usuário compreende receber a entrada de voz e a entrada de gesto que são simultaneamente recebidas a partir do usuário.

3. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que ainda compreende uma etapa de adquirir uma área de imagem a partir da entrada de gesto do usuário ao: adquirir a área de imagem que é selecionada a partir de uma imagem designada correspondendo à entrada de gesto; e usar a área de imagem como a imagem a partir do usuário.

4. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a etapa de receber (101) a entrada de voz e a entrada de gesto a partir do usuário compreende pelo menos um dentre: receber a entrada de voz e a entrada de gesto que são simultaneamente recebidas a partir do usuário; receber a entrada de voz a partir do usuário, e quando nenhuma entrada de gesto for executada pelo usuário e nenhuma área de imagem for selecionada, instruir ao usuário executar uma operação de selecionar uma área de imagem, e receber entrada de gesto a partir do usuário; ou receber a entrada de gesto a partir do usuário, e quando nenhuma entrada de voz for executada pelo usuário, instruir ao usuário executar uma operação de entrada de voz, e receber a entrada de voz a partir do usuário.

5. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a etapa de receber (101) a entrada de voz e a entrada de gesto a partir do usuário compreende receber a entrada de voz a partir do usuário, e quando nenhuma entrada de gesto for executada pelo usuário e nenhuma área de imagem for selecionada, instruir ao usuário executar uma operação de selecionar uma área de imagem, e receber a entrada de gesto a partir do usuário.

6. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a etapa de receber (101) a entrada de voz e a entrada de gesto a partir do usuário compreende receber a entrada de gesto do usuário, e quando nenhuma entrada de voz for executada pelo usuário, instruir ao usuário executar uma operação de entrada de voz, e receber a entrada de voz a partir do usuário.

7. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que ainda compreende uma etapa de adquirir uma área de imagem selecionada pelo usuário como a entrada de gesto, e adquirir a imagem compreende pelo menos um dentre: adquirir uma área de imagem que é selecionada a partir de uma imagem designada pelo usuário como uma entrada de gesto, e usar a área de imagem como a área de imagem selecionada pelo usuário; ou adquirir uma imagem que é obtida ao fotografar a partir do usuário como uma entrada de gesto, e usar a imagem obtida como a área de imagem selecionada pelo usuário.

8. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que ainda compreende uma etapa de adquirir uma área de imagem selecionada pelo usuário como a entrada de gesto, e adquirir a imagem compreende: adquirir uma imagem que é obtida ao fotografar a partir do usuário como uma entrada de gesto; e usar a imagem obtida como a área de imagem selecionada pelo usuário.

9. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a entrada de gesto a partir do usuário compreende um gráfico de um perfil de uma forma irregular inserido pelo usuário.

10. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a entrada de gesto a partir do usuário compreende um logotipo de marca em uma fotografia tirada pelo usuário.

11. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a entrada de gesto a partir do usuário compreende um valor de pixel selecionado pelo usuário a partir de um histograma de cores exibido no terminal.

12. Terminal acoplado de forma comunicativa a um servidor caracterizado pelo fato de que compreende: um receptor, configurado para receber entrada de voz e entrada de gesto a partir de um usuário; um processador acoplado ao receptor e configurado para determinar um nome de um objeto-alvo que o usuário espera buscar e uma categoria de característica do objeto-alvo de acordo com a entrada de voz; determinar se o nome do objeto-alvo e a categoria de característica do objeto-alvo correspondem a uma categoria predefinida; extrair informações de características extraídas localmente no terminal de acordo com o nome do objeto- alvo, a categoria de característica do objeto-alvo, e uma imagem correspondendo à entrada de gesto e enviar as informações de característica extraídas e o nome do objeto- alvo para o servidor quando o nome do objeto-alvo e a categoria de característica do objeto-alvo correspondem à categoria predefinida; enviar o nome do objeto-alvo, a categoria de característica do objeto-alvo, e a imagem correspondendo à entrada de gesto ao servidor para permitir que o servidor extraia as informações de característica extraídas quando o nome do objeto-alvo e a categoria de característica do objeto-alvo correspondem à categoria predefinida; receber um resultado de busca a partir do servidor que corresponde às informações de característica extraídas e a imagem correspondendo à entrada de gesto; e exibir o resultado de busca.

13. Terminal, de acordo com a reivindicação 12, caracterizado pelo fato de que o receptor é ainda configurado para executar um dentre: receber a entrada de voz e a entrada de gesto que são simultaneamente recebidas a partir do usuário; receber a entrada de voz a partir do usuário, e quando nenhuma entrada de gesto for executada pelo usuário e nenhuma área de imagem for selecionada, instruir ao usuário executar uma operação de selecionar uma área de imagem, e receber entrada de gesto a partir do usuário; ou receber a entrada de gesto a partir do usuário, e quando nenhuma entrada de voz for executada pelo usuário, instruir ao usuário executar uma operação de entrada de voz, e receber a entrada de voz a partir do usuário.

14. Terminal, de acordo com a reivindicação 12, caracterizado pelo fato de que o processador é ainda configurado para executar um dentre: adquirir uma área de imagem que é selecionada a partir de uma imagem designada pelo usuário como uma entrada de gesto, e usar a área de imagem como a área de imagem selecionada pelo usuário; ou adquirir uma imagem que é obtida ao fotografar a partir do usuário como uma entrada de gesto, e usar a imagem obtida como a área de imagem selecionada pelo usuário.

15. Método para busca de objeto, implementado por um terminal acoplado de forma comunicativa a um servidor, o método caracterizado pelo fato de que compreende etapas de: receber (201), pelo terminal, entrada de voz e entrada de gesto a partir de um usuário; determinar (202), pelo terminal, um nome de um objeto-alvo que o usuário espera buscar e uma categoria de característica do objeto-alvo de acordo com a entrada de voz; determinar, pelo terminal, se o nome do objeto-alvo e a categoria de característica do objeto-alvo correspondem a uma categoria predefinida; extrair, pelo terminal, informações de características extraídas localmente no terminal de acordo com o nome do objeto- alvo, a categoria de característica do objeto-alvo, e uma imagem correspondendo à entrada de gesto e enviar as informações de característica extraídas e o nome do objeto-alvo para o servidor quando o nome do objeto-alvo e a categoria de característica do objeto-alvo correspondem à categoria predefinida; enviar, pelo terminal, o nome do objeto-alvo, a categoria de característica do objeto-alvo, e uma imagem de área que correspondem à entrada de gesto ao servidor para permitir que o servidor extraia as informações de característica extraídas quando o nome do objeto-alvo e a categoria de característica do objeto-alvo correspondem à categoria predefinida; e receber, pelo terminal, um resultado de busca a partir do servidor, o resultado de busca sendo obtido pelo servidor ao buscar pelo objeto-alvo representado pelo nome do objeto-alvo, e uma característica da categoria de característica que é da área de imagem e representada pelas informações de característica é usada como um critério de busca.

16. Método, de acordo com a reivindicação 15, caracterizado pelo fato de que a etapa de receber (201) a entrada de voz e a entrada de gesto a partir do usuário compreende pelo menos um dentre: receber a entrada de voz e a entrada de gesto que são simultaneamente recebidas a partir do usuário; receber a entrada de voz a partir do usuário, e quando nenhuma entrada de gesto for executada pelo usuário e nenhuma área de imagem for selecionada, instruir ao usuário executar uma operação de selecionar uma área de imagem, e receber entrada de gesto a partir do usuário; ou receber a entrada de gesto a partir do usuário, e quando nenhuma entrada de voz for executada pelo usuário, instruir ao usuário executar uma operação de entrada de voz, e receber a entrada de voz a partir do usuário.

17. Método, de acordo com a reivindicação 15, caracterizado pelo fato de que ainda compreende uma etapa de adquirir uma área de imagem selecionada pelo usuário como a entrada de gesto, e adquirir a imagem compreende pelo menos um dentre: adquirir uma área de imagem que é selecionada a partir de uma imagem designada pelo usuário como uma entrada de gesto, e usar a área de imagem como a área de imagem selecionada pelo usuário; ou adquirir uma imagem que é obtida ao fotografar a partir do usuário como uma entrada de gesto, e usar a imagem obtida como a área de imagem selecionada pelo usuário.

18. Terminal acoplado de forma comunicativa a um servidor caracterizado pelo fato de que compreende: um receptor, configurado para receber entrada de voz e entrada de gesto a partir de um usuário; um processador acoplado ao receptor e configurado para determinar um nome de um objeto-alvo que o usuário espera buscar e uma categoria de característica do objeto-alvo de acordo com a entrada de voz; determinar se o nome do objeto-alvo e a categoria de característica do objeto-alvo correspondem a uma categoria predefinida; extrair informações de características extraídas localmente no terminal de acordo com o nome do objeto- alvo, a categoria de característica do objeto-alvo, e uma imagem correspondendo à entrada de gesto e enviar as informações de característica extraídas e o nome do objeto- alvo para o servidor quando o nome do objeto-alvo e a categoria de característica do objeto-alvo correspondem à categoria predefinida; enviar, pelo terminal, o nome do objeto-alvo, a categoria de característica do objeto-alvo, e uma imagem de área que correspondem à entrada de gesto ao servidor para permitir que o servidor extraia as informações de característica extraídas quando o nome do objeto-alvo e a categoria de característica do objeto-alvo correspondem à categoria predefinida; e receber, pelo terminal, um resultado de busca a partir do servidor, o resultado de busca sendo obtido pelo servidor ao buscar pelo objeto-alvo representado pelo nome do objeto-alvo, e uma característica da categoria de característica que é da área de imagem e representada pelas informações de característica é usada como um critério de busca.

19. Terminal, de acordo com a reivindicação 18, caracterizado pelo fato de que o receptor é ainda configurado para executar um dentre: receber a entrada de voz e a entrada de gesto que são simultaneamente recebidas a partir do usuário; receber a entrada de voz a partir do usuário, e quando nenhuma entrada de gesto for executada pelo usuário e nenhuma área de imagem for selecionada, instruir ao usuário executar uma operação de selecionar uma área de imagem, e receber entrada de gesto a partir do usuário; ou receber a entrada de gesto a partir do usuário, e quando nenhuma entrada de voz for executada pelo usuário, instruir ao usuário executar uma operação de entrada de voz, e receber a entrada de voz a partir do usuário.

20. Terminal, de acordo com a reivindicação 18, caracterizado pelo fato de que o processador é ainda configurado para executar um dentre: adquirir uma área de imagem que é selecionada a partir de uma imagem designada pelo usuário como uma entrada de gesto, e usar a área de imagem como a área de imagem selecionada pelo usuário; ou adquirir uma imagem que é obtida ao fotografar a partir do usuário como uma entrada de gesto, e usar a imagem obtida como a área de imagem selecionada pelo usuário.