BR112016017262B1 - Método para busca de objeto e terminal acoplado de forma comunicativa a um servidor. - Google Patents

Método para busca de objeto e terminal acoplado de forma comunicativa a um servidor. Download PDF

Info

Publication number
BR112016017262B1
BR112016017262B1 BR112016017262-0A BR112016017262A BR112016017262B1 BR 112016017262 B1 BR112016017262 B1 BR 112016017262B1 BR 112016017262 A BR112016017262 A BR 112016017262A BR 112016017262 B1 BR112016017262 B1 BR 112016017262B1
Authority
BR
Brazil
Prior art keywords
user
target object
gesture input
image area
name
Prior art date
Application number
BR112016017262-0A
Other languages
English (en)
Other versions
BR112016017262A2 (pt
Inventor
Yan Li
Xiaojuan Li
Wenmei Gao
Original Assignee
Huawei Technologies Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co., Ltd. filed Critical Huawei Technologies Co., Ltd.
Publication of BR112016017262A2 publication Critical patent/BR112016017262A2/pt
Publication of BR112016017262B1 publication Critical patent/BR112016017262B1/pt

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2428Query predicate definition using graphical user interfaces, including menus and forms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/0482Interaction with lists of selectable items, e.g. menus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04842Selection of displayed objects or displayed text elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • G06F3/04883Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures for inputting data by handwriting, e.g. gesture or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/038Indexing scheme relating to G06F3/038
    • G06F2203/0381Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

MÉTODO E APARELHO PARA BUSCA DE OBJETO. Método e aparelho para busca de objeto, em que o método inclui: receber (101) entrada de voz e entrada de gesto de um usuário; determinar (102), de acordo com a entrada de voz, um nome de um objeto-alvo o qual o usuário espera buscar e um tipo de característica do objeto-alvo; extrair (103) informações de característica do tipo de característica de uma região de imagem selecionada através da entrada de gesto pelo usuário; e buscar (104) pelo objeto-alvo de acordo com as informações de característica extraídas e o nome do objeto-alvo. As soluções fornecidas em uma modalidade da presente invenção podem fornecer a um usuário um modo de busca mais flexível, e reduzir uma restrição em um cenário de aplicativo durante uma busca.

Description

CAMPO DA TÉCNICA
[001] A presente invenção refere-se ao campo de tecnologias de busca no campo de tecnologias de computador e, em particular, a um método e a um aparelho para busca de objeto.
ANTECEDENTES
[002] Atualmente, quando busca um objeto-alvo a ser buscado mediante o uso de uma rede, geralmente, um usuário insere ou seleciona algum critério de busca conhecido para o objeto-alvo e, então, busca pelo objeto-alvo de acordo com o critério de busca. Por exemplo, a busca pode ser realizada de acordo com uma faixa de preço do objeto-alvo ou a busca pode ser realizada de acordo com uma área a qual o objeto-alvo pertence.
[003] Na solução anterior de busca por objeto, é exigido que um usuário tenha capacidade de descrever claramente um critério de busca no qual uma busca é baseada. Por exemplo, o critério de busca pode ser selecionado a partir de algum critério predefinido ou pode ser inserido diretamente. No entanto, em um aplicativo atual, quando busca um objeto-alvo, um usuário pode não ter capacidade de descrever de modo claro um critério de busca esperado pelo usuário. Por exemplo, o usuário espera buscar por um objeto de uma cor particular, mas a cor pode não ser descrita de modo preciso mediante o uso de um nome de uma cor conhecida ou o usuário espera buscar por um objeto de um formato particular, mas o formato não é regular. Consequentemente, nesse caso, o usuário não pode buscar pelo objeto-alvo esperado pelo usuário; além disso, mesmo se a busca for realizada, é possível que um resultado de busca não cumpra uma intenção de busca do usuário devido ao fato de que o critério de busca não é preciso levando, dessa maneira, a um efeito de busca relativamente insuficiente. Um método para busca de objeto na técnica anterior não pode fornecer ao usuário uma maneira de busca mais flexível e é, de modo relativo, amplamente restrito por um cenário de aplicativo.
SUMÁRIO
[004] As modalidades da presente invenção fornecem um método e um aparelho para busca de objeto, para solucionar um problema na técnica anterior que uma maneira de busca mais flexível pode não ser fornecida para um usuário e uma restrição em um cenário de aplicativo é relativamente grande.
[005] De acordo com um primeiro aspecto, um método para busca de objeto é fornecido, incluindo:
[006] receber entrada de voz e entrada de gesto que são de um usuário;
[007] determinar, de acordo com a entrada de voz, um nome de um objeto-alvo o qual o usuário espera buscar e uma categoria de característica do objeto-alvo;
[008] extrair informações de característica da categoria de característica de uma área de imagem selecionada pelo usuário por meio da entrada de gesto; e
[009] buscar o objeto-alvo de acordo com as informações de característica extraídas e o nome do objeto-alvo.
[0010] Em referência ao primeiro aspecto, em uma primeira maneira de implantação possível, a busca pelo objeto-alvo de acordo com as informações de característica extraídas e o nome do objeto- alvo especificamente incluem:
[0011] enviar as informações de característica e o nome do objeto- alvo para um servidor; e
[0012] receber um resultado de busca retornado para o servidor, em que o resultado de busca é obtido pelo servidor ao buscar, de acordo com as informações de característica, pelo objeto-alvo representado pelo nome do objeto-alvo.
[0013] Em referência ao primeiro aspecto ou à primeira maneira de implantação possível do primeiro aspecto, em uma segunda maneira de implantação possível, o recebimento da entrada de voz e da entrada de gesto que são de um usuário especificamente inclui:
[0014] receber entrada de voz e entrada de gesto que são realizadas simultaneamente pelo usuário; ou
[0015] receber entrada de voz do usuário e quando for determinado que nenhuma entrada de gesto é realizada pelo usuário e nenhuma área de imagem é selecionada, instruir o usuário a realizar uma operação de selecionar uma área de imagem e receber entrada de gesto do usuário; ou
[0016] receber entrada de gesto do usuário e quando for determinado que nenhuma entrada de voz é realizada pelo usuário, instruir o usuário a realizar uma operação de entrada de voz e receber entrada de voz do usuário.
[0017] Em referência ao primeiro aspecto ou à primeira maneira de implantação possível do primeiro aspecto, em uma terceira maneira de implantação possível, adquirir a área de imagem selecionada pelo usuário por meio da entrada de gesto inclui:
[0018] adquirir uma área de imagem que é selecionada a partir de uma imagem designada pelo usuário por meio da entrada de gesto e usar a área de imagem como a área de imagem selecionada pelo usuário; ou
[0019] adquirir uma imagem que é obtida ao ser fotografada pelo usuário por meio da entrada de gesto e usar a área de imagem como a área de imagem selecionada pelo usuário.
[0020] De acordo com um segundo aspecto, um aparelho para busca de objeto é fornecido, incluindo:
[0021] uma primeira unidade de recebimento, configurada para receber entrada de voz e entrada de gesto que são de um usuário;
[0022] uma primeira unidade de determinação, configurada para determinar, de acordo com a entrada de voz, um nome de um objeto- alvo o qual o usuário espera buscar e uma categoria de característica do objeto-alvo;
[0023] uma unidade de extração, configurada para extrair informações de característica da categoria de característica de uma área de imagem selecionada pelo usuário por meio da entrada de gesto; e
[0024] uma primeira unidade de busca, configurada para buscar pelo objeto-alvo de acordo com as informações de característica extraídas e o nome do objeto-alvo.
[0025] Em referência ao segundo aspecto, em uma primeira maneira de implantação possível, a primeira unidade de busca é especificamente configurada para: enviar as informações de característica e o nome do objeto-alvo para um servidor e receber um resultado de busca retornado pelo servidor, em que o resultado de busca é obtido pelo servidor ao buscar, de acordo com as informações de característica, pelo objeto-alvo representado pelo nome do objeto- alvo.
[0026] Em referência ao segundo aspecto ou à primeira maneira de implantação possível do segundo aspecto, em uma segunda maneira de implantação possível, a primeira unidade de recebimento é especificamente configurada para: receber entrada de voz e entrada de gesto que são realizadas de modo simultâneo pelo usuário; ou receber entrada de voz do usuário, e quando for determinado que nenhuma entrada de gesto é realizada pelo usuário e nenhuma área de imagem é selecionada, instruir o usuário a realizar uma operação de selecionar uma área de imagem, e receber entrada de gesto do usuário; ou receber entrada de gesto do usuário e quando for determinado que nenhuma entrada de voz é realizada pelo usuário, instruir o usuário a realizar uma operação de entrada de voz e receber entrada de voz do usuário.
[0027] Em referência ao segundo aspecto ou à primeira maneira de implantação possível do segundo aspecto, em uma terceira maneira de implantação possível, a primeira unidade de determinação é adicionalmente configurada para adquirir uma área de imagem que é selecionada a partir de uma imagem designada pelo usuário por meio da entrada de gesto e uso da área de imagem como a área de imagem selecionada pelo usuário; ou adquirir uma imagem que é obtida ao ser fotografada pelo usuário por meio da entrada de gesto e uso da área de imagem como a área de imagem selecionada pelo usuário.
[0028] De acordo com um terceiro aspecto, um método para busca de objeto é fornecido, incluindo:
[0029] receber entrada de voz e entrada de gesto que são de um usuário;
[0030] determinar, de acordo com a entrada de voz, um nome de um objeto-alvo o qual o usuário espera buscar e uma categoria de característica do objeto-alvo;
[0031] enviar, para um servidor, informações de categoria da categoria de característica, o nome do objeto-alvo e uma área de imagem que é selecionada pelo usuário por meio da entrada de gesto; e
[0032] receber um resultado de busca retornado pelo servidor, em que o resultado de busca é obtido pelo servidor ao buscar pelo objeto- alvo representado pelo nome do objeto-alvo, em que uma característica da categoria de característica que é da área de imagem e representada pelas informações de categoria é usada como um critério de busca.
[0033] Em referência ao terceiro aspecto, em uma primeira maneira de implantação possível, o recebimento da entrada de voz e entrada de gesto que são de um usuário especificamente inclui:
[0034] receber entrada de voz e entrada de gesto que são realizadas simultaneamente pelo usuário; ou
[0035] receber entrada de voz do usuário e quando for determinado que nenhuma entrada de gesto é realizada pelo usuário e nenhuma área de imagem é selecionada, instruir o usuário a realizar uma operação de selecionar uma área de imagem e receber entrada de gesto do usuário; ou
[0036] receber entrada de gesto do usuário e quando for determinado que nenhuma entrada de voz é realizada pelo usuário, instruir o usuário a realizar uma operação de entrada de voz e receber entrada de voz do usuário.
[0037] Em referência ao terceiro aspecto, em uma segunda maneira de implantação possível, adquirir a área de imagem selecionada pelo usuário por meio da entrada de gesto inclui:
[0038] adquirir uma área de imagem que é selecionada a partir de uma imagem designada pelo usuário por meio da entrada de gesto e usar a área de imagem como a área de imagem selecionada pelo usuário; ou
[0039] adquirir uma imagem que é obtida ao ser fotografada pelo usuário por meio da entrada de gesto e usar a área de imagem como a área de imagem selecionada pelo usuário.
[0040] De acordo com um quarto aspecto, um aparelho para busca de objeto é fornecido, incluindo:
[0041] uma segunda unidade de recebimento, configurada para receber entrada de voz e entrada de gesto que são de um usuário;
[0042] uma segunda unidade de determinação, configurada para determinar, de acordo com a entrada de voz, um nome de um objeto- alvo o qual o usuário espera buscar e uma categoria de característica do objeto-alvo;
[0043] uma unidade de envio, configurada para enviar, para um servidor, informações de categoria da categoria de característica, o nome do objeto-alvo e uma área de imagem que é selecionada pelo usuário por meio da entrada de gesto; e
[0044] uma terceira unidade de recebimento, configurada para receber um resultado de busca retornado pelo servidor, em que o resultado de busca é obtido pelo servidor ao buscar pelo objeto-alvo representado pelo nome do objeto-alvo, em que uma característica da categoria de característica que é da área de imagem e representada pelas informações de categoria é usada como um critério de busca.
[0045] Em referência ao quarto aspecto, em uma primeira maneira de implantação possível, a segunda unidade de recebimento é especificamente configurada para: receber entrada de voz e entrada de gesto que são realizadas de modo simultâneo pelo usuário; ou receber entrada de voz do usuário, e quando for determinado que nenhuma entrada de gesto é realizada pelo usuário e nenhuma área de imagem é selecionada, instruir o usuário a realizar uma operação de selecionar uma área de imagem, e receber entrada de gesto do usuário; ou receber entrada de gesto do usuário, e quando for determinado que nenhuma entrada de voz é realizada pelo usuário, instruir o usuário a realizar uma operação de entrada de voz, e receber entrada de voz do usuário.
[0046] Em referência ao quarto aspecto, em uma segunda maneira de implantação possível, a segunda unidade de determinação é adicionalmente configurada para: adquirir uma área de imagem que é selecionada a partir de uma imagem designada pelo usuário por meio da entrada de gesto e uso da área de imagem como a área de imagem selecionada pelo usuário; ou adquirir uma imagem que é obtida ao ser fotografada pelo usuário por meio da entrada de gesto e uso da área de imagem como a área de imagem selecionada pelo usuário.
[0047] Os efeitos benéficos da presente invenção incluem o seguinte:
[0048] Nas soluções anteriores fornecidas nas modalidades da presente invenção, quando a busca de objeto é realizada, a entrada de voz e a entrada de gesto que são de um usuário são primeiramente recebidas, um nome de um objeto-alvo pelo qual o usuário espera buscar e uma categoria de característica do objeto-alvo são determinados de acordo com a entrada de voz, e o objeto-alvo é buscado mediante o uso de uma característica da categoria de característica de uma área de imagem selecionada pelo usuário por meio da entrada de gesto e o nome do objeto-alvo como critério de busca. Durante a busca, o usuário precisa apenas inserir, mediante o uso de uma voz, a categoria de característica e o nome do objeto-alvo e selecionar uma área de imagem por meio da entrada de gesto e a categoria de característica, o nome do objeto-alvo e a área de imagem podem ser usados para representar o critério de busca sem exigir descrição clara do critério de busca. Portanto, uma maneira de busca mais flexível é fornecida para o usuário e uma restrição em um cenário de aplicativo é reduzida durante a busca.
[0049] Outras características e vantagens deste pedido são discutidas nas especificações a seguir, algumas das quais se tornam evidentes nas especificações ou são entendidas pela implantação deste pedido. Os objetivos e outras vantagens podem ser implantados e obtidos mediante o uso das especificações escritas, concretizações e uma estrutura especificamente apontada nos desenhos anexos.
BREVE DESCRIÇÃO DOS DESENHOS
[0050] Os desenhos anexos são usados para facilitar adicionalmente o entendimento da presente invenção, constituem uma parte das especificações e são usados em combinação com as modalidades da presente invenção para explicar a presente invenção, mas não constituem limitação à presente invenção. Nos desenhos anexos:
[0051] a Figura 1 é o Fluxograma 1 de um método para busca de objeto de acordo com uma modalidade da presente invenção;
[0052] a Figura 2 é o Fluxograma 2 de um método para busca de objeto de acordo com uma modalidade da presente invenção;
[0053] a Figura 3 é o Fluxograma 3 de um método para busca de objeto de acordo com uma modalidade da presente invenção;
[0054] a Figura 4 é um Diagrama Estrutural Esquemático 1 de um aparelho de busca de objeto de acordo com uma modalidade da presente invenção; e
[0055] a Figura 5 é um Diagrama Estrutural Esquemático 2 de um aparelho de busca de objeto de acordo com uma modalidade da presente invenção.
DESCRIÇÃO DAS MODALIDADES
[0056] Para apresentar uma solução de implantação que fornece a um usuário uma maneira de busca mais flexível e reduz uma restrição em um cenário de aplicativo durante a busca, as modalidades da presente invenção fornecem um método e um aparelho para busca de objeto. As modalidades preferenciais da presente invenção são descritas abaixo em referência aos desenhos anexos das especificações. Deve ser entendido que as modalidades preferenciais descritas no presente documento são usadas apenas para descrever e explicar a presente invenção e não restringem a presente invenção. Além disso, as modalidades da presente invenção e os recursos das modalidades podem ser combinados um com o outro desde que nenhuma colisão ocorra.
[0057] Uma modalidade da presente invenção fornece um método para busca de objeto, que pode ser aplicado a um terminal. Conforme mostrado na Figura 1, o método inclui:
[0058] Etapa 101. Receber entrada de voz e entrada de gesto que são de um usuário;
[0059] Etapa 102. Determinar, de acordo com a entrada de voz, um nome de um objeto-alvo o qual o usuário espera buscar e uma categoria de característica do objeto-alvo;
[0060] Etapa 103. Extrair informações de característica da categoria de característica de uma área de imagem selecionada pelo usuário por meio da entrada de gesto.
[0061] Etapa 104. Buscar pelo objeto-alvo de acordo com as informações de característica extraídas e o nome do objeto-alvo.
[0062] No método anterior mostrado na Figura 1, na etapa 103, o terminal pode extrair diretamente as informações de característica da categoria de característica da área de imagem selecionada pelo usuário. Ao executar a etapa 104, especificamente, o terminal pode buscar um conjunto de objetos armazenados de modo local no terminal ou pode buscar na Internet, ou seja, as informações de característica e o nome do objeto-alvo são enviados para um servidor, e após o servidor obter um resultado de busca ao buscar, de acordo com as informações de característica, pelo objeto-alvo representado pelo nome do objeto-alvo, o resultado de busca retornado pelo servidor é recebido e, adicionalmente, o resultado de busca pode ser exibido.
[0063] Uma modalidade da presente invenção fornece adicionalmente um método para busca de objeto, que é diferente do método anterior mostrado na Figura 1 e também pode ser aplicado a um terminal. Conforme mostrado na Figura 2, o método inclui:
[0064] Etapa 201. Receber entrada de voz e entrada de gesto que são de um usuário;
[0065] Etapa 202. Determinar, de acordo com a entrada de voz, um nome de um objeto-alvo o qual o usuário espera buscar e uma categoria de característica do objeto-alvo;
[0066] Etapa 203. Enviar, para um servidor, informações de categoria da categoria de característica, o nome do objeto-alvo e uma área de imagem que é selecionada pelo usuário por meio da entrada de gesto.
[0067] Etapa 204. Receber um resultado de busca retornado pelo servidor, em que o resultado de busca é obtido pelo servidor ao buscar pelo objeto-alvo representado pelo nome do objeto-alvo, em que uma característica da categoria de característica que é da área de imagem e representada pelas informações de categoria é usada como um critério de busca.
[0068] No método anterior mostrado na Figura 2, após determinar o nome do objeto-alvo o qual o usuário espera buscar e a categoria de característica do objeto-alvo na etapa 202, o terminal envia diretamente, para o servidor, as informações de categoria da categoria de característica, o nome do objeto-alvo e a área de imagem selecionada pelo usuário; e o servidor realiza busca com base nessas peças de informações recebidas e retorna o resultado de busca para o terminal.
[0069] Além disso, adicionalmente, quando realiza a busca, o servidor pode extrair as informações de característica da categoria de característica da área de imagem recebida selecionada pelo usuário e buscar pelo objeto-alvo de acordo com as informações de característica extraídas e o nome do objeto-alvo.
[0070] Para os métodos anteriores para busca de objeto mostrados na Figura 1 e na Figura 2, a etapa 101 e a etapa 102 são as mesmas que a etapa 201 e a etapa 202, respectivamente. Além disso, na etapa 101 e na etapa 102 anteriores e na etapa 201 e na etapa 202, o usuário pode inserir a categoria de característica e o nome do objeto-alvo em uma maneira de entrada de voz. Por exemplo, a categoria de característica de entrada pode incluir: uma cor, um formato, um preço, uma marca, uma imagem e similares, e o nome de entrada do objeto-alvo pode ser um nome de artigo de um artigo que se espera ser buscado.
[0071] Especificamente, o usuário pode inserir informações de voz de uma maneira de entrada de voz, em que as informações de voz portam a categoria de característica e o nome do objeto-alvo. Por exemplo, o usuário insere, mediante o uso de uma voz, "buscar por uma carteira dessa cor", "buscar por uns sapatos dessa marca" e "buscar por uma carcaça de telefone nessa imagem".
[0072] Quando o usuário insere as informações de voz de uma maneira de entrada de voz, uma análise semântica é realizada nas informações de voz inseridas pelo usuário, para determinar a categoria de característica e o nome do objeto-alvo. Diversas maneiras da técnica anterior podem ser usadas para realizar análise semântica nas informações de voz para extrair informações de texto, que não são descritas em detalhe no presente documento.
[0073] Nessa modalidade da presente invenção, quando realiza uma operação de selecionar uma área de imagem, o usuário pode selecionar uma área de imagem de uma imagem designada. Por exemplo, o usuário realiza, por meio de uma operação de gesto, uma operação de seleção em uma tela sensível ao toque que exibe a imagem designada e, em conformidade, a área de imagem selecionada pelo usuário da imagem designada é adquirida e usada como a área de imagem selecionada pelo usuário.
[0074] Ao realizar a operação de selecionar uma área de imagem, o usuário também pode iniciar um modo de fotografia e realizar uma operação de fotografia para obter uma imagem e, em conformidade, a imagem obtida ao ser fotografada pelo usuário é adquirida e usada como a área de imagem selecionada pelo usuário.
[0075] Nessa modalidade da presente invenção, não há uma ordem restrita entre a operação de selecionar a área de imagem pelo usuário e a operação de inserir a categoria de característica e o nome do objeto-alvo.
[0076] Além disso, a operação de selecionar a área de imagem pelo usuário e a operação de inserir as informações de voz podem ser completadas de modo simultâneo. Por exemplo, quando insere as informações de voz, o usuário pode selecionar a área de imagem mediante o uso da operação de gesto.
[0077] A operação de selecionar a área de imagem pelo usuário e a operação de inserir as informações de voz também podem ser completadas uma após a outra. Por exemplo, quando for determinado que as informações de voz são inseridas pelo usuário, mas nenhuma área de imagem é selecionada, o usuário é instruído para realizar a operação de selecionar uma área de imagem; e após o usuário realizar a operação de selecionar uma área de imagem, a área de imagem selecionada pelo usuário é determinada.
[0078] Para outro exemplo, quando for determinado que o usuário realiza uma operação de entrada de gesto para selecionar a área de imagem e nenhuma informação de voz for inserida, o usuário é instruído a realizar uma operação de inserir informações de voz. Após o usuário inserir as informações de voz, a análise semântica é realizada nas informações de entrada de voz de, para determinar a categoria de característica e o nome do objeto-alvo.
[0079] Nos métodos anteriores mostrados na Figura 1 e na Figura 2. , especificamente, as informações de característica da categoria de característica podem ser extraídas da área de imagem selecionada pelo usuário por meio da entrada de gesto e o objeto-alvo representado pelo nome do objeto-alvo pode ser buscado de acordo com as informações de característica extraídas.
[0080] Por exemplo, se a categoria de característica for uma cor, as informações de característica de cor da área de imagem selecionada pelo usuário são extraídas. Diversos tipos na técnica anterior podem ser usados para representar as informações de característica de cor. Por exemplo, um histograma de cor (um histograma de cor descreve razões de cores diferentes para uma imagem inteira) da área de imagem selecionada pelo usuário pode ser extraído; uma cor de uma razão maior, uma quantidade predefinida de cores cujas razões estão em ordem decrescente ou uma cor de uma razão maior que uma razão predefinida no histograma de cor é determinada; um valor de pixel da cor determinada é usado como as informações de característica de cor da área de imagem. Um nome de cor da cor pode ser adicionalmente determinado de acordo com o valor de pixel da cor e o nome da cor é usado como as informações de característica de cor da área de imagem. Quando múltiplas cores no histograma de cor são determinadas, as múltiplas cores podem ser adicionalmente exibidas para o usuário selecionar e as informações de característica de cor, por exemplo, um valor de pixel ou um nome de cor, de uma cor selecionada pelo usuário é determinado.
[0081] Em conformidade, o objeto-alvo representado pelo nome do objeto-alvo pode ser buscado de acordo com as informações de característica de cor extraídas. Por exemplo, a busca é realizada de acordo com o nome da cor ou o valor de pixel.
[0082] Para outro exemplo, se a categoria de característica tiver um formato, informações de característica de formato da área de imagem selecionada pelo usuário são extraídas. O formato pode ser um formato regular, por exemplo, um retângulo, um losango, um círculo, ou um oval e um nome de formato pode ser usado como as informações de característica de formato. O formato também pode ser irregular, por exemplo, um gráfico de um perfil de uma substância na área de imagem selecionada pelo usuário é extraído e o gráfico do perfil é usado como as informações de característica de formato.
[0083] Em conformidade, o objeto-alvo representado pelo nome do objeto-alvo pode ser buscado de acordo com as informações de característica de formato extraídas. Por exemplo, a busca é realizada de acordo com o nome de formato ou o gráfico.
[0084] Para outro exemplo, se a categoria de característica for uma marca, uma identidade de marca na área de imagem selecionada pelo usuário é extraída e usada como informações de característica de marca, em que a identidade de marca pode ser um nome de marca ou um logo de marca.
[0085] Em conformidade, o objeto-alvo representado pelo nome do objeto-alvo pode ser buscado de acordo com as informações de característica de marca extraídas. Por exemplo, a busca é realizada de acordo com o nome de marca ou o logo de marca.
[0086] Para outro exemplo, se a categoria de característica for um preço, informações de número na área de imagem selecionada pelo usuário são extraídas e as informações de número são usadas como informações de característica de preço.
[0087] Em conformidade, a busca pode ser realizada de acordo com as informações de característica de preço extraídas.
[0088] Para outro exemplo, se a categoria de característica for uma imagem, a área de imagem autosselecionada pelo usuário pode ser usada como informações de característica de imagem.
[0089] Em conformidade, o objeto-alvo representado pelo nome do objeto-alvo pode ser buscado de uma maneira de busca de imagem de acordo com a área de imagem selecionada pelo usuário.
[0090] Os métodos anteriores para busca de objeto mostrados na Figura 1 e na Figura 2 podem ser combinados, ou seja, a busca pelo objeto-alvo pode ser uma busca por um conjunto de objetos armazenados de modo local ou pode ser uma busca na Internet.
[0091] Especificamente, a busca pode ser realizada pelo terminal ou pode ser realizada pelo servidor, por exemplo, um servidor de nuvem. Quando a busca é realizada pelo servidor, a categoria de característica e o nome do objeto-alvo que são inseridos pelo usuário e a área de imagem selecionada pelo usuário pode ser enviada para o servidor pelo terminal ou as etapas correspondentes podem ser executadas pelo terminal e pelo servidor, juntos.
[0092] De modo alternativo, o terminal pode determinar, de acordo com as categorias de característica diferentes, se as etapas correspondentes forem executadas pelo terminal ou pelo servidor. Por exemplo, para algumas categorias de característica, após extrair as informações de característica das categorias de característica da área de imagem selecionada pelo usuário, o terminal pode enviar as informações de característica extraídas e o nome do objeto-alvo para o servidor e, então, o servidor busca, de acordo com as informações de característica recebidas, pelo objeto-alvo representado pelo nome do objeto-alvo, para obter um resultado de busca e retorna o resultado de busca para o terminal.
[0093] Uma modalidade específica a seguir é usada para descrever em detalhes os métodos fornecidos na presente invenção em referência aos desenhos anexos.
[0094] A Figura 3 é um fluxograma detalhado de um método para busca de objeto de acordo com uma modalidade da presente invenção, em que o método especificamente inclui as etapas a seguir:
[0095] Etapa 301. Um terminal recebe entrada de voz e entrada de gesto que são de um usuário.
[0096] Nessa etapa, a entrada de voz e a entrada de gesto que são realizadas de modo simultâneo pelo usuário podem ser recebidas.
[0097] De modo alternativo, a entrada de voz do usuário pode ser recebida, e quando for determinado que nenhuma entrada de gesto é realizada pelo usuário e nenhuma área de imagem for selecionada, o usuário é instruído a realizar uma operação de selecionar uma área de imagem e a entrada de gesto do usuário é recebida.
[0098] De modo alternativo, a entrada de gesto do usuário pode ser recebida e quando for determinado que nenhuma entrada de voz é realizada pelo usuário, o usuário é instruído a realizar uma operação de entrada de voz e a entrada de voz do usuário é recebida.
[0099] Etapa 302. O terminal determina, de acordo com a entrada de voz do usuário, um nome de um objeto-alvo o qual o usuário espera buscar e uma categoria de característica do objeto-alvo.
[00100] Nessa etapa, a categoria de característica e o nome do objeto-alvo podem ser determinados ao realizar a análise semântica em informações de voz inseridas pelo usuário.
[00101] Nessa modalidade da presente invenção, a categoria de característica que pode ser inserida pelo usuário pode ser definida de modo flexível de acordo com uma característica do objeto-alvo e um cenário de aplicativo dessa solução. Por exemplo, quando um artigo é buscado, a categoria de característica pode incluir: uma cor, um formato, um preço, uma marca, uma imagem e similares, e o nome de entrada do objeto-alvo pode ser um nome de artigo do artigo que se espera que seja buscado.
[00102] Etapa 303. O terminal adquire uma área de imagem selecionada pelo usuário por meio da entrada de gesto.
[00103] Nessa etapa, o terminal pode adquirir uma área de imagem selecionada pelo usuário de uma imagem designada e uso da área de imagem como a área de imagem selecionada pelo usuário ou pode adquirir uma imagem atual obtida ao ser fotografada pelo usuário e uso da imagem como a área de imagem selecionada pelo usuário.
[00104] Não há ordem estrita entre a etapa 302 e a etapa 303 anteriores.
[00105] Etapa 304. O terminal determina se a categoria de característica inserida pelo usuário é uma categoria de característica predefinida. Se a categoria de característica inserida pelo usuário for a categoria de característica predefinida, ir para a etapa 305, e se a categoria de característica inserida pelo usuário não for a categoria de característica predefinida, ir para a etapa 307.
[00106] Nessa modalidade da presente invenção, para a categoria de característica inserida pelo usuário, uma característica da categoria de característica da área de imagem selecionada pelo usuário pode ser extraída pelo terminal ou pode ser extraída por um servidor. De modo alternativo, algumas categorias de característica podem ser extraídas pelo terminal e algumas outras categorias de característica podem ser extraídas pelo servidor. Portanto, uma categoria de característica cujas informações de característica são extraídas pelo terminal pode ser definida como a categoria de característica predefinida e a determinação anterior é realizada nessa etapa.
[00107] Por exemplo, a cor na cor anterior, formato, preço, marca e imagem é usada como a categoria de característica predefinida.
[00108] Etapa 305. Quando a categoria de característica inserida pelo usuário for a categoria de característica predefinida, o terminal extrai as informações de característica da categoria de característica da área de imagem selecionada pelo usuário.
[00109] Por exemplo, para uma cor, as informações de característica de cor da área de imagem selecionada pelo usuário são extraídas. Para detalhes, pode ser feita referência à descrição anterior.
[00110] Etapa 306. O terminal envia, para um servidor, as informações de característica extraídas da categoria de característica e o nome, inserido pelo usuário, do objeto-alvo.
[00111] Etapa 307. O terminal envia, para o servidor, as informações de categoria da categoria de característica inseridas pelo usuário, o nome do objeto-alvo e a área de imagem selecionada pelo usuário.
[00112] Etapa 308. Após receber as informações de categoria, o nome do objeto-alvo e a área de imagem, o servidor extrai, da área de imagem, as informações de característica da categoria de característica representadas pelas informações de categoria.
[00113] Por exemplo, para detalhes sobre as informações de característica correspondentes que são da área de imagem selecionada pelo usuário e extraídas de uma cor, um preço e uma marca, pode ser feita referência à descrição anterior.
[00114] Além disso, adicionalmente, quando a categoria de característica for uma imagem, a área de imagem recebida pode ser diretamente usada como informações de característica de imagem.
[00115] Etapa 309. Após receber as informações de característica que são da categoria de característica e enviadas pelo terminal, ou após extrair as informações de característica da categoria de característica representadas pelas informações de categoria, o servidor busca, de acordo com as informações de característica extraídas, pelo objeto-alvo representado pelo nome do objeto-alvo, para obter um resultado de busca.
[00116] O resultado de busca é um objeto-alvo que tem as informações de característica da categoria de característica.
[00117] Etapa 310. O servidor retorna o resultado de busca para o terminal.
[00118] Etapa 311. Após receber o resultado de busca retornado pelo servidor, o terminal exibe o resultado de busca para o usuário.
[00119] Ao usar o método anterior para busca de objeto fornecido nessa modalidade da presente invenção, quando realiza uma busca, um usuário apenas precisa realizar entrada de voz e entrada de gesto, e apenas precisa inserir uma categoria de característica e um nome de um objeto-alvo e selecionar uma área de imagem e, então, um critério de busca correspondente pode ser determinado por um terminal ou um servidor, e o objeto-alvo pode ser buscado de acordo com o critério de busca sem exigir que o usuário descreva claramente o critério de busca. Dessa maneira, uma maneira de busca mais flexível é fornecida para o usuário e uma restrição em um cenário de aplicativo é reduzida durante a busca.
[00120] Por exemplo, quando o usuário percebe uma cor muito bonita em uma imagem e deseja buscar por uma carteira dessa cor, é muito provável que um nome de cor clara pode não ser fornecido devido ao fato de que a cor é muito especial. Nesse caso, a busca pode ser realizada mediante o uso do método anterior fornecido nessa modalidade da presente invenção.
[00121] Para outro exemplo, quando o usuário deseja buscar por sapatos de uma marca particular, mas não sabe o nome da marca, e tem apenas uma imagem incluindo um logo de marca da marca, o método anterior fornecido nessa modalidade da presente invenção pode ser usado para selecionar uma área de imagem, incluindo o logo de marca da imagem e a área de imagem é usada como uma imagem selecionada para realizar a busca.
[00122] Com base em um mesmo conceito de invenção e de acordo com os métodos para busca de objeto fornecidos nas modalidades anteriores da presente invenção, em conformidade, essa modalidade da presente invenção fornece adicionalmente um aparelho para busca de objeto, cujo diagrama estrutural esquemático é mostrado na Figura 4. O aparelho inclui especificamente:
[00123] uma primeira unidade de recebimento 401, configurada para receber entrada de voz e entrada de gesto que são de um usuário;
[00124] uma primeira unidade de determinação 402, configurada para determinar, de acordo com a entrada de voz, um nome de um objeto-alvo o qual o usuário espera buscar e uma categoria de característica do objeto-alvo;
[00125] uma unidade de extração 403, configurada para extrair informações de característica da categoria de característica de uma área de imagem selecionada pelo usuário por meio da entrada de gesto; e
[00126] uma primeira unidade de busca 404, configurada para buscar pelo objeto-alvo de acordo com as informações de característica extraídas e o nome do objeto-alvo.
[00127] Adicionalmente, a primeira unidade de busca 404 é especificamente configurada para: enviar as informações de característica e o nome do objeto-alvo para um servidor e receber um resultado de busca retornado pelo servidor, em que o resultado de busca é obtido pelo servidor ao buscar, de acordo com as informações de característica, pelo objeto-alvo representado pelo nome do objeto- alvo.
[00128] Adicionalmente, a primeira unidade de recebimento 401 é especificamente configurada para: receber entrada de voz e entrada de gesto que são realizadas de modo simultâneo pelo usuário; ou receber entrada de voz do usuário e quando for determinado que nenhuma entrada de gesto é realizada pelo usuário e nenhuma área de imagem é selecionada, instruir o usuário a realizar uma operação de selecionar uma área de imagem, e receber entrada de gesto do usuário; ou receber entrada de gesto do usuário, e quando for determinado que nenhuma entrada de voz é realizada pelo usuário, instruir o usuário a realizar uma operação de entrada de voz e receber entrada de voz do usuário.
[00129] Adicionalmente, a primeira unidade de determinação 402 é adicionalmente configurada para: adquirir uma área de imagem selecionada a partir de uma imagem designada pelo usuário por meio da entrada de gesto e uso da área de imagem como a área de imagem selecionada pelo usuário; ou adquirir uma imagem que é obtida ao ser fotografada pelo usuário por meio da entrada de gesto e uso da área de imagem como a área de imagem selecionada pelo usuário.
[00130] As funções das unidades da Figura 4 anterior podem corresponder às etapas de processamento correspondentes do procedimento mostrado na Figura 1 ou na Figura 3, e não serão descritos detalhes no presente documento novamente.
[00131] Com base em um mesmo conceito de invenção e de acordo com os métodos para busca de objeto fornecidos nas modalidades anteriores da presente invenção, em conformidade, essa modalidade da presente invenção fornece adicionalmente um aparelho para busca de objeto, cujo diagrama estrutural esquemático é mostrado na Figura 5. O aparelho inclui especificamente:
[00132] uma segunda unidade de recebimento 501, configurada para receber entrada de voz e entrada de gesto que são de um usuário;
[00133] uma segunda unidade de determinação 502, configurada para determinar, de acordo com a entrada de voz, um nome de um objeto-alvo o qual o usuário espera buscar e uma categoria de característica do objeto-alvo;
[00134] uma unidade de envio 503, configurada para enviar, para um servidor, informações de categoria da categoria de característica, o nome do objeto-alvo e uma área de imagem que é selecionada pelo usuário por meio da entrada de gesto; e
[00135] uma terceira unidade de recebimento 504, configurada para receber um resultado de busca retornado pelo servidor, em que o resultado de busca é obtido pelo servidor ao buscar pelo objeto-alvo representado pelo nome do objeto-alvo, em que uma característica da categoria de característica que é da área de imagem e representada pelas informações de categoria é usada como um critério de busca.
[00136] Adicionalmente, a segunda unidade de recebimento 501 é especificamente configurada para: receber entrada de voz e entrada de gesto que são realizadas de modo simultâneo pelo usuário; ou receber entrada de voz do usuário e quando for determinado que nenhuma entrada de gesto é realizada pelo usuário e nenhuma área de imagem é selecionada, instruir o usuário a realizar uma operação de selecionar uma área de imagem, e receber entrada de gesto do usuário; ou receber entrada de gesto do usuário, e quando for determinado que nenhuma entrada de voz é realizada pelo usuário, instruir o usuário a realizar uma operação de entrada de voz e receber entrada de voz do usuário.
[00137] Adicionalmente, a segunda unidade de determinação 502 é adicionalmente configurada para: adquirir uma área de imagem selecionada a partir de uma imagem designada pelo usuário por meio da entrada de gesto e uso da área de imagem como a área de imagem selecionada pelo usuário; ou adquirir uma imagem que é obtida ao ser fotografada pelo usuário por meio da entrada de gesto e uso da área de imagem como a área de imagem selecionada pelo usuário.
[00138] As funções das unidades da Figura 5 anterior podem corresponder às etapas de processamento correspondentes do procedimento mostrado na Figura 2 ou na Figura 3, e não serão descritos detalhes no presente documento novamente.
[00139] Em conclusão, as soluções fornecidas nas modalidades da presente invenção incluem: receber entrada de voz e entrada de gesto que são de um usuário; determinar, de acordo com a entrada de voz, um nome de um objeto-alvo o qual o usuário espera buscar e uma categoria de característica do objeto-alvo; extrair informações de característica da categoria de característica de uma área de imagem selecionada pelo usuário por meio da entrada de gesto; e buscar pelo objeto-alvo de acordo com as informações de característica extraídas e o nome do objeto-alvo. As soluções fornecidas nas modalidades da presente invenção podem fornecer para um usuário uma maneira de busca mais flexível e reduzir a restrição em um cenário de aplicativo durante a busca.
[00140] Pessoas versadas na técnica devem entender que as modalidades da presente invenção podem ser fornecidas como um método, um sistema ou um produto de programa de computador. Portanto, a presente invenção pode usar uma forma de modalidades apenas de hardware, modalidades apenas de software ou modalidades com uma combinação de software e hardware. Além disso, a presente invenção pode usar uma forma de um produto de programa de computador que é implantado em um ou mais meios de armazenamento usáveis de computador (incluindo, porém, sem limitação uma memória de disco, um CD-ROM, uma memória óptica e similares) que incluem código de programa usável de computador.
[00141] A presente invenção é descrita em referência aos fluxogramas e/ou diagramas de blocos do método, o dispositivo (sistema) e o produto de programa de computador de acordo com as modalidades da presente invenção. Deve ser entendido que instruções de programa de computador podem ser usadas para implantar cada processo e/ou cada bloco nos fluxogramas e/ou nos diagramas de blocos e uma combinação de um processo e/ou um bloco nos fluxogramas e/ou nos diagramas de blocos. Essas instruções de programa de computador podem ser fornecidas por um computador de propósito geral, um computador dedicado, um processador incorporado ou um processador de qualquer outro dispositivo de processamento de dados programável para gerar uma máquina, de modo que as instruções executadas por um computador ou um processador de qualquer outro dispositivo de processamento de dados programável gera um aparelho para implantar uma função específica em um ou mais processos nos fluxogramas e/ou em um ou mais blocos nos diagramas de blocos.
[00142] Essas instruções de programa de computador também podem ser armazenadas em uma memória legível por computador que pode instruir o computador ou qualquer outro dispositivo de processamento de dados programável a trabalhar de uma maneira específica, de modo que as instruções armazenadas na memória legível por computador gerem um artefato que inclui um aparelho de instrução. O aparelho de instrução implanta uma função específica em um ou mais processos nos fluxogramas e/ou em um ou mais blocos nos diagramas de blocos.
[00143] Essas instruções de programa de computador também podem ser carregadas em um computador ou outro dispositivo de processamento de dados programável, de modo que diversas operações e etapas sejam realizadas no computador ou o outro dispositivo programável gerando, desse modo, processamento implantado por computador. Portanto, as instruções executadas no computador ou o outro dispositivo programável fornecem etapas para implantar uma função específica em um ou mais processos nos fluxogramas e/ou em um ou mais blocos nos diagramas de blocos.
[00144] Embora algumas modalidades preferenciais da presente invenção tenham sido descritas, pessoas versadas na técnica podem realizar alterações e modificações nessas modalidades, uma vez que as mesmas aprendem o conceito inventivo básico. Portanto, as concretizações a seguir se destinam a ser interpretadas de modo a cobrir as modalidades preferenciais e todas as alterações e modificações que estão dentro do escopo da presente invenção.
[00145] Obviamente, pessoas versadas na técnica podem realizar diversas modificações e variações à presente invenção sem se afastar do espírito e escopo da presente invenção. A presente invenção se destina a cobrir essas modificações e variações providas desde que as mesmas estejam dentro do escopo de proteção definido pelas concretizações a seguir e suas tecnologias equivalentes.

Claims (20)

1. Método para busca de objeto, implementado por um terminal acoplado de forma comunicativa a um servidor, o método caracterizado pelo fato de que compreende etapas de: receber (101), pelo terminal, entrada de voz e entrada de gesto a partir de um usuário; determinar (102), pelo terminal, um nome de um objeto-alvo que o usuário espera buscar e uma categoria de característica do objeto-alvo de acordo com a entrada de voz; determinar, pelo terminal, se o nome do objeto-alvo e a categoria de característica do objeto-alvo correspondem a uma categoria predefinida; extrair, pelo terminal, informações de características extraídas localmente no terminal de acordo com o nome do objeto- alvo, a categoria de característica do objeto-alvo, e uma imagem correspondendo à entrada de gesto e enviar as informações de característica extraídas e o nome do objeto-alvo para o servidor quando o nome do objeto-alvo e a categoria de característica do objeto-alvo correspondem à categoria predefinida; enviar, pelo terminal, o nome do objeto-alvo, a categoria de característica do objeto-alvo, e a imagem correspondendo à entrada de gesto ao servidor para permitir que o servidor extraia as informações de característica extraídas quando o nome do objeto-alvo e a categoria de característica do objeto-alvo correspondem à categoria predefinida; receber, pelo terminal, um resultado de busca a partir do servidor que corresponde às informações de característica extraídas e a imagem correspondendo à entrada de gesto; e exibir, pelo terminal, o resultado de busca.
2. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a etapa de receber (101) a entrada de voz e a entrada de gesto a partir do usuário compreende receber a entrada de voz e a entrada de gesto que são simultaneamente recebidas a partir do usuário.
3. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que ainda compreende uma etapa de adquirir uma área de imagem a partir da entrada de gesto do usuário ao: adquirir a área de imagem que é selecionada a partir de uma imagem designada correspondendo à entrada de gesto; e usar a área de imagem como a imagem a partir do usuário.
4. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a etapa de receber (101) a entrada de voz e a entrada de gesto a partir do usuário compreende pelo menos um dentre: receber a entrada de voz e a entrada de gesto que são simultaneamente recebidas a partir do usuário; receber a entrada de voz a partir do usuário, e quando nenhuma entrada de gesto for executada pelo usuário e nenhuma área de imagem for selecionada, instruir ao usuário executar uma operação de selecionar uma área de imagem, e receber entrada de gesto a partir do usuário; ou receber a entrada de gesto a partir do usuário, e quando nenhuma entrada de voz for executada pelo usuário, instruir ao usuário executar uma operação de entrada de voz, e receber a entrada de voz a partir do usuário.
5. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a etapa de receber (101) a entrada de voz e a entrada de gesto a partir do usuário compreende receber a entrada de voz a partir do usuário, e quando nenhuma entrada de gesto for executada pelo usuário e nenhuma área de imagem for selecionada, instruir ao usuário executar uma operação de selecionar uma área de imagem, e receber a entrada de gesto a partir do usuário.
6. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a etapa de receber (101) a entrada de voz e a entrada de gesto a partir do usuário compreende receber a entrada de gesto do usuário, e quando nenhuma entrada de voz for executada pelo usuário, instruir ao usuário executar uma operação de entrada de voz, e receber a entrada de voz a partir do usuário.
7. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que ainda compreende uma etapa de adquirir uma área de imagem selecionada pelo usuário como a entrada de gesto, e adquirir a imagem compreende pelo menos um dentre: adquirir uma área de imagem que é selecionada a partir de uma imagem designada pelo usuário como uma entrada de gesto, e usar a área de imagem como a área de imagem selecionada pelo usuário; ou adquirir uma imagem que é obtida ao fotografar a partir do usuário como uma entrada de gesto, e usar a imagem obtida como a área de imagem selecionada pelo usuário.
8. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que ainda compreende uma etapa de adquirir uma área de imagem selecionada pelo usuário como a entrada de gesto, e adquirir a imagem compreende: adquirir uma imagem que é obtida ao fotografar a partir do usuário como uma entrada de gesto; e usar a imagem obtida como a área de imagem selecionada pelo usuário.
9. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a entrada de gesto a partir do usuário compreende um gráfico de um perfil de uma forma irregular inserido pelo usuário.
10. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a entrada de gesto a partir do usuário compreende um logotipo de marca em uma fotografia tirada pelo usuário.
11. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a entrada de gesto a partir do usuário compreende um valor de pixel selecionado pelo usuário a partir de um histograma de cores exibido no terminal.
12. Terminal acoplado de forma comunicativa a um servidor caracterizado pelo fato de que compreende: um receptor, configurado para receber entrada de voz e entrada de gesto a partir de um usuário; um processador acoplado ao receptor e configurado para determinar um nome de um objeto-alvo que o usuário espera buscar e uma categoria de característica do objeto-alvo de acordo com a entrada de voz; determinar se o nome do objeto-alvo e a categoria de característica do objeto-alvo correspondem a uma categoria predefinida; extrair informações de características extraídas localmente no terminal de acordo com o nome do objeto- alvo, a categoria de característica do objeto-alvo, e uma imagem correspondendo à entrada de gesto e enviar as informações de característica extraídas e o nome do objeto- alvo para o servidor quando o nome do objeto-alvo e a categoria de característica do objeto-alvo correspondem à categoria predefinida; enviar o nome do objeto-alvo, a categoria de característica do objeto-alvo, e a imagem correspondendo à entrada de gesto ao servidor para permitir que o servidor extraia as informações de característica extraídas quando o nome do objeto-alvo e a categoria de característica do objeto-alvo correspondem à categoria predefinida; receber um resultado de busca a partir do servidor que corresponde às informações de característica extraídas e a imagem correspondendo à entrada de gesto; e exibir o resultado de busca.
13. Terminal, de acordo com a reivindicação 12, caracterizado pelo fato de que o receptor é ainda configurado para executar um dentre: receber a entrada de voz e a entrada de gesto que são simultaneamente recebidas a partir do usuário; receber a entrada de voz a partir do usuário, e quando nenhuma entrada de gesto for executada pelo usuário e nenhuma área de imagem for selecionada, instruir ao usuário executar uma operação de selecionar uma área de imagem, e receber entrada de gesto a partir do usuário; ou receber a entrada de gesto a partir do usuário, e quando nenhuma entrada de voz for executada pelo usuário, instruir ao usuário executar uma operação de entrada de voz, e receber a entrada de voz a partir do usuário.
14. Terminal, de acordo com a reivindicação 12, caracterizado pelo fato de que o processador é ainda configurado para executar um dentre: adquirir uma área de imagem que é selecionada a partir de uma imagem designada pelo usuário como uma entrada de gesto, e usar a área de imagem como a área de imagem selecionada pelo usuário; ou adquirir uma imagem que é obtida ao fotografar a partir do usuário como uma entrada de gesto, e usar a imagem obtida como a área de imagem selecionada pelo usuário.
15. Método para busca de objeto, implementado por um terminal acoplado de forma comunicativa a um servidor, o método caracterizado pelo fato de que compreende etapas de: receber (201), pelo terminal, entrada de voz e entrada de gesto a partir de um usuário; determinar (202), pelo terminal, um nome de um objeto-alvo que o usuário espera buscar e uma categoria de característica do objeto-alvo de acordo com a entrada de voz; determinar, pelo terminal, se o nome do objeto-alvo e a categoria de característica do objeto-alvo correspondem a uma categoria predefinida; extrair, pelo terminal, informações de características extraídas localmente no terminal de acordo com o nome do objeto- alvo, a categoria de característica do objeto-alvo, e uma imagem correspondendo à entrada de gesto e enviar as informações de característica extraídas e o nome do objeto-alvo para o servidor quando o nome do objeto-alvo e a categoria de característica do objeto-alvo correspondem à categoria predefinida; enviar, pelo terminal, o nome do objeto-alvo, a categoria de característica do objeto-alvo, e uma imagem de área que correspondem à entrada de gesto ao servidor para permitir que o servidor extraia as informações de característica extraídas quando o nome do objeto-alvo e a categoria de característica do objeto-alvo correspondem à categoria predefinida; e receber, pelo terminal, um resultado de busca a partir do servidor, o resultado de busca sendo obtido pelo servidor ao buscar pelo objeto-alvo representado pelo nome do objeto-alvo, e uma característica da categoria de característica que é da área de imagem e representada pelas informações de característica é usada como um critério de busca.
16. Método, de acordo com a reivindicação 15, caracterizado pelo fato de que a etapa de receber (201) a entrada de voz e a entrada de gesto a partir do usuário compreende pelo menos um dentre: receber a entrada de voz e a entrada de gesto que são simultaneamente recebidas a partir do usuário; receber a entrada de voz a partir do usuário, e quando nenhuma entrada de gesto for executada pelo usuário e nenhuma área de imagem for selecionada, instruir ao usuário executar uma operação de selecionar uma área de imagem, e receber entrada de gesto a partir do usuário; ou receber a entrada de gesto a partir do usuário, e quando nenhuma entrada de voz for executada pelo usuário, instruir ao usuário executar uma operação de entrada de voz, e receber a entrada de voz a partir do usuário.
17. Método, de acordo com a reivindicação 15, caracterizado pelo fato de que ainda compreende uma etapa de adquirir uma área de imagem selecionada pelo usuário como a entrada de gesto, e adquirir a imagem compreende pelo menos um dentre: adquirir uma área de imagem que é selecionada a partir de uma imagem designada pelo usuário como uma entrada de gesto, e usar a área de imagem como a área de imagem selecionada pelo usuário; ou adquirir uma imagem que é obtida ao fotografar a partir do usuário como uma entrada de gesto, e usar a imagem obtida como a área de imagem selecionada pelo usuário.
18. Terminal acoplado de forma comunicativa a um servidor caracterizado pelo fato de que compreende: um receptor, configurado para receber entrada de voz e entrada de gesto a partir de um usuário; um processador acoplado ao receptor e configurado para determinar um nome de um objeto-alvo que o usuário espera buscar e uma categoria de característica do objeto-alvo de acordo com a entrada de voz; determinar se o nome do objeto-alvo e a categoria de característica do objeto-alvo correspondem a uma categoria predefinida; extrair informações de características extraídas localmente no terminal de acordo com o nome do objeto- alvo, a categoria de característica do objeto-alvo, e uma imagem correspondendo à entrada de gesto e enviar as informações de característica extraídas e o nome do objeto- alvo para o servidor quando o nome do objeto-alvo e a categoria de característica do objeto-alvo correspondem à categoria predefinida; enviar, pelo terminal, o nome do objeto-alvo, a categoria de característica do objeto-alvo, e uma imagem de área que correspondem à entrada de gesto ao servidor para permitir que o servidor extraia as informações de característica extraídas quando o nome do objeto-alvo e a categoria de característica do objeto-alvo correspondem à categoria predefinida; e receber, pelo terminal, um resultado de busca a partir do servidor, o resultado de busca sendo obtido pelo servidor ao buscar pelo objeto-alvo representado pelo nome do objeto-alvo, e uma característica da categoria de característica que é da área de imagem e representada pelas informações de característica é usada como um critério de busca.
19. Terminal, de acordo com a reivindicação 18, caracterizado pelo fato de que o receptor é ainda configurado para executar um dentre: receber a entrada de voz e a entrada de gesto que são simultaneamente recebidas a partir do usuário; receber a entrada de voz a partir do usuário, e quando nenhuma entrada de gesto for executada pelo usuário e nenhuma área de imagem for selecionada, instruir ao usuário executar uma operação de selecionar uma área de imagem, e receber entrada de gesto a partir do usuário; ou receber a entrada de gesto a partir do usuário, e quando nenhuma entrada de voz for executada pelo usuário, instruir ao usuário executar uma operação de entrada de voz, e receber a entrada de voz a partir do usuário.
20. Terminal, de acordo com a reivindicação 18, caracterizado pelo fato de que o processador é ainda configurado para executar um dentre: adquirir uma área de imagem que é selecionada a partir de uma imagem designada pelo usuário como uma entrada de gesto, e usar a área de imagem como a área de imagem selecionada pelo usuário; ou adquirir uma imagem que é obtida ao fotografar a partir do usuário como uma entrada de gesto, e usar a imagem obtida como a área de imagem selecionada pelo usuário.
BR112016017262-0A 2014-05-15 2014-05-15 Método para busca de objeto e terminal acoplado de forma comunicativa a um servidor. BR112016017262B1 (pt)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2014/077566 WO2015172359A1 (zh) 2014-05-15 2014-05-15 一种对象搜索方法及装置

Publications (2)

Publication Number Publication Date
BR112016017262A2 BR112016017262A2 (pt) 2017-08-08
BR112016017262B1 true BR112016017262B1 (pt) 2022-09-27

Family

ID=53852833

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112016017262-0A BR112016017262B1 (pt) 2014-05-15 2014-05-15 Método para busca de objeto e terminal acoplado de forma comunicativa a um servidor.

Country Status (7)

Country Link
US (1) US10311115B2 (pt)
EP (1) EP3001333A4 (pt)
JP (1) JP6316447B2 (pt)
KR (1) KR101864240B1 (pt)
CN (1) CN104854539B (pt)
BR (1) BR112016017262B1 (pt)
WO (1) WO2015172359A1 (pt)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101561628B1 (ko) * 2013-12-30 2015-10-20 주식회사 케이티 스마트 글래스의 영상 정보를 제공하는 검색 장치 및 검색 방법
US10444977B2 (en) * 2014-12-05 2019-10-15 Verizon Patent And Licensing Inc. Cellphone manager
KR20170052364A (ko) * 2015-11-04 2017-05-12 삼성전자주식회사 디스플레이장치 및 그 제어방법
CN107515868A (zh) * 2016-06-15 2017-12-26 北京陌上花科技有限公司 搜索方法及装置
JP2017228080A (ja) 2016-06-22 2017-12-28 ソニー株式会社 情報処理装置、情報処理方法、及び、プログラム
KR102055733B1 (ko) * 2017-02-24 2019-12-13 권오민 이미지광고 온라인 제공 방법
KR102469717B1 (ko) * 2017-08-01 2022-11-22 삼성전자주식회사 오브젝트에 대한 검색 결과를 제공하기 위한 전자 장치 및 이의 제어 방법
CN110119461B (zh) * 2018-01-25 2022-01-14 阿里巴巴(中国)有限公司 一种查询信息的处理方法及装置
KR102630662B1 (ko) 2018-04-02 2024-01-30 삼성전자주식회사 어플리케이션 실행 방법 및 이를 지원하는 전자 장치
CN108874910B (zh) * 2018-05-28 2021-08-17 思百达物联网科技(北京)有限公司 基于视觉的小目标识别系统
CN108984730A (zh) * 2018-07-12 2018-12-11 三星电子(中国)研发中心 一种搜索方法和搜索设备
EP3859488A4 (en) * 2018-09-28 2022-06-29 Shanghai Cambricon Information Technology Co., Ltd Signal processing device, signal processing method and related product
KR102688902B1 (ko) 2018-12-05 2024-07-26 제주대학교 산학협력단 감귤 바이오겔을 포함하는 감귤 미숙과 추출물을 유효성분으로 함유하는 화장료 조성물
JP7275795B2 (ja) * 2019-04-15 2023-05-18 コニカミノルタ株式会社 操作受付装置、制御方法、画像形成システム、及び、プログラム
CN110765294B (zh) * 2019-10-25 2021-03-12 深圳追一科技有限公司 图像搜索方法、装置、终端设备及存储介质
CN113093406A (zh) * 2021-04-14 2021-07-09 陈祥炎 智能眼镜
CN116628327A (zh) * 2023-02-16 2023-08-22 百度在线网络技术(北京)有限公司 搜索方法、装置、电子设备以及存储介质

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08166866A (ja) 1994-10-14 1996-06-25 Hitachi Ltd 対話型インターフェースを具備した編集支援システム
JPH10198695A (ja) 1997-01-13 1998-07-31 Sharp Corp 情報処理装置
US6513063B1 (en) * 1999-01-05 2003-01-28 Sri International Accessing network-based electronic information through scripted online interfaces using spoken input
JP3823129B2 (ja) 2001-12-07 2006-09-20 株式会社シガメック 画像検索システム及び画像検索方法
JP2006107109A (ja) 2004-10-05 2006-04-20 Canon Inc 情報管理装置及び情報管理方法
JP2007026316A (ja) 2005-07-20 2007-02-01 Yamaha Motor Co Ltd 画像管理装置、ならびに画像管理用コンピュータプログラムおよびそれを記録した記録媒体
US7457825B2 (en) 2005-09-21 2008-11-25 Microsoft Corporation Generating search requests from multimodal queries
CN100414548C (zh) 2006-09-22 2008-08-27 南京搜拍信息技术有限公司 综合利用图像及文字信息的搜索系统及搜索方法
CN101071431A (zh) * 2007-01-31 2007-11-14 腾讯科技(深圳)有限公司 基于关键图形为搜索条件进行图象搜索的方法及系统
CN100578508C (zh) 2008-01-14 2010-01-06 上海博康智能信息技术有限公司 交互式图像搜索系统和方法
US8090738B2 (en) 2008-05-14 2012-01-03 Microsoft Corporation Multi-modal search wildcards
US9978365B2 (en) * 2008-10-31 2018-05-22 Nokia Technologies Oy Method and system for providing a voice interface
US20100281435A1 (en) 2009-04-30 2010-11-04 At&T Intellectual Property I, L.P. System and method for multimodal interaction using robust gesture processing
US9087059B2 (en) * 2009-08-07 2015-07-21 Google Inc. User interface for presenting search results for multiple regions of a visual query
CN101930457A (zh) 2010-08-13 2010-12-29 百度在线网络技术(北京)有限公司 一种供用户进行快速选择对象及搜索的方法、设备和系统
US8788434B2 (en) * 2010-10-28 2014-07-22 Google Inc. Search with joint image-audio queries
US20120155717A1 (en) 2010-12-16 2012-06-21 Microsoft Corporation Image search including facial image
JP5794036B2 (ja) * 2011-08-22 2015-10-14 セイコーエプソン株式会社 画像検索装置、画像検索方法、およびプログラム
CN103946838B (zh) 2011-11-24 2017-10-24 微软技术许可有限责任公司 交互式多模图像搜索
US9152376B2 (en) 2011-12-01 2015-10-06 At&T Intellectual Property I, L.P. System and method for continuous multimodal speech and gesture interaction
CN103246682A (zh) * 2012-02-13 2013-08-14 联想(北京)有限公司 数据搜索方法和数据搜索装置
CN103020184B (zh) 2012-11-29 2016-05-25 北京百度网讯科技有限公司 使用拍摄图像获取搜索结果的方法和系统

Also Published As

Publication number Publication date
BR112016017262A2 (pt) 2017-08-08
EP3001333A4 (en) 2016-08-24
EP3001333A1 (en) 2016-03-30
WO2015172359A1 (zh) 2015-11-19
KR101864240B1 (ko) 2018-06-04
CN104854539B (zh) 2018-08-14
CN104854539A (zh) 2015-08-19
JP6316447B2 (ja) 2018-04-25
US10311115B2 (en) 2019-06-04
US20160147882A1 (en) 2016-05-26
JP2017513090A (ja) 2017-05-25
KR20160104054A (ko) 2016-09-02

Similar Documents

Publication Publication Date Title
BR112016017262B1 (pt) Método para busca de objeto e terminal acoplado de forma comunicativa a um servidor.
US10832086B2 (en) Target object presentation method and apparatus
US10051179B2 (en) Photographing method, device and terminal
JP2016535335A5 (pt)
US10229323B2 (en) Terminal and method for managing video file
TWI586160B (zh) 利用行動電話及雲端可視化搜尋引擎之即時物體掃描
CN105608699B (zh) 一种图像处理方法及电子设备
US10291838B2 (en) Focusing point determining method and apparatus
EP2869195B1 (en) Application coordination system, application coordination method, and application coordination program
WO2016194889A1 (ja) 情報処理装置、情報処理方法及びプログラム
JP2015504220A5 (pt)
US20170115853A1 (en) Determining Image Captions
WO2016082470A1 (zh) 一种图片处理方法、装置及计算机存储介质
US20180336243A1 (en) Image Search Method, Apparatus and Storage Medium
JP2020537791A5 (pt)
JP2015219756A (ja) 画像比較方法、装置並びにプログラム
CN105528198B (zh) 操作界面识别方法及装置
US9280253B2 (en) Application coordinating system, application coordinating method, and application coordinating program
JP2018152673A (ja) 化粧支援プログラム、化粧支援装置、及び化粧支援方法
JP2016535356A (ja) 製品説明の照会方法、装置、システムおよびクライアント
WO2023001039A1 (zh) 图像匹配方法、装置、设备及存储介质
US9824070B1 (en) Contextual anchor points in content
US10877641B2 (en) Image adjustment method, apparatus, device and computer readable storage medium
US20220319176A1 (en) Method and device for recognizing object in image by means of machine learning
JP2010009337A (ja) アノテーション装置、アノテーション方法およびプログラム

Legal Events

Date Code Title Description
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 15/05/2014, OBSERVADAS AS CONDICOES LEGAIS