BR112016015519B1

BR112016015519B1 - Método para implementar um assistente digital pessoal e dispositivo

Info

Publication number: BR112016015519B1
Application number: BR112016015519-0A
Authority: BR
Inventors: Mouni Reddy; Robert J. Howard Iii; Deborah B Harrison; Sogol Malekzadeh
Original assignee: Microsoft Technology Licensing, Llc
Priority date: 2014-01-15
Filing date: 2015-01-09
Publication date: 2023-01-17
Also published as: WO2015108758A1; JP2017515134A; US9514748B2; SG11201605642VA; RU2682023C1; EP3095113B1; CA2935469A1; BR112016015519A8; MX2016009130A; IL246237A0; HK1223728A1; PH12016501223A1; KR102295935B1; CL2016001788A1; BR112016015519A2; JP6505117B2; EP3095113A1; US20150199967A1; KR20160108348A; CA2935469C

Abstract

INTERAÇÃO DE ASSISTENTE DIGITAL PESSOAL COM REPRESENTAÇÕES E MULTIMÍDIA RICA EM RESPOSTAS. Sistemas, métodos, aparelhos e produtos de programa de computador são descritos para implementar um assistente digital pessoal. O assistente digital pessoal é capaz de deter minar que um usuário fez uma pergunta ou fez uma afirmação que é destinada para engajar-se com uma pessoa do assistente digital pessoal. Em resposta à determinação que o usuário fez tal pergunta ou fez tal afirmação, o assistente digital pessoal fornece uma resposta a ela exibindo ou reproduzindo um objeto de multimídia associado com uma referência de cultura popular dentro ou por uma interface do usuário do assistente digital pessoal. De modo adicional ou alternativo, em resposta à determinação que o usuário fez tal pergunta ou fez tal afirmação, o assistente digital pessoal fornece a resposta a ela gerando ou reproduzindo o discurso que compreende uma representação de uma voz de uma pessoa associada com a referência de cultura popular.

Description

ANTECEDENTES

[001] A representação da interação de computador é uma prática muito comum na área da inteligência artificial. Os criadores de assistentes pessoais digitais podem imbuir seus assistentes com uma representação para manter o nível de envolvimento com o usuário muito alto e também para estabelecer um elemento de confiança entre o usuário e o assistente, facilitando assim o uso continuado e interação com o assistente digital pessoal.

[002] Uma técnica para manter o nível de envolvimento alto im plica tornar as respostas fornecidas pelo assistente digital pessoal en-graçadas e divertidas. Algumas implementações convencionais dos assistentes pessoais digitais são programadas para gerar respostas de texto engraçado quando um usuário faz perguntas tendo um tom casual. Entretanto, os assistentes pessoais digitais convencionais tipicamente não alavancam a flexibilidade total das telas digitais ao apresentar as respostas divertidas. Nem alavancam a potência das técnicas de sintetização modernas de texto para discurso do dia ao som divertido ou diferente ao fornecer respostas. Além disso, não há representação visual do assistente digital que pode ser utilizada para conduzir qualquer aspecto de uma resposta divertida.

SUMÁRIO

[003] Sistemas, métodos, aparelhos e produtos de programa de computador são aqui descritos para implementar um assistente digital pessoal. O assistente digital pessoal é capaz de determinar que um usuário fez uma pergunta ou fez uma afirmação que é destinada para engajar-se com uma pessoa do assistente digital pessoal por oposição, por exemplo, à solicitação que o assistente digital pessoal obtém a informação ou realiza alguma outra tarefa em nome do usuário. Em resposta à determinação que o usuário fez tal pergunta ou fez tal afirmação, o assistente digital pessoal fornece uma resposta a ele exibindo ou reproduzindo um objeto de multimídia associado com uma referência de cultura popular dentro ou por uma interface do usuário do assistente digital pessoal. De modo adicional ou alternativo, em resposta à determinação que o usuário fez tal pergunta ou fez tal afirmação, o assistente digital pessoal fornece a resposta a ele gerando ou reproduzindo discurso que compreende uma representação de uma voz de uma pessoa associada com a referência de cultura popular. Ainda, o assistente digital pessoal pode fornecer a resposta exibindo dentro da interface do usuário do assistente digital pessoal o texto que compreende uma citação associada com a referência de cultura popular, exibindo dentro da interface do usuário do assistente digital pessoal uma representação visual do assistente digital pessoal que evoca a referência de cultura popular, e/ou exibindo dentro da interface do usuário do assistente digital pessoal um link que pode ser ativado pelo usuário para acessar o conteúdo associado com a referência de cultura popular.

[004] Em particular, um método para implementar um assistente digital pessoal é descrito aqui. De acordo com o método, uma representação digital de uma expressão de um usuário do assistente digital pessoal é recebida. Com base pelo menos em uma análise da representação digital da expressão, determina-se que a expressão compreende uma expressão destinada para engajar-se com uma pessoa do assistente digital pessoal. Em resposta pelo menos à determinação que a expressão compreende uma expressão destinada para engajar- se com uma pessoa do assistente digital pessoal, o assistente digital pessoal é causado para gerar uma resposta à expressão. A resposta à expressão inclui um objeto de multimídia (por exemplo, conteúdo de imagem, vídeo ou conteúdo de áudio) que é exibido dentro ou reproduzido por uma interface do usuário do assistente digital pessoal e que está associado com uma referência de cultura popular. De modo alternativo ou adicional, a resposta à expressão inclui discurso que é gerado ou reproduzido pelo assistente digital pessoal e que compreende uma representação de uma voz de uma pessoa associada com a referência de cultura popular.

[005] Em uma modalidade do método precedente, a resposta à expressão inclui ainda o texto que é exibido dentro da interface do usuário do assistente digital pessoal, o texto compreendendo uma citação associada com a referência de cultura popular.

[006] Em outra modalidade, o discurso compreende uma citação associada com a referência de cultura popular.

[007] Ainda em outra modalidade, a resposta à expressão inclui ainda uma representação visual do assistente digital pessoal que é exibida dentro da interface do usuário respectiva e que evoca a referência de cultura popular. Ainda de acordo com tal modalidade, a representação visual do assistente digital pessoal pode compreender uma animação do assistente digital pessoal.

[008] Ainda em outra modalidade, a resposta à expressão inclui ainda um link que é exibido dentro da interface do usuário do assistente digital pessoal e que pode ser ativado pelo usuário para acessar o conteúdo associado com a referência de cultura popular.

[009] Dependendo da implementação do método precedente, fazendo com que a resposta à expressão seja gerada podendo incluir a identificação de uma pluralidade de respostas elegíveis à expressão e selecionando a resposta à expressão dentre a pluralidade de respostas elegíveis à expressão.

[0010] De acordo com outra implementação, fazer com que a res posta à expressão seja gerada inclui combinar a expressão a um tipo de expressão particular dentro de uma árvore hierárquica de tipos de expressão, cada tipo de expressão na árvore hierárquica de tipos de expressão tendo uma ou mais respostas associadas com ela e selecionar a resposta à expressão dentre a(s) resposta(s) associada(s) com o tipo de expressão particular.

[0011] De acordo com uma implementação adicional, fazer com que a resposta à expressão seja gerada inclui determinar que a expressão está associada com um tópico de tendência e em resposta à determinação que a expressão está associada com o tópico de tendência, selecionar a resposta à expressão dentre uma ou mais respostas associadas com o tópico de tendência.

[0012] Ainda de acordo com uma implementação adicional, fazer com que a resposta à expressão seja gerada incluindo determinar que a expressão é uma expressão para a qual há uma ou mais respostas predefinidas destinadas a conduzir a pessoa do assistente digital pessoal e em resposta à determinação que a expressão é uma expressão para a qual há uma ou mais respostas predefinidas destinadas a conduzir a pessoa do assistente digital pessoal, selecionar a resposta à expressão dentre uma ou mais respostas predefinidas.

[0013] Em outra modalidade do método precedente, fazer com que a resposta à expressão seja gerada inclui enviar um arquivo de áudio que inclui o discurso ou a informação que identifica o arquivo de áudio a um dispositivo de computação que executa o assistente digital pessoal.

[0014] Ainda em outra modalidade, fazer com que a resposta à expressão seja gerada inclui fornecer o texto a um dispositivo de computação que executa o assistente digital pessoal, o texto seja processado por um componente de texto em discurso do assistente digital pessoal para gerar o discurso.

[0015] Um dispositivo de computação é também aqui descrito. O dispositivo de computação inclui pelo menos um processador e uma memória. A memória armazena a lógica de programa de computador para execução por pelo menos um processador. A lógica de programa de computador inclui um ou mais componentes configurados para realizar as operações quando executadas por pelo menos um processador. Um ou mais componentes inclui um assistente digital pessoal. O assistente digital pessoal é configurado para capturar áudio que repre-senta uma expressão de um usuário e para transmitir o áudio a uma back-end do assistente digital pessoal. A expressão compreende uma expressão destinada para engajar-se com uma pessoa do assistente digital pessoal. O assistente digital pessoal é ainda configurado para fornecer uma resposta à expressão com base pelo menos na informação recebida da back-end do assistente digital pessoal. Fornecer a resposta inclui gerar ou reproduzir o discurso que compreende uma representação de uma voz de uma pessoa associada com uma referência de cultura popular.

[0016] Em uma modalidade do dispositivo de computação, o assis tente digital pessoal é configurado para reproduzir um arquivo de áudio que inclui o discurso. Em outra modalidade do dispositivo de computação, o assistente digital pessoal é configurado para aplicar a conversão do texto em discurso em texto para gerar o discurso.

[0017] Em outra modalidade do dispositivo de computação, fornecer a resposta inclui ainda pelo menos um dentre exibir ou reproduzir um objeto de multimídia por uma interface do usuário do assistente digital pessoal, o objeto de multimídia sendo associado com a referência de cultura popular, exibir o texto dentro da interface do usuário do assistente digital pessoal, o texto compreendendo uma citação associada com a referência de cultura popular, exibir uma representação visual do assistente digital pessoal que evoca a referência de cultura popular dentro da interface do usuário do assistente digital pessoal e exibir um link dentro da interface do usuário do assistente digital pessoal que pode ser ativado pelo usuário para acessar o conteúdo associado com a referência de cultura popular.

[0018] Outro dispositivo de computação é descrito aqui. O disposi tivo de computação inclui pelo menos um processador e uma memória. A memória armazena a lógica de programa de computador para execução por pelo menos um processador. A lógica de programa de computador inclui um ou mais componentes configurados para realizar as operações quando executadas por pelo menos um processador. Um ou mais componentes incluem um assistente digital pessoal. O assistente digital pessoal é configurado para capturar o áudio que representa uma expressão de um usuário e para transmitir o áudio a uma back-end do assistente digital pessoal. A expressão compreende uma expressão destinada para engajar-se com uma pessoa do assistente digital pessoal. O assistente digital pessoal é ainda configurado para fornecer uma resposta à expressão com base pelo menos na informação recebida da back-end do assistente digital pessoal. Fornecer a resposta inclui exibir ou reproduzir um objeto de multimídia associado com uma referência de cultura popular por uma interface do usuário do assistente digital pessoal.

[0019] Em uma modalidade do dispositivo de computação, o obje to de multimídia compreende um conteúdo de imagem, vídeo, ou conteúdo de áudio.

[0020] Em outra modalidade do dispositivo de computação, forne cer a resposta inclui ainda pelo menos um dentre gerar ou reproduzir o discurso que compreende uma representação de uma voz de uma pessoa associada com a referência de cultura popular, exibir o texto dentro da interface do usuário do assistente digital pessoal, o texto compreendendo uma citação associada com a referência de cultura popular, exibir uma representação visual do assistente digital pessoal que evoca a referência de cultura popular dentro da interface do usuário do assistente digital pessoal e exibir um link dentro da interface do usuário do assistente digital pessoal que pode ser ativado pelo usuário para acessar o conteúdo associado com a referência de cultura popular.

[0021] Esse Sumário é fornecido para introduzir uma seleção de conceitos em uma forma simplificada que são ainda descritos abaixo na Descrição detalhada. Esse Sumário não é destinado para identificar os recursos chave ou recursos essenciais da matéria reivindicada, nem é destinado para ser utilizado para limitar o escopo da matéria reivindicada. Além disso, é observado que a matéria reivindicada não é limitada às modalidades específicas descritas na Descrição detalhada e/ou outras seções desse documento. Tais modalidades são apresentadas aqui para finalidades ilustrativas apenas. As modalidades adicionais serão evidentes aos técnicos no assunto na(s) técnica(s) relevante(s) com base nos ensinamentos aqui contidos.

BREVE DESCRIÇÃO DOS DESENHOS

[0022] Os desenhos anexos, que estão aqui incorporados e for mam parte do relatório descritivo, ilustram as modalidades da presente invenção e, juntos com a descrição, ainda servem para explicar os princípios da invenção e para permitir que um técnico no assunto na(s) técnica(s) relevante (s) faça e use a invenção.

[0023] A figura 1 é um diagrama em blocos de um sistema exem plar que implementa um assistente digital pessoal que utiliza as repre-sentações e multimídia ao responder às expressões do tipo conversa de acordo com uma modalidade exemplar.

[0024] A figura 2 é um diagrama em blocos que mostra como os vários componentes do sistema da figura 1 operam para permitir que um assistente digital pessoal determine que um usuário fez uma expressão do tipo conversa e para fornecer a resposta a ele.

[0025] A figura 3 retrata uma árvore hierárquica exemplar dos tipos de expressão que podem ser utilizados para selecionar uma resposta a uma expressão do tipo conversa de acordo com uma modalidade.

[0026] A figura 4 é um diagrama em blocos que mostra uma res posta exemplar que pode ser fornecida por um assistente digital pessoal em resposta a uma expressão do tipo conversa de acordo com uma modalidade

[0027] As figuras 5 a 10 fornecem exemplos ilustrativos de respos tas às expressões do tipo conversa que podem ser entregues através da interface do usuário de um assistente digital pessoal de acordo com várias modalidades.

[0028] A figura 11 retrata um fluxograma de um método para im plementar um assistente digital pessoal que utiliza as representações e/ou multimídia ao responder às expressões do tipo conversa de acordo com uma modalidade.

[0029] A figura 12 retrata um fluxograma de um método pelo qual um assistente digital pessoal fornece uma resposta a uma expressão do tipo conversa que inclui uma representação de voz de acordo com uma modalidade.

[0030] A figura 13 retrata um fluxograma de um método pelo qual um assistente digital pessoal fornece uma resposta a uma expressão do tipo conversa que inclui um objeto de multimídia de acordo com uma modalidade.

[0031] A figura 14 é um diagrama em blocos de um dispositivo móvel exemplar que pode ser utilizado para implementar várias modalidades.

[0032] A figura 15 é um diagrama em blocos de um sistema de computador com base no processador exemplar que pode ser utilizado para implementar as várias modalidades.

[0033] Os recursos e vantagens da presente invenção se tornarão mais evidentes a partir da descrição detalhada estabelecida abaixo quando em conjunto com os desenhos, nos quais os caracteres de re- ferência similares identificam os elementos correspondentes por todo o relatório. Nos desenhos, os números de referência similares geralmente indicam os elementos idênticos, funcionalmente similares e/ou estruturalmente similares. O desenho no qual um elemento primeiro aparece é indicado pelo(s) dígito(s) mais à esquerda no número de referência correspondente.

DESCRIÇÃO DETALHADA I. Introdução

[0034] A seguinte descrição detalhada se refere aos desenhos anexos que ilustram as modalidades exemplares da presente invenção. Entretanto, o escopo da presente invenção não é limitado a essas modalidades, mas é ao contrário definido pelas concretizações anexas. Assim, as modalidades além das mostradas nos desenhos anexos, como as versões modificadas das modalidades ilustradas, podem ser abrangidas pela presente invenção.

[0035] As referências no relatório descritivo a "uma modalidade", "uma modalidade", "uma modalidade exemplar", ou similar, indicam que a modalidade descrita pode incluir um recurso, estrutura ou característica específica, mas cada modalidade pode não incluir necessariamente o recurso, a estrutura ou característica específica. Além disso, tais frases não são necessariamente referentes à mesma modalidade. Além disso, quando um recurso, estrutura, ou característica específica for descrita em conexão com uma modalidade, submete-se estar dentro do conhecimento dos técnicos no assunto na(s) técnica(s) relevan- te(s) para implementar tal recurso, estrutura, ou característica em conexão com outras modalidades se ou não explicitamente descrito.

[0036] Sistemas, métodos, aparelhos e produtos de programa de computador são aqui descritos para implementar um assistente digital pessoal. O assistente digital pessoal é capaz de determinar que um usuário fez uma pergunta ou fez uma afirmação que é destinada para engajar-se com uma pessoa do assistente digital pessoal conforme oposto, por exemplo, à solicitação que o assistente digital pessoal obtém informação ou realiza alguma outra tarefa em nome do usuário. Em resposta à determinação que o usuário fez tal pergunta ou fez tal afirmação, o assistente digital pessoal fornece uma resposta a ele exibindo ou reproduzindo um objeto de multimídia associado com uma referência de cultura popular dentro ou por uma interface do usuário do assistente digital pessoal. De modo adicional ou alternativo, em resposta à determinação que o usuário fez tal pergunta ou fez tal afirmação, o assistente digital pessoal fornece a resposta a ele gerando ou reproduzindo discurso que compreende uma representação de uma voz de uma pessoa associada com a referência de cultura popular. Ainda, o assistente digital pessoal pode fornecer a resposta exibindo dentro da interface do usuário do assistente digital pessoal texto que compreende uma citação associada com a referência de cultura popular, exibir dentro da interface do usuário do assistente digital pessoal uma representação visual do assistente digital pessoal que evoca a referência de cultura popular, e/ou exibir dentro da interface do usuário do assistente digital pessoal um link que pode ser ativado pelo usuário para acessar o conteúdo associado com a referência de cultura popular.

[0037] Permitir que o assistente digital pessoal responda às ex pressões do usuário que são destinadas ao envolvimento com sua pessoa (também referido aqui como "expressões do tipo conversa") na forma precedente, as modalidades descritas aqui podem vantajosamente aumentar o nível de envolvimento entre o usuário e o assistente digital pessoal e também estabelecer um elemento de confiança entre o usuário e o assistente, facilitando assim o uso continuado e a interação com o assistente digital pessoal. Por exemplo, por meio do fornecimento das respostas que incluem os objetos de multimídia, representações de voz, cotações e links associados com referências de cultura popular semelhantemente para serem reconhecidos e/ou observados pelo usuário, o assistente digital pessoal pode entreter e estabelecer um sentido de convergência com o usuário.

[0038] A Seção II descreve um sistema exemplar que implementa um assistente digital pessoal que utiliza representações e/ou multimídia ao responder às expressões do tipo conversa de acordo com as modalidades. A Seção III descreve métodos exemplares para implementar um assistente digital pessoal que utiliza representações e/ou multimídia ao responder às expressões do tipo conversa de acordo com as modalidades. A Seção IV descreve um dispositivo móvel exemplar que pode ser utilizado para implementar um assistente digital pessoal de acordo com as modalidades aqui descritas. A Seção V descreve um desktop exemplar que pode ser utilizado para implementar um assistente digital pessoal de acordo com as modalidades aqui descritas. A Seção VI fornece algumas observações finais.

II. Sistema exemplar que implementa um assistente digital pessoal que utiliza as representações e/ou multimídia em respostas

[0039] A figura 1 é um diagrama em blocos de um sistema exem plar 100 que implementa um assistente digital pessoal que utiliza as representações e multimídia ao responder às expressões do tipo conversa de acordo com uma modalidade exemplar. Conforme mostrado na figura 1, o sistema 100 inclui um dispositivo de computação de usuário final 102 que é comunicavelmente conectado a uma back-end do assistente digital pessoal 106 através de uma ou mais redes 104. Cada um desses componentes agora será descrito.

[0040] O dispositivo de computação de usuário final 102 é destina do para representar um dispositivo eletrônico com base no processador que é capaz de executar um assistente digital pessoal com base no software 130 que é instalado nele. O assistente digital pessoal 130 pode ser executado em nome de um usuário do dispositivo de computação de usuário final 102. Em uma modalidade, o dispositivo de computação de usuário final 102 compreende um dispositivo de computação móvel como um celular (por exemplo, um smartphone), um notebook, um tablet, um netbook, um computador utilizável como um relógio inteligente ou um computador suspenso, um leitor de mídia portátil, um consoe de jogo portátil, uma assistente de navegação pessoal, uma câmera, ou qualquer outro dispositivo móvel capaz de executar um assistente digital pessoal em nome de um usuário. Um exemplo de um dispositivo móvel que pode incorporar a funcionalidade do dispositivo de computação de usuário final 102 será discutido abaixo com referência à figura 14. Em outra modalidade, o dispositivo de computação de usuário final 102 compreende um desktop, um console de jogos, ou outra plataforma computacional não móvel que é capaz de executar um assistente digital pessoal em nome de um usuário. Um desktop exemplar pode incorporar a funcionalidade do dispositivo de computação de usuário final 102 será discutido abaixo com referência à figura 15.

[0041] O dispositivo de computação de usuário final 102 é capaz de se comunicar com a back-end do assistente digital pessoal 106 através da rede 104. A back-end do assistente pessoal 106 compreende um ou mais computadores (por exemplo, servidores) que são programados para fornecer serviços no suporte das operações do assistente digital pessoal 130 e outros assistentes pessoais digitais que executam em outros dispositivos de computação do usuário final. Por exemplo, como será discutido aqui, a back-end do assistente pessoal 106 inclui um ou mais computadores configurados para fornecer serviços ao assistente digital pessoal 130 referente ao reconhecimento do discurso e entendimento e resposta da consulta. Em particular, conforme mostrado na figura 1, esses serviços são respectivamente fornecidos por um serviço de reconhecimento do discurso 132 e um sistema de entendimento e resposta da consulta 136. É observado que a back-end do assistente digital pessoal 106 pode realizar qualquer número de outros serviços em nome de assistente digital pessoal 130 embora tais serviços adicionais não possam ser explicitamente descritos aqui.

[0042] Em uma modalidade, a back-end do assistente digital pes soal 106 compreende uma back-end com base em nuvem na qual qualquer uma de um número de máquinas adequadamente configuradas pode ser arbitrariamente selecionada para apresentar um ou mais serviços desejados no suporte de assistente digital pessoal 130. Como será observado pelos técnicos no assunto na(s) técnico(s) relevan- te(s), tal implementação à base de nuvem fornece(m) um quadro confiável e escalável para fornecer os serviços de back-end aos assistentes pessoais digitais, como assistente digital pessoal 130.

[0043] Rede(s) 104 é(são) destinada(s) para representar qualquer tipo de rede ou combinação de redes adequadas para facilitar a comunicação entre os dispositivos de computação de usuário final, como dispositivo de computação de usuário final 102 e back-end do assistente digital pessoal 106. Rede(s) 104 pode(m) incluir, por exemplo e sem limitação, uma rede de área ampla, uma rede de área local, uma rede privada, uma rede pública, uma rede de bolso, uma rede comutada por circuito, uma rede cabeada, e/ou uma rede sem fio.

[0044] Como ainda mostrado na figura 1, o dispositivo de compu tação de usuário final 102 inclui uma pluralidade de componentes in- terconectados, incluindo uma unidade de processamento 110, memória não volátil 120, memória volátil 112, um ou mais dispositivos de entrada do usuário 116, uma tela 118 e uma ou mais interfaces de rede 114. Cada um desses componentes será agora descrito.

[0045] A unidade de processamento 110 é destinada para repre sentar um ou mais microprocessadores, cada um podendo ter uma ou mais unidades de processamento central (CPUs) ou núcleos do microprocessador. A unidade de processamento 110 opera em uma forma bem conhecida para executar os programas de computador (também referidos aqui como lógica de programa de computador). A execução de tais programas de computador faz com que a unidade de processamento 110 realize as operações incluindo as operações que serão descritas aqui. Cada um dentre a memória não volátil 120, a memória volátil 112, o(s) dispositivo(s) de entrada do usuário 116, tela 118 e interface(s) de rede 114 é conectada à unidade de processamento 110 através de uma ou mais interfaces adequadas.

[0046] A memória não volátil 120 compreende um ou mais dispositivos de memória legível por computador que operam para armazenar os programas de computador e dados em uma forma persistente, de modo que a informação armazenada não será perdida mesmo quando o dispositivo de computação de usuário final 102 está sem energia ou em um estado desligado. A memória não volátil 120 pode ser implementada utilizando qualquer um de uma ampla variedade de dispositivos de memória não volátil legível por computador, incluindo, entre outros, os dispositivos de memória somente leitura (ROM), unidades no estado sólido, unidades de disco rígido, meio de armazenamento magnético como discos magnéticos e unidades associadas, meio de armazenamento óptico como discos ópticos e unidades associadas e dispositivos de memória flash como unidades flash USB.

[0047] A memória volátil 112 compreende um ou mais dispositivos de memória legível por computador que operam para armazenar programas de computador e dados em uma forma não persistente, de modo que s informação armazenada será perdida quando o dispositivo de computação de usuário final 102 está sem energia ou em um estado desligado. A memória volátil 112 pode ser implementada utilizando qualquer um de uma variedade de dispositivos de memória legível por computador volátil incluindo, entre outros, dispositivos de memória de acesso aleatório (RAM).

[0048] A tela 118 compreende um dispositivo no qual o conteúdo, como texto e imagens, pode ser representado de modo que será visível a um usuário do dispositivo de computação de usuário final 102. Algumas ou todas as operações de renderização necessárias para exibir tal conteúdo podem ser realizadas pelo menos parcialmente pela unidade de processamento 110. Algumas ou todas as operações de renderização podem também ser realizadas por uma interface de dispositivo de exibição como um vídeo ou chip ou cartão de gráficos (não mostrado na figura 1) que é acoplado entre a unidade de processamento 110 e tela 118. Dependendo da implementação do dispositivo de computação de usuário final 102, a tela 118 pode compreender um dispositivo que é integrado dentro da mesma estrutura física ou invólucro como unidade de processamento 110 ou pode compreender um monitor, projetor ou outro tipo de dispositivo que é fisicamente separado de uma estrutura ou invólucro que inclui unidade de processamento 110 e conectado a ele através de uma conexão adequada com e/ou sem fio.

[0049] Dispositivo(s) de entrada do usuário 116 compreende(m) um ou mais dispositivos que operam para gerar a informação de entrada ao usuário em resposta a uma manipulação ou controle do usuário respectivo. Tal informação de entrada ao usuário é passada através de uma interface adequada à unidade de processamento 110 para o processamento respectivo. Dependendo da implementação, o(s) dis- positivo(s) de entrada do usuário 116 pode(m) incluir uma tela de toque (por exemplo, uma tela de toque integrada com a tela 118), um teclado, um teclado numérico, um mouse, um touchpad, uma trackball, um joystick, um bastão apontador, uma luva cabeada, u sensor de ras- treamento de movimento, um controlador de jogo ou gamepad, ou um dispositivo de captura de vídeo como uma câmera. Entretanto, esses exemplos não são destinados a serem limitados e o(s) dispositivo(s) de entrada do usuário 116 pode(m) incluir outros tipos de dispositivos diferentes dos listados aqui. Dependendo da implementação, cada dispositivo de entrada do usuário 116 pode ser integrado dentro da estrutura física ou invólucro como unidade de processamento 110 (como uma tela de toque integrada, touchpad, ou teclado em um dispositivo móvel) ou fisicamente separado de uma estrutura física ou invólucro que inclui a unidade de processamento 110 e conectado a ele através de uma conexão adequada com e/ou sem fio.

[0050] A(s) interface(s) de rede 114 compreende(m) uma ou mais interfaces que permitem que o dispositivo de computação de usuário final 102 se comunique através de uma ou mais redes 104. Por exemplo, a(s) interface(s) de rede 114 pode(m) compreendem uma interface de rede cabeada como uma interface Ethernet ou uma interface de rede sem fio como uma interface IEEE 802.11 ("Wi-Fi") ou uma interface de telecomunicação 3G. Entretanto, esses são exemplos apenas e não são destinados a serem limitados.

[0051] Como ainda mostrado na figura 1, a memória não volatile 120 armazena vários componentes de software incluindo uma pluralidade de aplicativos 122 e um sistema operacional 124.

[0052] Cada aplicativo na pluralidade de aplicativos 122 compre ende um programa de computador que um usuário do dispositivo de computação de usuário final 102 pode fazer com que seja executado pela unidade de processamento 110. A execução de cada aplicativo faz com que certas operações sejam realizadas em nome do usuário, em que o tipo de operações realizado variará dependendo de como o aplicativo é programado. Os aplicativos 122 podem incluir, por exemplo e sem limitação, um aplicativo de telefonia, um aplicativo de e-mail, um aplicativo de mensagens, um aplicativo de navegação da Web, um aplicativo de calendário, um aplicativo de utilidade, um aplicativo de jogo, um aplicativo de rede social, um aplicativo de música, um aplica- tivo de produtividade, um aplicativo de estilo de vida, um aplicativo de referência, um aplicativo de viagem, um aplicativo de esporte, um aplicativo de navegação, um aplicativo de cuidado com a saúde e fitness, um aplicativo de novidade, um aplicativo de fotografia, um aplicativo financeiro, um aplicativo empresarial, um aplicativo de educação, um aplicativo climático, um aplicativo de livros, um aplicativo médico, ou similar. Conforme mostrado na figura 1, aplicativos 122 incluem um assistente digital pessoal 130, as funções das quais serão descritas em mais detalhes aqui.

[0053] Os aplicativos 122 podem ser distribuídos e/ou instalados no dispositivo de computação de usuário final 102 em várias formas, dependendo da implementação. Por exemplo, em uma modalidade, pelo menos um aplicativo é baixado de um aplicativo armazenado e instalado no dispositivo de computação de usuário final 102. Em outra modalidade na qual o dispositivo do usuário final 102 é utilizado como parte ou conjunto com uma rede empresarial, pelo menos um aplicativo é distribuído ao dispositivo de computação de usuário final 102 por um sistema administrator utilizando qualquer uma de uma variedade de ferramentas de gerenciamento de rede empresarial e, então, instalado nela. Ainda em outra modalidade, pelo menos um aplicativo é instalado no dispositivo de computação de usuário final 102 por um construtor do sistema, como por um fabricante de equipamento original (OEM) ou fabricante de dispositivo embutido, utilizando qualquer um de uma variedade de utilidades adequadas do construtor do sistema. Em uma modalidade adicional, um fabricante do sistema operacional pode incluir um aplicativo com o sistema operacional 124 que está instalado no dispositivo de computação de usuário final 102.

[0054] O sistema operacional 124 compreende um conjunto de programas que gerenciam recursos e fornecem serviços comuns para os aplicativos que são executados no dispositivo de computação de usuário final 102, como aplicativos 122. Entre outros recursos, o sistema operacional 124 compreende uma interface do usuário do sistema operacional (OS) 132. A interface do usuário OS 132 compreende um componente do sistema operacional 124 que gera uma interface do usuário pela qual um usuário pode interagir com o sistema operacional 124 para várias finalidades, como entre outros aplicativos de busca e lançamento, invocando certa funcionalidade do sistema operacional e definindo certos ajustes do sistema operacional. Em uma modalidade, a interface do usuário OS 132 compreende uma interface do usuário gráfica (GUI) com base na tela sensível ao toque, embora isso seja apenas um exemplo. Ainda de acordo com tal exemplo, cada aplicativo 122 instalado no dispositivo de computação de usuário final 102 pode ser representado como um ícone ou bloco dentro da GUI e invocada por um usuário através da interação da tela sensível ao toque com o ícone ou bloco apropriado. Entretanto, qualquer um de uma ampla variedade de modelos alternativos de interface do usuário pode ser utilizado pela interface do usuário OS 132.

[0055] Embora aplicativos 122 e sistema operacional 124 sejam mostrados como sendo armazenados na memória não volátil 120, deve-se entender que durante a operação do dispositivo de computação de usuário final 102, aplicativos 122, sistema operacional 124, ou partes respectivas, podem ser carregados à memória volátil 112 e executados como processos pela unidade de processamento 110.

[0056] O assistente digital pessoal 130 compreende um programa de computador que é configurado para realizar tarefas, ou serviços, para um usuário do dispositivo de computação de usuário final 102 com base na entrada do usuário bem como recursos como conhecimento de localização e a capacidade de acessar informação de uma variedade de fontes incluindo fontes online (como condições climáticas ou de tráfego, novidades, preços de estoque, programações do usuá- rio, preços de varejo, etc.). Exemplos de tarefas que podem ser realizadas pelo assistente digital pessoal 130 em nome do usuário podem incluir, entre outros, colocar uma chamada telefônica em uma pessoa especificada pelo usuário, lançar um aplicativo específico do usuário, enviar um e-mail especificado pelo usuário ou mensagem de texto a um destinatário especificado pelo usuário, reproduzir a música específica do usuário, agendar uma reunião ou outro evento em um calendário do usuário, obter direções a uma localização especificada pelo usuário, obter uma pontuação associada com um evento de esporte especificado pelo usuário, postar conteúdo especificado pelo usuário em um site de mídia social ou serviço de microblog, gravação de lembretes ou notas especificadas pelo usuário, obter um relatório climático, obter o período atual, ajudar um alarme em um período especificado pelo usuário, obter um preço de estoque para uma empresa especificada pelo usuário, encontrar um estabelecimento comercial próximo, realizar uma busca na Internet, ou similar. O assistente digital pessoal 130 pode utilizar qualquer uma de uma variedade de técnicas de inteligência artificial para melhorar seu desempenho ao longo do tempo através da interação continuada com o usuário. O assistente digital pessoal 130 pode também ser referido como um assistente pessoal inteligente, um assistente de software inteligente, um assistente pessoal virtual, ou similar.

[0057] O assistente digital pessoal 130 é configurado para fornecer uma interface do usuário pela qual um usuário pode submeter perguntas, comandos ou outras entradas verbais e pela qual as respostas a essa entrada podem ser entregues ao usuário. Em uma modalidade, a entrada pode compreender o discurso do usuário que é capturado por um ou mais microfones do dispositivo de computação de usuário final 102 (cada um pode compreender um dos dispositivos de entrada do usuário 116), embora esse exemplo não seja destinado para ser limi- tado e a entrada do usuário pode ser fornecida em outras formas também. As respostas geradas pelo assistente digital pessoal 130 podem se tornar visíveis ao usuário na forma de texto, imagens, ou outro conteúdo visual mostrado na tela 118 dentro de uma interface do usuário gráfica do assistente digital pessoal 130. As respostas podem também compreender discurso gerado pelo computador ou outro conteúdo de áudio que é reproduzido através de um ou mais alto-falantes do dispositivo de computação de usuário final 102 (não mostrado na figura 1).

[0058] De acordo com as modalidades, o assistente digital pessoal 130 é capaz de determinar que um usuário fez uma pergunta ou fez uma afirmação que é destinada para engajar-se com uma pessoa do assistente digital pessoal 130 conforme oposto, por exemplo, à solicitação que o assistente digital pessoal obtém informação ou realiza alguma outra tarefa em nome do usuário. Tais perguntas ou afirmações são geralmente causais ou divertidas por natureza e podem incluir, por exemplo, "Você se casará comigo?", "Qual sua cor preferida?", "Conte uma música para mim", "Conte uma piada", "Knock knock", "Três tigres tristes para três pratos de trigo. Três pratos de trigo para três tigres tristes?", "Quem faz o melhor celular?", "Onde posso esconder um corpo?", "Como você é?", "Você é bonita", "Quantos anos tem?", "Quem é seu pai?", "Você tem namorado?", "Qual o significado da vi-da?", "Gostaria de lhe conhecer melhor", ou similar. Para conveniência, tais perguntas e afirmações são referidas aqui como "expressões do tipo conversa" ou simplesmente "conversa".

[0059] Como será discutido abaixo, o assistente digital pessoal 130 é ainda configurado para tomar certas ações em resposta à determinação que o usuário fez uma expressão do tipo conversa. Por exemplo, em resposta à determinação que o usuário fez uma expressão do tipo conversa, o assistente digital pessoal 130 pode fornecer uma resposta a ele exibindo um objeto de multimídia associado com uma referência de cultura popular dentro de sua interface do usuário (quando o objeto de multimídia é visual por natureza) ou reproduzir por sua interface do usuário tal objeto de multimídia (quando o objeto de multimídia é auditivo por natureza). Como aqui utilizado, o termo "referência de cultura popular" é destinado para abranger amplamente uma referência a qualquer matéria associada com os costumes, artes e/ou interações sociais de uma grande parte de uma população. Por exemplo e sem qualquer limitação de qualquer tipo, uma referência de cultura popular pode incluir uma referência ao filme bem conhecido, show de televisão, novela, conto, pintura, videogame, imagem, vídeo, desenho, celebridade, ator ou atriz, político ou outra figura pública, estereótipos, meme, evento atual, evento histórico, ou similar.

[0060] De modo adicional ou alternativo, em resposta à determinação que o usuário fez uma expressão do tipo conversa, o assistente digital pessoal 130 pode fornecer a resposta a ele gerando ou reproduzindo discurso que compreende uma representação de uma voz de uma pessoa associada com a referência de cultura popular. Ainda, o assistente digital pessoal 130 pode ser configurado para fornecer a resposta exibindo dentro de sua interface do usuário o texto que compreende uma citação associada com a referência de cultura popular, exibir dentro de sua interface do usuário uma representação visual do assistente digital pessoal que evoca a referência de cultura popular, e/ou exibir dentro de sua interface do usuário um link que pode ser ativado pelo usuário para acessar o conteúdo associado com a referência de cultura popular.

[0061] Uma forma na qual o assistente digital pessoal 130 determi na que o usuário fez uma expressão do tipo conversa e fornece uma resposta a ele agora será descrita com referência ao diagrama em blocos 200 da figura 2. Em particular, o diagrama em blocos 200 mostra como vários componentes do sistema 100 operam juntos para permitir que o assistente digital pessoal 130 determine que um usuário fez uma expressão do tipo conversa e para fornecer uma resposta a ele.

[0062] Com referência à figura 2, o processo começa após o assistente digital pessoal 130 ter sido iniciado no dispositivo de computação de usuário final 102. Para interagir com o assistente digital pessoal 130, um usuário fala em um ou mais microfones do dispositivo de computação de usuário final 102. A expressão do usuário é capturada pelo(s) microfone(s) e convertida da forma analógica para digital em uma forma bem conhecida. O assistente digital pessoal 130 faz com que a representação digital da expressão seja transmitida como um fluxo de áudio ao serviço de reconhecimento do discurso 132 (que faz parte da back-end do assistente digital pessoal 106) através da(s) re- de(s) 104. Por exemplo, em uma modalidade, como um usuário fala no(s) microfone(s) do dispositivo do usuário final de computação, o assistente digital pessoal 130 periodicamente faz com que uma representação digital de uma parte da expressão do usuário seja empacotada e transmitida ao serviço de reconhecimento do discurso 132 atra-vés da(s) rede(s) 104.

[0063] O serviço de reconhecimento do discurso 132 opera para receber o fluxo de áudio transmitido a ele pelo assistente digital pessoal 130 e para analisar o fluxo de áudio para determinar o conteúdo fonético respectivo. Uma vez que o serviço de reconhecimento do discurso 132 determinou o conteúdo fonético do fluxo de áudio, ele então mapeia o conteúdo fonético em uma ou mais palavras, que juntas compreendem uma expressão reconhecida. O serviço de reconhecimento do discurso 132 então passa a expressão reconhecida ao sistema de entendimento e resposta da consulta 136.

[0064] Conforme mostrado na figura 2, o serviço de reconhecimento do discurso 132 pode também transmitir a expressão reconhecida de volta ao assistente digital pessoal 130 através da(s) rede(s) 104. O assistente digital pessoal 130 pode exibir uma versão do texto da expressão reconhecida dentro de sua interface do usuário gráfica (visível através da tela 118) de modo que o usuário possa visualizar a expressão reconhecida e determinar se ou não a expressão reconhecida representa precisamente o que ele/ela disse. De acordo com certas modalidades, o assistente digital pessoal 130 pode ainda fornecer um meio pelo qual o usuário pode editar a expressão reconhecida se ele/ela determinar que a expressão reconhecida não representa precisamente o que ele/ela disse e transmite a versão editada da expressão ao sistema de entendimento e resposta da consulta 136 para pro-cessamento adicional respectivo.

[0065] O sistema de entendimento e resposta da consulta 136 recebe a expressão reconhecida ou corrigida e analisa as palavras respectivas para determinar como tal expressão deveria ser controlada por ele. Por exemplo, o sistema de entendimento e resposta da consulta 136 pode determinar que a expressão reconhecida ou corrigida compreende uma invocação de uma tarefa específica dentro de um conjunto predefinido de tarefas. Por exemplo e sem qualquer limitação, a tarefa pode compreender encaminhar uma chamada para uma pessoa especificada pelo usuário (por exemplo, "chame Brian"), enviar um e-mail especificado pelo usuário ou mensagem de texto a um destinatário especificado pelo usuário (por exemplo, "avise a Carol que vou correr mais tarde"), ou criar um lembrete (por exemplo, "lembrar-me de verificar o forno em uma hora".). Se o sistema de entendimento e resposta da consulta 136 determina que a expressão reconhecida ou corrigida compreende uma invocação de uma tarefa específica dentro do conjunto predefinido, então ele fará com que uma lógica especializada (por exemplo, lógica especializada dentro do dispositivo de computação de usuário final 102) realize a tarefa.

[0066] Entretanto, se o sistema de entendimento e resposta da consulta 136 falhar em combinar a expressão reconhecida ou corrigida com qualquer uma das tarefas dentro do conjunto predefinido, então o sistema de entendimento e resposta da consulta 136 pode ainda analisar as palavras da expressão para determinar como tal expressão deve ser controlada por ele. Por exemplo, o sistema de entendimento e resposta da consulta 136 pode determinar que a expressão deve ser controlada pela condução de uma busca da Web ou oferecendo ao usuário uma oportunidade de conduzir uma busca da Web. Nesse ca-so, a expressão pode ser controlada pela lógica especializada para facilitar a busca da Web que é interna e/ou externa ao sistema de entendimento e resposta da consulta 136. De modo alternativo, o sistema de entendimento e resposta da consulta 136 pode determinar com base em uma análise das palavras da expressão que a expressão compreende uma expressão do tipo conversa, que conforme observado acima é uma expressão destinada para engajar-se com uma pessoa do assistente digital pessoal 130.

[0067] Dependendo da implementação, o sistema de entendimento e resposta da consulta 136 pode determinar que a expressão compreende uma expressão do tipo conversa com base em uma análise de fatores diferentes ou adicionais a uma análise das palavras da expressão. Por exemplo, o sistema de entendimento e resposta da consulta 136 pode determinar que a expressão compreende uma expressão do tipo conversa com base parcialmente em uma análise de uma entonação da expressão, em pistas contextuais obtidos de um histórico de conversa do usuário, ou em qualquer outro fator que pode ser considerado útil ao determinar que a expressão compreende uma expressão do tipo conversa.

[0068] Se o sistema de entendimento e resposta da consulta 136 determina que a expressão compreende uma expressão do tipo conversa, então a expressão será controlada por um sistema de entendi- mento e resposta da consulta para conversa 138, que faz parte do sistema de entendimento e resposta da consulta 136. O sistema de entendimento e resposta da consulta para conversa 138 é configurado para determinar a matéria da expressão do tipo conversa e então, com base na matéria determinada, realiza as etapas para fazer com que uma resposta apropriada à expressão do tipo conversa seja emitida pelo assistente digital pessoal 130. Conforme mostrado na figura 2, isso pode envolver enviar toda ou parte de uma resposta do sistema de entendimento e resposta da consulta para conversa 138 ao assistente digital pessoal 130 através da(s) rede(s) 104. A composição da resposta e a forma na qual ela é conduzida e/ou gerada pelo assistente digital pessoal 130 será discutida em mais detalhes abaixo.

[0069] Em uma modalidade, o sistema de entendimento e resposta da consulta para conversa 138 determina a matéria da expressão do tipo conversa e então identifica uma pluralidade de respostas elegíveis que são adequadas para responder à expressão. O sistema de entendimento e resposta da consulta para conversa 138 então seleciona uma da pluralidade de respostas elegíveis como a resposta a ser fornecida pelo assistente digital pessoal 130. Tal seleção pode ser realizada em uma certa sequência aleatória, ou utilizando alguma outra metodologia de seleção. Pela manutenção de uma pluralidade de respostas elegíveis para uma dada expressão do tipo conversa, o sistema de entendimento e resposta da consulta para conversa 138 pode garantir que o assistente digital pessoal 130 não fornecerá a mesma resposta à mesma expressão em cada caso, assim fornecendo alguma variedade e imprevisibilidade à interação do usuário com o assistente digital pessoal 130.

[0070] Em uma modalidade, o sistema de entendimento e resposta da consulta para conversa 138 opera para combinar a expressão do tipo conversa com um tipo de expressão particular dentro de uma ár- vore hierárquica de tipos de expressão tendo uma ou mais respostas associadas com ela. O sistema de entendimento e resposta da consulta para conversa 138 então seleciona a resposta à expressão do tipo conversa dentre a(s) resposta(s) associada(s) com ela.

[0071] Para ajudar a ilustrar esse conceito, a figura 3 retrata uma árvore hierárquica exemplar 300 dos tipos de expressão que podem ser utilizados para selecionar uma resposta para uma expressão do tipo conversa de acordo com uma modalidade. Conforme mostrado na figura 3, o nó raiz da árvore hierárquica 300 é o tipo de expressão de conversa geral. Cada tipo de expressão sob esse nó raiz compreende uma expressão do tipo conversa. Em um nível abaixo desse nó raiz estão as expressões do tipo conversa que são afirmações ("Afirmação"), comandos ("Comando"), paquera por natureza ("Flerte"), solicitando a informação sobre o assistente digital pessoal 130 ("Info do sistema"), ou solicitando uma opinião do assistente digital pessoal 130 ("Opinião do sistema"). Sob cada um desses nós estão ainda as categorias e subcategorias dos tipos de expressão de conversa. Assim, os tipos de expressão geralmente começam das mais amplas no tipo de árvore hierárquica 300 às mais estreitas na base da árvore hierárquica 300.

[0072] Em uma modalidade, com base em uma análise da expres são do tipo conversa, o sistema de entendimento e resposta da consulta para conversa 138 atravessa a árvore hierárquica 300 e combina a expressão com um dos nós. Por exemplo, o sistema de entendimento e resposta da consulta para conversa 138 pode gerar uma pontuação de confidência que uma certa expressão do tipo conversa deve ser combinada com "Afirmação", "Comando", "Flerte", "Info do sistema" e "Opinião do sistema". O sistema de entendimento e resposta da consulta para conversa 138 então seleciona o nó para o qual a pontuação de confidência mais alta foi obtida (assumindo que alguma pon-tuação de confidência mínima foi obtida para pelo menos um dos nós). Assumir para finalidades ilustrativas que a pontuação de confidência mais alta é gerada para "Opinião do sistema". Então, o sistema de entendimento e resposta da consulta para conversa 138 atravessará a árvore hierárquica 300 até o nó "Opinião do sistema" e gerará uma pontuação de confidência que a expressão do tipo conversa deve ser combinada a cada um dos nós filho "Opinião do sistema"— a saber, "Microsoft", "Trending" e "Advice". O sistema de entendimento e resposta da consulta para conversa 138 então seleciona o nó filho para o qual a pontuação de confidência mais alta foi obtida (novamente, assumindo alguma pontuação de confidência mínima foi obtida para pelo menos um dos nós filhos). Se a pontuação de confidência para cada um dos nós filhos é menor que alguma pontuação de confidência mínima predefinida, do que a transversal da árvore hierárquica 300 para no nó "Opinião do sistema".

[0073] Uma ou mais respostas são associadas com cada nó na árvore hierárquica 300. Quando o sistema de entendimento e resposta da consulta para conversa 138 é feito transversal à árvore hierárquica 300 e selecionou um nó de combinação para uma expressão do tipo conversa, então o sistema de entendimento e resposta da consulta para conversa 138 pode selecionar uma resposta dentre uma ou mais respostas associadas com o nó de combinação.

[0074] A abordagem precedente à identificação de respostas ade quadas para as expressões do tipo conversa é vantajosa em que permite que as respostas sejam definidas para ambos os grupos amplos de expressões do tipo conversa bem como grupos mais estreitos dentro dos grupos amplos. Em forma de exemplo, para o nó "Microsoft" dentro do nó "Opinião do sistema", respostas muito específicas para as expressões do tipo conversa podem ser produzidas (por exemplo, "Eu acho que a Microsoft é ótima!"), pois o sistema tem um alto nível de confidência que o usuário está pedindo a opinião do assistente digi tal pessoal 130 sobre a Microsoft. Em contrapartida, para o nó "Opinião do sistema", uma resposta mais genérica para as expressões do tipo conversa pode ser produzida (por exemplo, "Nenhum comentário" ou "Eu preferiria não dizer"), pois o sistema tem um alto nível de confidência que o usuário está pedindo opinião do assistente digital pessoal 130, mas não pode determinar a matéria sobre a qual uma opinião está sendo pesquisada.

[0075] Em uma modalidade, os tipos de expressões que podem ser incluídas na árvore hierárquica 300 podem ser determinados através de uma avaliação humana de registros de expressões do usuário e identificação de cada expressão com um tipo de expressão apropriado. Por exemplo, uma plataforma de crowd sourcing como o Sistema de Relevância Humana Universal (UHRS, Universal Human Relevance System), desenvolvida pela Microsoft Corporation de Redmond, Washington, pode ser utilizada para obter a examinação humana e identificação de milhares de expressões do usuário. Essa informação de crowd sourcing pode então ser utilizada para gerar a árvore hierárquica 300. Ainda outros métodos para gerar uma árvore hierárquica de tipos de expressão como árvore hierárquica 300 podem ser utilizados.

[0076] Em outra modalidade, o sistema de entendimento e respos ta da consulta para conversa 138 é configurado para manter uma ou mais respostas associadas com cada um de um ou mais tópicos de tendência. De forma geral falando, os tópicos de tendência são tópicos que estão se tornando populares ou recentemente se tornaram populares com os usuários e podem ser identificados automaticamente (por exemplo, monitorando automaticamente as expressões submetidas aos assistentes pessoais digitais, mecanismos de busca, microblogs como TWITTER, sites de rede social como FACEBOOK, novas publicações, ou outras fontes) ou manualmente (por exemplo, através da observação humana de qualquer uma ou todas essas fontes). Quando o sistema de entendimento e resposta da consulta para conversa 138 determina que uma expressão do tipo conversa está associada com um tópico de tendência particular, então o sistema de entendimento e resposta da consulta para conversa 138 pode selecionar a resposta com a expressão do tipo conversa dentre uma ou mais respostas associadas com o tópico de tendência particular.

[0077] Ainda de acordo com tal modalidade, os tópicos de tendência podem ser representados dentro de uma árvore hierárquica dos tipos de expressão que é utilizada pelo sistema de entendimento e resposta da consulta para conversa 138 para selecionar uma resposta adequada com uma expressão do tipo conversa. Por exemplo, conforme mostrado na figura 3, um dos nós sob "Opinião do sistema" é "Trending". Esse nó pode ser utilizado para armazenar respostas para as expressões do tipo conversa que estão solicitando uma opinião do assistente digital pessoal 130 com relação a um ou mais tópicos de tendência. Ainda de acordo com essa modalidade, o nó "Trending" pode ter múltiplos nós filhos associados com ele, em que cada nó filho está associado com um tópico de tendência particular e tem uma ou mais respostas associadas com ele.

[0078] Ainda em outra modalidade, o sistema de entendimento e resposta da consulta para consulta 138 é configurado para manter uma ou mais respostas para certas expressões do tipo conversa que são destinadas para conduzir a pessoa do assistente digital pessoal 130. Por exemplo, pode haver um interesse em garantir que o assistente digital pessoal 130 tem algo para dizer sobe uma palavra, frase ou tópico específico que está associado com sua pessoa. Nesse caso, uma equipe editorial pode gerar respostas predefinidas a certas expressões do tipo consulta para garantir que o assistente digital pessoal 130 fornece respostas características sempre que tal tópico é discutido. Nesse caso, quando o sistema de entendimento e resposta da consulta para conversa 138 determina que uma expressão do tipo conversa é uma expressão para a qual há uma ou mais respostas pre- definidas destinadas para conduzir a pessoa do assistente digital pessoal 130, o sistema de entendimento e resposta da consulta para conversa 138 selecionará a resposta para a expressão do tipo conversa dentre uma ou mais respostas predefinidas.

[0079] A figura 4 é um diagrama em blocos que mostra uma resposta exemplar 400 que pode ser fornecida pelo assistente digital pessoal 130 em resposta a uma expressão do tipo conversa de acordo com uma modalidade. Conforme mostrado na figura 4, a resposta 400 inclui vários componentes, incluindo uma sequência de exibição 402, conteúdo de fala 404, um componente de representação de fala 406, um componente de emoção de fala 408, uma animação do assistente digital pessoal 410, um componente de multimídia 412 e um link ao conteúdo 414.

[0080] Dependendo da implementação, cada um dos componentes dentro da resposta 400 pode ser armazenado e/ou gerado pela back-end do assistente digital pessoal 106 e transmitido ao assistente digital pessoal 130 pelo sistema de entendimento e resposta da consulta para conversa 138 no momento que a resposta deve ser fornecida a um usuário. De modo alternativo, um, mais do que um, ou todos os componentes de resposta 400 podem ser armazenados e/ou gerados pelo dispositivo de computação de usuário final 102 (por exemplo, na memória não volátil 120) e o sistema de entendimento e resposta da consulta para conversa 138 pode enviar informação do assistente digital pessoal 130 suficiente para identificar ou obter o(s) componen- te(s) no momento que a resposta deve ser fornecida a um usuário, de modo que o assistente digital pessoal 130 possa obter o(s) componen- te(s) localmente.

[0081] Além disso, embora a resposta 400 inclua sete componen- tes diferentes, deve-se entender que uma resposta a uma expressão do tipo conversa pode incluir menos do que todos os componentes mostrados na figura 4.

[0082] A sequência de exibição 402 compreende o texto que sera exibido dentro da interface do usuário do assistente digital pessoal 130. O texto pode compreender uma resposta verbal à expressão do tipo conversa do usuário. Em uma modalidade, a sequência de exibição 402 pode compreender uma citação que está associada com uma referência de cultura popular.

[0083] O conteúdo de fala 404 compreende a fala que deve ser gerado ou reproduzido pela interface do usuário do assistente digital pessoal 130. O assistente digital pessoal 130 pode gerar tal fala aplicando a conversão do texto em fala ao texto que compreende parte do conteúdo de fala 404. De modo alternativo, o assistente digital pessoal 130 pode gerar tal fala reproduzindo um arquivo de áudio que é incluído dentro ou identificado pelo conteúdo de fala 404. Em uma modalidade, o conteúdo de fala 404 compreende uma versão sonora do conteúdo incluído na sequência de exibição 402, embora isso não precisa ser o caso. Por exemplo, o conteúdo de fala 404 pode compreender informação verbal que é completamente diferente da informação verbal incluída na sequência de exibição 402. Como a sequência de exibição 402, o conteúdo do conteúdo de fala 404 pode compreender uma citação que está associada com uma referência de cultura popular.

[0084] O componente de representação de fala 406 é um componente que indica que o assistente digital pessoal 130 deve gerar ou reproduzir o conteúdo de fala 404 em uma forma que representa uma voz de uma pessoa, como uma pessoa associada com uma referência de cultura popular. O componente de representação de fala 406 pode incluir ou identificar um arquivo de áudio que deve ser reproduzido pelo assistente digital pessoal 130 para realizar a representação.

[0085] De modo alternativo, o componente de representação de fala 406 pode indicar que um conversor de texto em fala especial deve ser utilizado pelo assistente digital pessoal 130 para gerar o conteúdo de fala 404 em uma forma que representa a voz da pessoa desejada.

[0086] O componente de emoção de fala 408 compreende um elemento emocional que deve ser aplicado ao conteúdo de fala 404 quando a conversão do texto em fala é aplicada a tal conteúdo para gerar fala.

[0087] A animação do assistente digital pessoal 410 compreende uma animação de um avatar que representa o assistente digital pessoal 130 que será exibido dentro da sua interface do usuário. A animação pode ser projetada de modo que evoca uma referência de cultura popular. Embora a descrição da resposta 400 se refere à animação do assistente digital pessoal 410, deve ser observado que tipos de representações visuais do avatar diferente das animações podem ser utilizados para evocar a referência de cultura popular, incluindo imagens estáticas ou similares.

[0088] O componente de multimídia 412 compreende um ou mais objetos de multimídia que serão exibidos dentro ou reproduzidos pela interface do usuário do assistente digital pessoal 130. Cada objeto de multimídia pode ser associado com uma referência de cultura popular. Dependendo da implementação, cada objeto de multimídia pode compreender, por exemplo, uma imagem a ser exibida dentro da interface do usuário do assistente digital pessoal 130, conteúdo de vídeo a ser exibido dentro da interface do usuário do assistente digital pessoal 130, ou conteúdo de áudio a ser reproduzido pela interface do usuário do assistente digital pessoal 130.

[0089] O link para o conteúdo 414 compreende um link que pode ser exibido dentro da interface do usuário do assistente digital pessoal 130 e que pode ser ativado pelo usuário para acessar outro conteúdo.Por exemplo, o link pode ser ativado pelo usuário para acessar o conteúdo associado com uma referência de cultura popular.

[0090] As figuras 5 a 10 fornecem vários exemplos de respostas às expressões do tipo conversa que podem ser entregues através da interface do usuário do assistente digital pessoal 130. Esses exemplos ajudam a ilustrar os vários componentes que podem ser incluídos em uma resposta a uma expressão do tipo conversa de acordo com as modalidades. Nos exemplos das figuras 5 a 10, o dispositivo de computação de usuário final 102 é um smartphone e a tela 118 é uma tela integrada do smartphone. Entretanto, conforme foi previamente observado, o dispositivo de computação de usuário final 102 não é limitado aos smartphones e pode ser qualquer um de uma ampla variedade de dispositivos de computação móveis e não móveis.

[0091] A figura 5 ilustra uma resposta que pode ser fornecida pelo assistente digital pessoal 130 à expressão do tipo conversa "Estou nervoso sobre o teste de estatística". Em resposta a essa expressão do tipo conversa, uma sequência de exibição 502 compreendendo as palavras "Que a força esteja com você" é exibida dentro da interface do usuário gráfica do assistente digital pessoal 130. Esse texto de sequência de exibição compreende uma citação bem conhecida do filme popular "Guerra nas estrelas".

[0092] Além disso, em resposta à expressão do tipo conversa, uma representação visual 504 do assistente digital pessoal 130 é exibida dentro da interface do usuário gráfica. A representação visual 504 inclui uma barra lightsaber e, assim, também evoca o filme "Guerra nas estrelas". Em uma modalidade, a representação visual 504 pode compreender parte de uma animação do avatar do assistente digital pessoal 130 que oscila a barra lightsaber sobre, talvez, acompanhada pelos sons da barra lightsaber sonora que são reproduzidos através de um ou mais alto-falantes do dispositivo de computação de usuário final 102.

[0093] Em uma modalidade, a resposta fornecida na figura 5 também inclui fala sonora que é reproduzida através de um ou mais alto- falantes do dispositivo de computação de usuário final 102, em que tal fala também inclui as palavras "Que a força esteja com você". Em uma modalidade, a fala compreende uma representação de um ator famoso de "Guerra nas estrelas" como Yoda ou Obi-Wan Kenobi. Como foi previamente descrito, tal fala pode ser representada reproduzindo um arquivo de áudio designado ou aplicando um processo especial de conversão do texto em fala no texto "Que a força esteja com você". Dependendo da implementação, a representação pode ser representada de modo que seja evidente que uma pessoa diferente do ator de "Guerra nas estrelas" está realizando a representação (por exemplo, uma voz padrão associada com o assistente digital pessoal 130 está realizando a representação). Em outras implementações, a representação pode produzir uma voz que é indistinguível do ator de "Guerra nas estrelas" ou pode, de fato, ser a voz do ator que reproduziu o ator de "Guerra nas estrelas".

[0094] Juntas, a sequência de exibição 502, a representação visual 504 e a fala entregues com uma representação não respondem apro-priadamente à expressão do usuário do tipo conversa oferecendo as palavras de encorajamento, mas também servem para evocar fortemente uma referência de cultura popular ("Guerra nas estrelas") que provavelmente será instantaneamente familiar ao usuário e ajudará a estabelecer um sentido de convergência com ele. Além disso, visto que a resposta inclui diversas formas de saída sensorial incluindo a animação do lightsaber e a representada, a resposta mais provavelmente engajará e entreterá o usuário então uma resposta de texto plana.

[0095] A figura 6 ilustra uma resposta que pode ser fornecida pelo assistente digital pessoal 130 à expressão do tipo conversa "Como roubar um banco?" Em resposta a essa expressão do tipo conversa, uma sequência de exibição 602 compreendendo as palavras "Não acabou bem para esses caras" é exibida dentro da interface do usuário gráfica do assistente digital pessoal 130. A resposta pode também incluir a fala sonora que é reproduzida através de um ou mais alto- falantes do dispositivo de computação de usuário final 102, em que tal fala também inclui as palavras "Não acabou bem para esses caras". O texto da sequência de exibição 602 é referente a um objeto de multimídia 604 que é também exibido dentro da interface do usuário gráfica do assistente digital pessoal 130. Conforme mostrado na figura 6, o objeto de multimídia 604 compreende uma imagem do cartaz do filme para o filme de 1967 "Bonnie & Clyde", que é um drama sobre a vida e morte de ladrões de banco bem conhecidos Bonnie Parker e Clyde Barrow.

[0096] Juntos, a sequência de exibição 602 (e a fala sonora correspondente) e o objeto de multimídia 604 compreendem uma resposta para a expressão da conversa "Como roubar um banco" que resposta apropriadamente à expressão do usuário do tipo conversa indicando os perigos de roubar um banco (Bonnie e Clyde foram mortos a tiro por policiais) e também evoca uma referência de cultura popular (Bonnie e Clyde e o filme com o mesmo nome) que provavelmente será familiar ao usuário e ajudará a estabelecer um sentido de convergência com ele. Além disso, visto que a resposta forma por texto plano diferente de saída, provavelmente engajará e entreterá o usuário.

[0097] A figura 7 ilustra uma resposta que pode ser fornecida pelo assistente digital pessoal 130 à expressão do tipo conversa "Qual seu carro preferido no mundo todo?" Em resposta a essa expressão do tipo conversa, uma sequência de exibição 702 compreendendo as palavras "Eu amo Deloreans. Especialmente aqueles que viajam no tempo" é exibida dentro da interface do usuário gráfica do assistente digital pessoal 130. A resposta pode também incluir a fala sonora que é reproduzida através de um ou mais alto-falantes do dispositivo de computação de usuário final 102, em que tal fala também inclui as palavras "Eu amo Deloreans. Especialmente aqueles que viajam no tempo". Esse texto e fala se refere aos filmes bem conhecidos "De volta ao futuro".

[0098] Como também mostrado na figura 7, a resposta também inclui um objeto de multimídia 704 na forma de um vídeo do YOUTUBE® chamado "De volta ao futuro - Cena torre do relógio.av" que pode ser reproduzida e visualizada pelo usuário dentro do contexto da interface do usuário gráfica do assistente digital pessoal 130.

[0099] Como ainda mostrado na figura 7, a resposta inclui um link 706 que, quando ativado pelo usuário, permite que o usuário pesquise na Web pela frase "Qual seu carro preferido no mundo todo?", que é a expressão original. É observado que nas modalidades alternativas, um link pode ser fornecido que, quando ativado pelo usuário, permite que o usuário busque na Web pelo conteúdo associado com a referência de cultura popular (por exemplo, o filme "De volta ao futuro").

[00100] Como as respostas das figuras 5 e 6, a resposta da figura 7 evoca fortemente uma referência de cultura popular e, assim, pode estabelecer a convergência com o usuário. Além disso, o conteúdo de vídeo que é visualizável diretamente da interface do usuário gráfica do assistente digital pessoal 130 torna a resposta altamente envolvente.

[00101] A figura 8 ilustra uma resposta que pode ser fornecida pelo assistente digital pessoal 130 à expressão do tipo conversa ofensiva "You bitch". Em resposta a essa expressão do tipo conversa, uma sequência de exibição 802 compreendendo as palavras "Eu também sou uma amante, uma criança e uma mãe" é exibida dentro da interface do usuário gráfica do assistente digital pessoal 130. A resposta pode também incluir a fala sonora que é reproduzida através de um ou mais alto-falantes do dispositivo de computação de usuário final 102, em que tal fala também inclui a palavras "também sou uma amante, uma criança e uma mãe". Esse texto e fala compreende uma parte da letra de música da música bem conhecida "Bitch" de Meredith Brooks.

[00102] Como também mostrado na figura 8, a resposta também inclui um objeto de multimídia 804 na forma de uma imagem de Meredith Brooks. A resposta também inclui uma parte do texto 806 que fornece informação sobre a música "Bitch" e pode também incluir um ou mais links que podem ser ativados pelo usuário para compra de uma cópia digital da música de uma ou mais fontes, respectivamente.

[00103] A resposta à figura 8 inteligentemente utiliza uma referência de cultura popular para responder (e de alguma forma desviar) a expressão aparentemente depreciativa do tipo conversa. Também inclui conteúdo de multimídia interessante que pode ajudar a envolver o usuário. A resposta mostrada na figura 8 também ilustra como uma resposta a uma expressão do tipo conversa pode servir em alguns aspectos como uma propaganda ou oportunidade comercial na qual o usuário é permitido comprar a música que está sendo referido à resposta.

[00104] A figura 9 ilustra uma resposta que pode ser fornecida pelo assistente digital pessoal 130 à expressão do tipo conversa "Quem é seu pai?" Em resposta a essa expressão do tipo conversa, a sequência de exibição 902 compreendendo as palavras "Esses caras" é exibida dentro da interface do usuário gráfica do assistente digital pessoal 130. A resposta pode também incluir a fala sonora que é reproduzida através de um ou mais alto-falantes do dispositivo de computação de usuário final 102, em que tal fala também inclui as palavras "Esses caras". O texto da sequência de exibição 902 está se referindo a um objeto de multimídia 904 que é também exibido dentro da interface do usuário gráfica do assistente digital pessoal 130. Conforme mostrado na figura 9, o objeto de multimídia 904 compreende um vídeo de Bill Gates (presidente da Microsoft) e Steve Ballmer (diretor geral da Mi crosoft) vestidos como os atores Daustin Powers e Dr. Evil, respectivamente, do filme muito popular "Austin Powers". Esse vídeo pode ser reproduzido e visualizado pelo usuário dentro do contexto da interface do usuário gráfica do assistente digital pessoal 130.

[00105] Em uma modalidade na qual o assistente digital pessoal 130 é publicado pela Microsoft Corporation de Redmond, Washington, a resposta mostrada na figura 9 é aceita desde que os atores mostrados no vídeo sejam pessoas bem conhecidas associadas com a Microsoft. Além disso, o conteúdo de vídeo é divertido e envolvente para o usuário.

[00106] A figura 10 ilustra uma resposta que pode ser fornecida pelo assistente digital pessoal 130 à expressão do tipo conversa "Mostre- me algo engraçado?". Em resposta a essa consulta tipo expressão, uma sequência de exibição 1002 compreendendo a palavras "Um amigo meu tem uma opinião" é exibida dentro da interface do usuário gráfica do assistente digital pessoal 130. A resposta pode também incluir fala sonora que é reproduzida através de um ou mais alto-falantes do dispositivo de computação de usuário final 102, em que tal fala também inclui as palavras "Um amigo meu tem uma opinião". O texto da sequência de exibição 1002 é referente a um objeto de multimídia 1004 que é também exibido dentro da interface do usuário gráfica do assistente digital pessoal 130. Conforme mostrado na figura 10, o objeto de multimídia 1004 compreende uma imagem de um gato rabugento com o slogan: "Eu me diverti uma vez. Foi horrível". Essa imagem é uma referência ao meme popular "Grumpy Cat" da internet, que pode ser instantaneamente reconhecível ao usuário e que pode também servir para divertir e envolver o usuário.

[00107] Os exemplos precedentes das figuras 5 a 10 foram fornecidos aqui em forma de exemplo apenas. Os técnicos no assunto na(s) técnica(s) relevante(s) observarão que uma ampla variedade de res- postas às expressões do tipo conversa pode ser fornecida diferente das descritas nas figuras 5 a 10. Tais respostas podem incluir qualquer um ou mais dos componentes de resposta previamente descritos com referência à figura 4, bem como os componentes adicionais.

III. Métodos exemplares para implementar um assistente digital pessoal que utiliza as representações e/ou multimídia em respostas

[00108] A figura 11 retrata um fluxograma 1100 de um método para implementar um assistente digital pessoal que utiliza representações e/ou multimídia ao responder às expressões do tipo conversa de acordo com uma modalidade. O método do fluxograma 1100 pode ser realizado, por exemplo, pela back-end do assistente digital pessoal 106 conforme discutido acima com referência à figura 1. Certamente, o método do fluxograma 1100 agora será descrito com referência continuada ao sistema 100 da figura 1. Entretanto, o método não é limitado a essa implementação.

[00109] Conforme mostrado na figura 11, o método do fluxograma 1100 começa na etapa 1102 na qual uma representação digital de uma expressão de um usuário de um assistente digital pessoal é recebida.

[00110] A representação digital da expressão pode compreender, por exemplo, a expressão que é gerada pelo serviço de reconhecimento de fala 132 ou a expressão corrigida gerada através da interação do usuário com o assistente digital pessoal 130 conforme discutido acima com referência à figura 2. Como ainda discutido com relação à figura, a representação digital da expressão é recebida pelo sistema de entendimento e resposta da consulta 136.

[00111] Na etapa 1104, a representação digital da expressão é analisada. Conforme discutido acima com referência à figura 2, essa etapa pode implicar na análise realizada pelo sistema de entendimento e resposta da consulta 136 para determinar se a expressão compreende uma expressão do tipo conversa.

[00112] Na etapa 1106, com base pelo menos na análise da representação digital da expressão, determina-se que a expressão compreende uma expressão destinada para engajar-se com uma pessoa do assistente digital pessoal. Conforme discutido acima com referência à figura 2, essa etapa ocorre quando o sistema de entendimento e resposta da consulta 136 determina que a expressão é uma expressão do tipo conversa. Conforme previamente observado, essa determinação pode ser com base na análise da expressão realizada pelo sistema de entendimento e resposta da consulta 136.

[00113] Na etapa 1108, em resposta a pelo menos uma determinação fez na etapa 1106, uma resposta à expressão é causada para ser gerada pelo assistente digital pessoal que inclui pelo menos um de um objeto de multimídia associado com uma referência de cultura popular e fala que compreende uma representação de uma voz de uma pessoa associada com a referência de cultura popular. O objeto de multimídia pode compreender, por exemplo, um conteúdo de imagem, vídeo, ou conteúdo de áudio e pode ser exibido dentro ou reproduzido por uma interface do usuário do assistente digital pessoal. A fala pode ser gerada ou reproduzida pelo assistente digital pessoal. Essa etapa pode ser realizada, por exemplo, pelo sistema de entendimento e resposta da consulta para conversa 138 que faz com que o assistente digital pessoal 130 forneça uma resposta que inclui um objeto de multimídia, como componente de multimídia 404 descrito acima com refe-rência à figura 4, ou que inclui a fala representada conforme indicado pelo componente de representação de fala 406 conforme descrito acima com referência à figura 4. A forma na qual o sistema de entendimento e resposta da consulta para conversa 138 realiza essa função foi previamente descrita.

[00114] Como também foi previamente descrito, a resposta à expressão discutida na etapa 1108 pode ainda incluir texto que é exibido dentro da interface do usuário do assistente digital pessoal, o texto compreendendo uma citação associada com a referência de cultura popular, uma representação visual do assistente digital pessoal (por exemplo, uma animação do assistente digital pessoal) que é exibida dentro da interface do usuário respectiva e que evoca a referência de cultura popular, e/ou um link que é exibido dentro da interface do usuário do assistente digital pessoal e que pode ser ativado pelo usuário para acessar o conteúdo, como conteúdo associado com a expressão do tipo conversa ou com a referência de cultura popular. Adicionalmente, a fala que é gerada ou reproduzida pelo assistente digital pessoal pode compreender uma citação associada com a referência de cultura popular.

[00115] Em uma modalidade, fazer com que uma resposta à expressão seja gerada na etapa 1108 compreende a identificação de uma pluralidade de respostas elegíveis à expressão e então selecionar a resposta à expressão dentre a pluralidade de respostas elegíveis à expressão.

[00116] Em outra modalidade, fazer com que a resposta à expressão seja gerada na etapa 1108 compreende combinar a expressão com um tipo de expressão particular dentro de uma árvore hierárquica de tipos de expressão (por exemplo, árvore hierárquica 300 conforme discutido acima com referência à figura 3), cada tipo de expressão na árvore hierárquica de tipos de expressão tendo uma ou mais respostas associadas a ele. Após a combinação, a resposta à expressão é selecionada dentre a(s) resposta(s) associada(s) com o tipo de expressão particular.

[00117] Ainda em outra modalidade, fazer com que a resposta à expressão seja gerada na etapa 1108 compreende determinar que a expressão está associada com um tópico de tendência e, então, em resposta à determinação que a expressão está associada com um tó- pico de tendência, selecionar a resposta à expressão dentre uma ou mais respostas associadas com o tópico de tendência.

[00118] Em uma modalidade adicional, fazer com que a resposta à expressão seja gerada na etapa 1108 compreende determinar que a expressão é uma expressão para a qual há uma ou mais respostas predefinidas destinadas para conduzir a pessoa do assistente digital pessoal e, em resposta a essa determinação, selecionar a resposta à expressão dentre uma ou mais respostas predefinidas.

[00119] Em outra modalidade, fazer com que a resposta à expressão seja gerada na etapa 1108 compreende enviar um arquivo de áudio que inclui a fala ou informação que identifica a arquivo de áudio a um dispositivo de computação que executa o assistente digital pessoal. Essa etapa pode ser realizada, por exemplo, quando o sistema de entendimento e resposta da consulta para conversa 138 envia um arquivo de áudio que inclui a fala representada ao dispositivo de computação de usuário final 102 de modo que possa ser acessada e reproduzida pelo assistente digital pessoal 130 ou quando sistema de entendimento e resposta da consulta para conversa 138 envia a informação que identifica tal arquivo de áudio ao assistente digital pessoal 130 de modo que o arquivo de áudio possa ser obtido localmente pelo assistente digital pessoal 130.

[00120] Ainda em outra modalidade, fazer com que a resposta à expressão seja gerada na etapa 1108 compreende fornecer texto a um dispositivo de computação que executa o assistente digital pessoal, em que o texto deve ser processado por um componente de texto em fala do assistente digital pessoal para gerar a fala. Essa etapa pode ser realizada, por exemplo, quando o sistema de entendimento e resposta da consulta para conversa 138 envia uma indicação ao assistente digital pessoal 130 cujo assistente digital pessoal 130 deve aplicar um conversor de texto em fala especial ao texto designado para fazer com que o texto seja convertido em fala em uma forma que representa a voz de uma pessoa particular.

[00121] A figura 12 retrata um fluxograma 1200 de um método pelo qual um assistente digital pessoal fornece uma resposta a uma expressão do tipo conversa que inclui uma representação de voz de acordo com uma modalidade. O método de fluxograma 1200 pode ser realizado, por exemplo, pelo assistente digital pessoal 130 conforme discutido acima com referência à figura 1. Certamente, o método de fluxograma 1200 agora será descrito com referência continuada ao sistema 100 da figura 1. Entretanto, o método não é limitado a essa implementação.

[00122] Conforme mostrado na figura 12, o método do fluxograma 1200 começa na etapa 1202, na qual o assistente digital pessoal 130 captura o áudio que representa uma expressão de um usuário destinado para engajar-se com uma pessoa do assistente digital pessoal 130.

[00123] Na etapa 1204, o assistente digital pessoal 130 transmite o áudio à back-end do assistente digital pessoal 106.

[00124] Na etapa 1206, o assistente digital pessoal 130 fornece uma resposta à expressão com base pelo menos na informação recebida da back-end do assistente digital pessoal 106. Fornecer a resposta inclui gerar ou reproduzir fala que compreende uma representação de uma voz de uma pessoa associada com a referência de cultura popular.

[00125] Em uma modalidade, fornecer a resposta na etapa 1206 inclui reproduzir um arquivo de áudio que inclui a fala. Em uma modalidade alternativa, fornecer a resposta na etapa 1206 inclui aplicar a conversão do texto em fala ao texto para gerar a fala.

[00126] De acordo com outras modalidades, fornecer a resposta na etapa 1206 inclui um ou mais dentre: exibir ou reproduzir um objeto de multimídia por uma interface do usuário do assistente digital pessoal 130, o objeto de multimídia sendo associado com a referência de cul- tura popular; exibir o texto dentro da interface do usuário do assistente digital pessoal, o texto compreendendo uma citação associada com a referência de cultura popular; exibir uma representação visual do assistente digital pessoal que evoca a referência de cultura popular dentro da interface do usuário do assistente digital pessoal; e exibir um link dentro da interface do usuário do assistente digital pessoal que pode ser ativado pelo usuário para acessar o conteúdo, como conteúdo associado com a expressão ou com a referência de cultura popular.

[00127] A figura 13 retrata um fluxograma 1300 de um método pelo qual um assistente digital pessoal fornece uma resposta a uma expres-são do tipo conversa que inclui um objeto de multimídia de acordo com uma modalidade. O método do fluxograma 1300 pode ser realizado, por exemplo, pelo assistente digital pessoal 130 conforme discutido acima com referência à figura 1. Certamente, o método do fluxograma 1300 agora será descrito com referência continuada ao sistema 100 da figura 1. Entretanto, o método não é limitado a essa implementação.

[00128] Conforme mostrado na figura 13, o método do fluxograma 1300 começa na etapa 1302, na qual o assistente digital pessoal 130 captura o áudio que representa uma expressão de um usuário destinado para engajar-se com uma pessoa do assistente digital pessoal 130.

[00129] Na etapa 1304, o assistente digital pessoal 130 transmite o áudio à back-end do assistente digital pessoal 106.

[00130] Na etapa 1306, o assistente digital pessoal 130 fornece uma resposta à expressão com base pelo menos na informação recebida da back-end do assistente digital pessoal 106. Fornecer a resposta inclui exibir ou reproduzir um objeto de multimídia associado com uma referência de cultura popular por uma interface do usuário do assistente digital pessoal 130.

[00131] Em uma modalidade, exibir ou reproduzir o objeto de multimídia na etapa 1306 compreende exibir um conteúdo de imagem ou vídeo ou reproduzir o conteúdo de áudio pela interface do usuário do assistente digital pessoal 130.

[00132] De acordo com outras modalidades, fornecer a resposta na etapa 1306 inclui um ou mais dentre: gerar ou reproduzir a fala que compreende uma representação de uma voz de uma pessoa associada com uma referência de cultura popular; exibir o texto dentro da interface do usuário do assistente digital pessoal, o texto compreendendo uma citação associada com a referência de cultura popular; exibir uma representação visual do assistente digital pessoal que evoca a referência de cultura popular dentro da interface do usuário do assistente digital pessoal; e exibir um link dentro da interface do usuário do assistente digital pessoal que pode ser ativado pelo usuário para acessar o conteúdo, como o conteúdo associado com a expressão ou com a referência de cultura popular.

IV. Implementação do dispositivo móvel exemplar

[00133] A figura 14 é um diagrama em blocos de um dispositivo móvel 1402 exemplar que pode ser utilizado para implementar o dispositivo de computação de usuário final 102 conforme descrito acima com referência à figura 1. Conforme mostrado na figura 14, o dispositivo móvel 1402 inclui uma variedade de componentes de software e hardware opcionais. Qualquer componente no dispositivo móvel 1402 pode se comunicar com qualquer outro componente, embora nem todas as conexões sejam mostradas para facilitar a ilustração. O dispositivo móvel 1402 pode ser qualquer um de uma variedade de dispositivos de computação (por exemplo, celular, smartphone, computador portátil, Assistente digital pessoal (PDA), etc.) e pode permitir comunicações de duas vias sem fio com uma ou mais redes de comunicação móvel 1404, como uma rede de celular ou satélite, ou com uma rede de área local ou área ampla.

[00134] O dispositivo móvel 1402 ilustrado pode incluir um controla- dor ou processador 1410 (por exemplo, processador de sinal, microprocessador, ASIC, ou outro circuito de controle e lógica de processamento) para realizar tais tarefas como codificação de sinal, processamento de dados, processamento de entrada/saída, controle de energia, e/ou outras funções. Um sistema operacional 1412 pode controlar a alocação e uso dos componentes do dispositivo móvel 1402 e suportar um ou mais programas de aplicativo 1414 (também referidos como "aplicativos" ou "apps"). Os programas de aplicativo 1414 podem incluir aplicativos de computação móveis comuns (por exemplo, aplicativos de e-mail, calendários, gerenciadores de contato, navegadores, aplicativos de mensagem) e qualquer outro aplicativo de computação (por exemplo, aplicativos de processamento de palavra, aplicativos de mapeamento, aplicativos de leitor de mídia). Em uma modalidade, programas de aplicativo 1414 incluem assistente digital pessoal 130.

[00135] O dispositivo móvel 1402 ilustrado pode incluir memória 1420. A memória 1420 pode incluir memória não removível 1422 e/ou memória removível 1424. A memória não removível 1422 pode incluir RAM, ROM, memória flash, um disco rígido, ou outros dispositivos de memória bem conhecidos ou tecnologias. A memória removível 1424 pode incluir memória flash ou um cartão de Módulo de Identidade do Assinante (SIM), que é bem conhecido nos sistemas de comunicação GSM, ou outros dispositivos ou tecnologias de memória bem conhecida, como "cartões inteligentes". A memória 1420 pode ser utilizada para armazenar dados e/ou código para executar o sistema operacional 1412 e os aplicativos 1414. Dados exemplares podem incluir páginas da Web, texto, imagens, arquivos de som, dados de vídeo, ou outros dados a serem enviados e/ou recebidos de um ou mais servidores de rede ou outros dispositivos através de uma ou mais redes com ou sem fio. A memória 1420 pode ser utilizada para armazenar um identi-ficador do assinante, como uma Identidade do Assinante Móvel Inter- nacional (IMSI) e um identificador do equipamento, como um Identificador do Equipamento Móvel Internacional (IMEI). Tais identificadores podem ser transmitidos a um servidor de rede para identificar usuários e equipamento.

[00136] O dispositivo móvel 1402 pode suportar um ou mais dispositivos de entrada 1430, como uma tela de toque 1432, um microfone 1434, uma câmera 1436, um teclado físico 1438 e/ou uma trackball 1440 e um ou mais dispositivos de saída 1450, como um alto-falante 1452 e uma tela 1454. As telas de toque, como a tela de toque 1432, podem detectar a entrada em várias formas diferentes. Por exemplo, as telas de toque de capacitação detectam a entrada ao toque quando um objeto (por exemplo, uma ponta do dedo) distorce ou interrompe uma corrente elétrica que percorre pela superfície. Como outro exemplo, as telas de toque podem utilizar os sensores ópticos para detectar a entrada de toque quando os feixes dos sensores ópticos são interrompidos. O contato físico com a superfície da rela não é necessário para a entrada ser detectada por algumas telas de toque.

[00137] Outros dispositivos de saída (não mostrados) possíveis podem incluir dispositivos de saída piezoelétricos ou outros dispositivos de saída táteis. Alguns dispositivos podem servir mais do que uma função de entrada/saída. Por exemplo, a tela de toque 1432 e a tela 1454 podem ser combinadas em um único dispositivo de entra- da/saída. Os dispositivos de entrada 1430 podem incluir um Usuário de Interface Natural (NUI).

[00138] Os modens sem fio 1460 podem ser acoplados às antenas (não mostradas) e podem suportar comunicações de duas vias entre o processador 1410 e os dispositivos externos, como é bem entendido na técnica. Os modens 1460 são mostrados genericamente e podem incluir um modem de celular 1466 para se comunicar com a rede de comunicação móvel 1404 e/ou outros modens à base de rádio (por exemplo, Bluetooth 1464 e/ou Wi-Fi 1462). Pelo menos um dos mo- dens sem fio 1460 é tipicamente configurado para se comunicar com uma ou mais redes de celular, como uma rede GSM para comunicações de dados e voz dentro de uma única rede de celular, entre as redes de celular, ou entre o dispositivo móvel e uma rede de telefone comutada pública (PSTN).

[00139] O dispositivo móvel 1402 pode ainda incluir pelo menos uma porta de entrada/saída 1480, uma fonte de alimentação 1482, um receptor do sistema de navegação por satélite 1484, como um receptor de Sistema de Posicionamento Global (GPS), um acelerômetro 1486, e/ou um conector físico 1490, que pode ser uma porta USB, porta IEEE 1394 (FireWire), e/ou porta RS-232. Os componentes ilustrados do dispositivo móvel 1402 não são necessários ou todos incluídos, pois quaisquer componentes podem ser excluídos e outros componentes podem ser adicionados sendo reconhecidos por um técnico no assunto.

[00140] Em uma modalidade, certos componentes do dispositivo móvel 1402 são configurados para realizar as operações atribuídas ao assistente digital pessoal 130 conforme descrito nas seções precedentes. A lógica de programa de computador para realizar as operações atribuídas ao assistente digital pessoal 130 conforme descrito acima pode ser armazenada na memória 1420 e executada pelo processador 1410. Pela execução de tal lógica de programa de computador, o processador 1410 pode ser executado para implementar qualquer um dos recursos do assistente digital pessoal 130 conforme descrito acima com referência à figura 1. Ainda, pela execução de tal lógica de pro-grama de computador, o processador 1410 pode ser executado para realizar qualquer uma das etapas de qualquer um ou todos os fluxo- gramas descritos nas figuras 12 e 13.

V. Implementação do sistema de computador exemplar

[00141] A figura 15 retrata um sistema de computador com base no processador exemplar 1500 que pode ser utilizado para implementar várias modalidades aqui descritas. Por exemplo, o sistema 1500 pode ser utilizado para implementar o dispositivo de computação de usuário final 102 ou qualquer um dos computadores utilizados para implementar a back-end do assistente digital pessoal 106 conforme descrito acima com referência à figura 1. O sistema 1500 pode também ser utilizado para implementar qualquer uma ou todas as etapas de qualquer um ou todos os fluxogramas descritos nas figuras 11 a 13. A descrição do sistema 1500 fornecida aqui é fornecida para finalidades de ilustração e não é destinada para ser limitativa. As modalidades podem ser implementadas em outros tipos de sistemas de computador, como seria conhecido pelos técnicos no assunto na(s) técnica(s) relevante(s).

[00142] Conforme mostrado na figura 15, o sistema 1500 inclui uma unidade de processamento 1502, uma memória do sistema 1504 e um barramento 1506 que acopla vários componentes do sistema incluindo a memória do sistema 1504 com a unidade de processamento 1502. A unidade de processamento 1502 pode compreender um ou mais microprocessadores ou núcleos do microprocessador. O barramento 1506 representa um ou mais de qualquer um dos vários tipos de estruturas de barramento, incluindo um barramento da memória ou controlador de memória, um barramento periférico, uma porta gráfica acelerada e um barramento do processador ou local que utiliza qualquer uma de uma variedade de arquiteturas do barramento. A memória do sistema 1504 inclui memória somente leitura (ROM) 1508 e memória de acesso aleatório (RAM) 1510. Um sistema básico de entrada/saída 1512 (BIOS) é armazenado em ROM 1508.

[00143] O sistema 1500 também tem uma ou mais das seguintes unidades: uma unidade de disco rígido 1514 para ler e gravar em um disco rígido, uma unidade de disco magnético 1516 para ler ou gravar em um disco magnético removível 1518 e uma unidade de disco óptico 1520 para ler ou gravar em um disco óptico removível 1522 como um CD ROM, DVD ROM, disco BLU-RAY™ ou outro meio óptico. A unidade de disco rígido 1514, unidade de disco magnético 1516 e a unidade de disco óptico 1520 são conectadas ao barramento 1506 por uma interface da unidade de disco rígido 1524, uma interface da unidade de disco magnético 1526 e uma interface de unidade óptica 1528, respectivamente. As unidades e seus meios legíveis por computador associados fornecem armazenamento não volátil de instruções legíveis por computador, estruturas de dados, módulos de programa e outros dados para o computador. Embora um disco rígido, um disco magnético removível e um disco óptico removível sejam descritos, outros tipos de dispositivos de memória legível por computador e estruturas de armazenamento podem ser utilizados para armazenar dados, como cartões de memória flash, discos de vídeo digital, memórias de acesso aleatório (RAMs), memórias somente leitura (ROM) e similares.

[00144] Vários módulos de programa podem ser armazenados no disco rígido, disco magnético, disco óptico, ROM ou RAM. Esses módulos de programa incluem um sistema operacional 1530, um ou mais programas de aplicativo 1532, outros módulos de programa 1534 e dados de programa 1536. De acordo com várias modalidades, os módulos de programa podem incluir lógica de programa de computador que é executável pela unidade de processamento 1502 para realizar qualquer uma ou todas as funções e recursos do dispositivo de computação de usuário final 102 ou qualquer um dos computadores utili-zados para implementar a back-end do assistente digital pessoal 106 conforme descrito acima com referência à figura 1. Os módulos de programa podem também incluir a lógica de programa de computador que, quando executada pela unidade de processamento 1502, realiza qualquer uma das etapas ou operações mostradas ou descritas com referência aos fluxogramas das figuras 11 a 13.

[00145] Um usuário pode inserir comandos e informação ao sistema 1500 através dos dispositivos de entrada como um teclado 1538 e um dispositivo de indicação 1540. Outros dispositivos de entrada (não mostrados) podem incluir um microfone, joystick, controlador de jogo, scanner ou similar. Em uma modalidade, uma tela de toque é fornecida em conjunto com uma tela 1544 para permitir que um usuário forneça a entrada do usuário através do aplicativo de um toque (como por um dedo ou estilo, por exemplo) em um ou mais pontos na tela de toque. Esses e outros dispositivos de entrada são geralmente conectados à unidade de processamento 1502 através de uma interface de porta serial 1542 que é acoplada ao barramento 1506, mas pode ser conectada por outras interfaces, como uma porta paralela, porta de jogo, ou um barramento universal serial (USB). Tais interfaces podem ser interfaces com ou sem fio.

[00146] Uma tela 1544 é também conectada ao barramento 1506 através de uma interface, como um adaptador de vídeo 1546. Além da tela 1544, o sistema 1500 pode incluir outros dispositivos de saída periféricos (não mostrados) como alto-falantes e impressoras.

[00147] O sistema 1500 é conectado a uma rede 1548 (por exemplo, uma rede de área local ou uma rede de área ampla rede como a Internet) através de uma interface de rede ou adaptador 1550, um modem 1552, ou outro meio adequado para estabelecer as comunicações pela rede. O modem 1552, que pode ser interno ou externo, é conectado ao barramento 1506 através de interface de porta serial 1542.

[00148] Como aqui utilizado, os termos "meio de programa de computador", "meio legível por computador" e "meio de armazenamento legível por computador" são utilizados para geralmente se referir aos dispositivos de memória ou estruturas de armazenamento como o disco rígido associado com a unidade de disco rígido 1514, disco magnético removível 1518, disco óptico removível 1522, bem como outros dispositivos de memória ou estruturas de armazenamento como cartões de memória flash, discos de vídeo digital, memórias de acesso aleatório (RAMs), memórias somente leitura (ROM) e similares. Tais meios de armazenamento legíveis por computador são distinguidos e não sobrepostos com meio de comunicação (não incluem meio de comunicação). O meio de comunicação tipicamente incorpora as instruções legíveis por computador, estruturas de dados, módulos de programa ou outros dados em um sinal de dados modulados como uma onda transportadora. O termo "sinal de dados modulados" significa um sinal que tem uma ou mais de suas características definidas ou mudadas de tal forma para codificar a informação no sinal. Em forma de exemplo e não limitação, o meio de comunicação inclui mídia sem fio como mídia acústica, RF, infravermelho e outra sem fio. As modalidades são também direcionadas a tal meio de comunicação.

[00149] Conforme observado acima, os programas de computador e os módulos (incluindo programas de aplicativo 1532 e outros módulos de programa 1534) podem ser armazenados no disco rígido, disco magnético, disco óptico, ROM ou RAM. Tais programas de computador podem também ser recebidos através da interface de rede 1550, interface de porta serial 1542, ou qualquer outro tipo de interface. Tais programas de computador, quando executados ou carregados por um aplicativo, permitem que o computador 1500 implemente recursos de modalidades da presente invenção discutidos aqui. Certamente, tais programas de computador representam controladores do sistema 1500.

[00150] As modalidades são também direcionadas aos produtos de programa de computador compreendendo software armazenado em qualquer meio utilizável por computador. Tal software, quando executado em um ou mais dispositivos de processamento de dados, faz com que um dispositivo de processamento de dados opere conforme aqui descrito. As modalidades da presente invenção empregam qualquer meio legível por computador ou utilizável por computador, conhecido agora ou no futuro. Exemplos dos meios legíveis por computador incluem, entre outros dispositivos de memória e estruturas de armazenamento como RAM, discos rígidos, disquetes, CD ROMs, DVD ROMs, discos zip, fitas, dispositivos de armazenamento magnético, dispositivos de armazenamento óptico, MEMs, dispositivos de armazenamento com base em nanotecnologia e similares.

[00151] Em implementações alternativas, o sistema 1500 pode ser implementado como circuito elétrico/lógico de hardware ou firmware. De acordo com outras modalidades, um ou mais desses componentes podem ser implementados em um sistema-no-chip (SoC). O SoC pode incluir um chip de circuito integrado que inclui um ou mais de um processador (por exemplo, um microcontrolador, microprocessador, processador de sinal digital (DSP), etc.), memória, uma ou mais interfaces de comunicação, e/ou ainda circuitos e/ou firmware embutido para realizar suas funções.

VI. Conclusão

[00152] Enquanto várias modalidades foram descritas acima, deve ser entendido que foram apresentadas em forma de exemplo apenas e não limitação. Será evidente aos técnicos no assunto na(s) técnica(s) relevante(s) que várias mudanças na forma e detalhes podem ser feitas aqui sem sair do espírito e escopo da invenção. Assim, a largura e o escopo da presente invenção não devem ser limitados por qualquer modalidade exemplar descrita acima, mas deve ser definida apenas de acordo com as seguintes concretizações e seus equivalentes.

Claims

1. Método para implementar um assistente digital pessoal (130) caracterizado pelo fato de que compreende: lançar um assistente digital pessoal (130) em um dispositivo de usuário final (102); receber (1102) no dispositivo de usuário final (102) uma re-presentação digital de uma expressão de um usuário do assistente digital pessoal (130) como um fluxo de áudio; transmitir o fluxo de áudio para um serviço de reconhecimento de discurso (132) em um back-end de assistente digital pessoal (106) através de uma rede (104); analisar o fluxo de áudio da expressão com o serviço de re-conhecimento de discurso (132) para determinar o conteúdo fonético do mesmo e para mapear o conteúdo fonético para palavras, que em conjunto compreendem uma expressão reconhecida; transmitir a expressão reconhecida ao assistente digital pessoal (130) através da rede (104); exibir uma versão de texto da expressão reconhecida dentro de uma interface gráfica de usuário em uma tela (118) do dispositivo de usuário final (102); receber entrada de usuário para confirmar ou editar a versão de texto exibida da expressão reconhecida para formar uma expressão confirmada; transmitir a expressão confirmada a um sistema de entendimento e resposta de consulta (136) no back-end de assistente digital pessoal (106) através da rede (104); analisar as palavras da expressão confirmada com o sistema de entendimento e resposta de consulta (136) para determinar (1106) que a expressão confirmada compreende uma expressão destinada a engajar com uma persona do assistente digital pessoal (130); em resposta pelo menos à determinação de que a expressão confirmada compreende uma expressão destinada a engajar com a persona do assistente digital pessoal (130), identificar uma pluralidade de respostas elegíveis para a expressão, a pluralidade de respostas elegíveis incluindo pelo menos um dentre: um objeto multimídia que é exibido em, ou reproduzido por, uma interface de usuário do assistente digital pessoal (130), o objeto multimídia estando associado a uma referência de cultura popular; e fala que é gerada ou reproduzida pelo assistente digital pessoal (130), a fala compreendendo uma personificação de uma voz de uma pessoa associada à referência da cultura popular; e selecionar uma dentre a pluralidade de respostas elegíveis como uma resposta a ser fornecida pelo assistente digital pessoal (130).

2. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a resposta selecionada para a expressão ainda inclui texto que é exibido na interface de usuário do assistente digital pessoal (130), o texto compreendendo uma citação associada à referência de cultura popular.

3. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a resposta selecionada para a expressão ainda inclui uma representação visual do assistente digital pessoal (130) que é exibida na interface de usuário do mesmo e que evoca a referência de cultura popular.

4. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que o objeto multimídia compreende: conteúdo de imagem ou vídeo que é exibido dentro da interface de usuário do assistente digital pessoal (130) ou conteúdo de áudio que é reproduzido pela interface de usuário do assistente digital pessoal (130).

5. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a resposta selecionada para a expressão ainda inclui: um link que é exibido dentro da interface de usuário do assistente digital pessoal (130) e que pode ser ativado pelo usuário para acessar conteúdo associado à referência de cultura popular.

6. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que identificar a pluralidade de respostas elegíveis para a expressão compreende: corresponder a expressão a um tipo de expressão em particular dentro de uma árvore hierárquica de tipos de expressão, cada tipo de expressão na árvore hierárquica de tipos de expressão tendo uma ou mais respostas associadas ao mesmo.

7. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que identificar a pluralidade de respostas elegíveis para a expressão compreende: determinar que a expressão está associada a um tópico de tendência; e em resposta a determinar que a expressão está associada ao tópico de tendência, identificar uma ou mais respostas associadas ao tópico de tendência.

8. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que identificar a pluralidade de respostas elegíveis para a expressão compreende: determinar que a expressão é uma expressão para a qual há uma ou mais respostas predefinidas destinadas a transmitir a persona do assistente digital pessoal (130).

9. Sistema de computação compreendendo: um dispositivo de usuário final (102) compreendendo um assistente digital pessoal (130); e um back-end de assistente digital pessoal (106) conectado ao dispositivo de usuário final (102) através de uma rede (104); caracterizado pelo fato de que o sistema é configurado para que: pelo menos um microfone do dispositivo de usuário final (102) capture uma expressão de um usuário do assistente digital pessoal (130); a expressão seja convertida em uma representação digital da expressão capturada; o assistente digital pessoal (130) faça com que a representação digital da expressão seja transmitida como um fluxo de áudio para um serviço de reconhecimento de discurso (132) no back-end de assistente digital pessoal (106) através da rede (104); o fluxo de áudio da expressão seja analisado com o serviço de reconhecimento de discurso (132) para determinar o conteúdo fonético do mesmo e para mapear o conteúdo fonético para palavras, que juntos compreendem uma expressão reconhecida, a expressão reconhecida seja transmitida ao assistente digital pessoal (130) através da rede (104); uma versão de texto da expressão reconhecida seja exibida dentro de uma interface gráfica de usuário em uma tela (118) do dispositivo de usuário final (102); a versão de texto exibida da expressão reconhecida seja confirmada ou editada com entrada de usuário recebida no dispositivo de usuário final (102) para formar um recebimento de expressão confirmada; a expressão confirmada seja transmitida para um sistema de entendimento e resposta de consulta (136) no back-end de assis- tente digital pessoal (106) através da rede (104); as palavras da expressão confirmada sejam analisadas com o sistema de entendimento e resposta de consulta (136) para determinar que a expressão confirmada compreende uma expressão destinada a engajar com uma persona do assistente digital pessoal (130); em resposta pelo menos à determinação de que a expressão confirmada compreende uma expressão destinada a se engajar com a persona do assistente digital pessoal (130), uma pluralidade de respostas elegíveis para a expressão seja identificada, a pluralidade de respostas elegíveis incluindo pelo menos um dentre: um objeto multimídia que é exibido em, ou reproduzido por, uma interface de usuário do assistente digital pessoal (130), o objeto multimídia estando associado a uma referência de cultura popular; e fala que é gerada ou reproduzida pelo assistente digital pessoal (130), a fala compreendendo uma personificação de uma voz de uma pessoa associada à referência de cultura popular; e uma dentre a pluralidade de respostas elegíveis seja selecionada como uma resposta a ser fornecida pelo assistente digital pessoal (130).