BR102018011528A2

BR102018011528A2 - dispositivo de comunicação, robô de comunicação e meio de armazenamento legível por computador

Info

Publication number: BR102018011528A2
Application number: BR102018011528-6A
Authority: BR
Inventors: Mina FUNAZUKURI; Shintaro Yoshizawa; Wataru Kaku; Hitoshi Yamada
Original assignee: Toyota Jidosha Kabushiki Kaisha
Priority date: 2017-06-14
Filing date: 2018-06-07
Publication date: 2019-01-15
Also published as: CN109079805A; JP2019000937A; EP3418008A1; KR102355911B1; US10733992B2; KR20180136387A; US20180366121A1; RU2696307C1; KR20200091839A; JP6841167B2

Abstract

a presente invenção refere-se a um dispositivo de comunicação que inclui: uma parte de aquisição de elocução (101, 201) configurada para adquirir uma elocução de um usuário para um personagem; uma parte de aquisição de informações (102, 202) configurada para adquirir informações diferentes da elocução; uma parte de geração de voz (209, 210) configurada para gerar uma voz de resposta a ser emitida pelo personagem com base em um conteúdo da elocução adquirida pela parte de aquisição de elocução (101, 201); e uma parte de geração de expressão (205, 207) configurada para gerar uma expressão de resposta a ser expressada por uma porção de face do personagem com base no conteúdo da elocução adquirido pela parte de aquisição de elocução (101, 201), em que quando as informações são adquiridas da parte de aquisição de informações (102, 202), a parte de geração de expressão (205, 207) gera a expressão de resposta utilizando as informações juntamente com o conteúdo da elocução, a expressão de resposta gerada quando as informações são adquiridas sendo diferentes de uma expressão de resposta gerada quando as informações não são adquiridas.

Description

Relatório Descritivo da Patente de Invenção para DISPOSITIVO DE COMUNICAÇÃO, ROBÔ DE COMUNICAÇÃO E MEIO DE ARMAZENAMENTO LEGÍVEL POR COMPUTADOR.

ANTECEDENTES DA INVENÇÃO

CAMPO DA INVENÇÃO [001] A presente invenção refere-se a um dispositivo de comunicação, um robô de comunicação, e um meio de armazenamento legível por computador.

DESCRIÇÃO DA TÉCNICA RELACIONADA [002] Um dispositivo de comunicação tem sido utilizado que emite uma sentença de resposta e uma expressão facial de acordo com um conteúdo da voz de um usuário (ver, por exemplo, Publicação de Pedido de Patente Não Examinada Japonesa Número 2016-193466 (JP 2016193466 A)).

SUMÁRIO DA INVENÇÃO [003] Em dispositivos de comunicação relativos, quando o mesmo conteúdo de voz é inserido de um usuário, a mesma sentença de resposta e a mesma expressão facial são emitidas. Assim, em muitos casos, o dispositivo de comunicação não possui uma variação que faz com que o usuário perca interesse no dispositivo de comunicação.

[004] De modo a resolver tais problemas, a invenção provê um dispositivo de comunicação ou similares que apresenta muitas diferentes variações para uma expressão facial indicada por um personagem de modo que o personagem mostra várias expressões faciais dependendo de uma situação, mesmo para a mesma sentença.

[005] Um primeiro aspecto da invenção refere-se a um dispositivo de comunicação que permite um personagem falar com um usuário. O dispositivo de comunicação inclui uma parte de aquisição de elocução, uma parte de aquisição de informações, uma parte de geração de voz, e uma parte de geração de expressão. A parte de aquisição de elocução

Petição 870180048645, de 07/06/2018, pág. 92/151

2/37 está configurada para adquirir uma elocução do usuário para o personagem. A parte de aquisição de informações está configurada para adquirir informações diferentes da elocução. A parte de geração de voz está configurada para gerar uma voz de resposta a ser emitida pelo personagem com base em um conteúdo da elocução adquirido pela parte de aquisição de elocução. A parte de geração de expressão está configurada para gerar uma expressão de resposta a ser expressada por uma porção de face do personagem com base no conteúdo da elocução adquirido pela parte de aquisição de elocução. Quando as informações são adquiridas da parte de aquisição de informações, a parte de geração de expressão gera a expressão de resposta utilizando as informações juntamente com o conteúdo da elocução, a expressão de resposta gerada quando a informação é adquirida sendo diferente de uma expressão de resposta gerada quando a informação não é adquirida.

[006] Com esta configuração, por exemplo, uma expressão facial expressada pela porção de face do personagem pode ser feita diferente entre quando uma emoção lida de uma expressão facial do usuário é levada em conta e quando a emoção não é levada em conta. Portanto, mesmo se a elocução do usuário for a mesma, a expressão facial expressada pela porção de face do personagem é rica em variações. Pode ser esperado que o usuário tenha aumentado a ligação com o personagem sem ficar cansado do diálogo.

[007] O dispositivo de comunicação de acordo com o primeiro aspecto pode ainda incluir um banco de dados configurado para armazenar uma pluralidade dos dados de expressões de resposta associados com uma pluralidade de emoções, respectivamente. A parte de geração de expressão pode selecionar, do banco de dados, a expressão de resposta associada com uma terceira emoção que é determinada de acordo com uma combinação de uma primeira emoção e uma segunda

Petição 870180048645, de 07/06/2018, pág. 93/151

3/37 emoção, a primeira emoção sendo estimada com base no conteúdo da elocução e a segunda emoção sendo estimada com base nas informações adquiridas pela parte de aquisição de informações. Neste modo, combinando as emoções diferentemente estimadas, é possível precisamente estimar uma emoção do usuário.

[008] No dispositivo de comunicação de acordo com o primeiro aspecto, no banco de dados, a pluralidade de emoções pode estar associada com a pluralidade das expressões de resposta, respectivamente, com base em um modelo circumplexo de Russel. A parte de geração de expressão pode determinar a terceira emoção com base em uma soma de um primeiro vetor que corresponde à primeira emoção no modelo circumplexo de Russel e um segundo vetor que corresponde à segunda emoção no modelo circumplexo de Russel. Com tal configuração, a emoção do usuário pode ser calculada mais quantitativamente.

[009] No dispositivo de comunicação de acordo com o primeiro aspecto, a parte de geração de expressão pode selecionar, do banco de dados, a expressão de resposta que corresponde a uma quarta emoção que aproxima a terceira emoção em uma faixa predeterminada. Dando uma ligeira flutuação na emoção a ser determinada, é possível enriquecer uma mudança na expressão facial da porção de face.

[0010] No dispositivo de comunicação de acordo com o primeiro aspecto, ao gerar duas expressões de resposta consecutivamente, a parte de geração de expressão pode gerar pelo menos uma expressão de resposta de interpolação entre as duas expressões de resposta, a pelo menos uma expressão de resposta de interpolação interpolando as duas expressões de resposta. Por exemplo, mesmo se uma expressão facial a ser exibida é mudada significativamente, o usuário não acha que a mudança é estranha quando uma expressão facial intermediária é inserida e exibida.

[0011] No dispositivo de comunicação de acordo com o primeiro

Petição 870180048645, de 07/06/2018, pág. 94/151

4/37 aspecto, a parte de aquisição de informações pode incluir uma parte de formação de imagem configurada para capturar uma imagem do usuário. A parte de aquisição de informações pode incluir um sensor biométrico configurado para adquirir informações biológicas do usuário. A parte de aquisição de informações pode incluir um sensor ambiental configurado para adquirir informações ambientais de um ambiente circundante do dispositivo de comunicação. Utilizando vários sensores, é possível estimar a emoção do usuário mais precisamente.

[0012] O dispositivo de comunicação de acordo com o primeiro aspecto pode ainda incluir uma parte de aquisição de estado configurada para adquirir um estado interno de um dispositivo de personagem que incorpora o personagem. A parte de geração de expressão pode gerar a expressão de resposta com base no estado interno adquirido pela parte de aquisição de estado, além do conteúdo da elocução e as informações. Com esta configuração, não somente a expressão facial expressada pela porção de face é determinada de acordo com a emoção do usuário, mas também a expressão facial aparece como se o personagem mostrasse a sua própria emoção. Portanto, o usuário obtém mais ligação com o personagem.

[0013] Um segundo aspecto da invenção refere-se a um robô de comunicação que inclui o dispositivo de comunicação de acordo com o primeiro aspecto e a porção de face. A porção de face está configurada para expressar a expressão de resposta gerada pela parte de geração de expressão. Quando o dispositivo de comunicação está incorporado como, por exemplo, um robô que imita um animal, o usuário pode ter uma sensação do robô sendo como um animal de estimação e ter mais de uma ligação com o robô.

[0014] Um terceiro aspecto da invenção refere-se a um meio de armazenamento legível por computador que inclui uma parte de memória configurada para armazenar um programa de controle de

Petição 870180048645, de 07/06/2018, pág. 95/151

5/37 comunicação a ser executado por um computador de um dispositivo de comunicação que permite um personagem falar com um usuário. Quando o programa de controle de comunicação é executado pelo computador, o computador executa uma etapa de aquisição de elocução, uma etapa de aquisição de informações, uma etapa de geração de voz, e uma etapa de geração de expressão. Na etapa de aquisição de elocução, uma elocução do usuário para o personagem é adquirida. Na etapa de aquisição de informações, informações diferentes da elocução são adquiridas. Na etapa de geração de voz, uma voz de resposta a ser emitida pelo personagem é gerada com base em um conteúdo da elocução adquirida na etapa de aquisição de elocução. Na etapa de geração de expressão, uma expressão de resposta a ser expressada por uma porção de face do personagem é gerada com base no conteúdo da elocução adquirida na etapa de aquisição de elocução. Na etapa de geração de expressão, quando as informações são adquiridas, a expressão de resposta é gerada utilizando as informações juntamente com o conteúdo da elocução, a expressão de resposta gerada quando as informações são adquiridas sendo diferentes de uma expressão de resposta gerada quando as informações não são adquiridas.

[0015] Com esta configuração, por exemplo, a expressão facial expressada pela porção de face do personagem pode ser feita diferente quando uma emoção lida de uma expressão facial do usuário é levada em conta e quando a emoção não é levada em conta. Portanto, mesmo se a elocução do usuário for a mesma, a expressão facial expressada pela porção de face do personagem é rica em variações. Pode ser esperado que o usuário tem aumentado a ligação com o personagem sem ficar cansado do diálogo.

[0016] O sumário da invenção acima não enumera todas as características necessárias da invenção. Além disso, as subcombinações

Petição 870180048645, de 07/06/2018, pág. 96/151

6/37 destes grupos de características são também uma parte da invenção. [0017] Com a invenção, é possível prover um dispositivo de comunicação ou similar que permite um personagem mostrar, mesmo para o mesmo diálogo, várias expressões dependendo da situação. BREVE DESCRIÇÃO DOS DESENHOS [0018] Características, vantagens, e significância técnica e industrial de modalidades exemplares da invenção serão abaixo descritas com referência aos desenhos acompanhantes, nos quais números iguais denotam elementos iguais, e em que:

[0019] Figura 1 é um diagrama esquemático de um robô de acordo com uma primeira modalidade;

[0020] Figura 2 é um diagrama de configuração de sistema do robô; [0021] Figura 3 é uma vista em perspectiva que mostra uma estrutura de um olho direito;

[0022] Figura 4 é um diagrama que mostra uma relação entre expressões faciais do robô e um modelo circumplexo de Russel;

[0023] Figura 5 é um diagrama explanatório referente a um método de determinação de emoção empática;

[0024] Figura 6 é um diagrama explanatório referente a um método de determinação de emoção empática de outro exemplo;

[0025] Figura 7 é um diagrama explanatório referente a um método de determinação de emoção empática de um exemplo adicional;

[0026] Figura 8 é um diagrama explanatório referente a um método de determinação de emoção empática em um caso de combinar emoções de sujeito;

[0027] Figura 9 é um diagrama para explicar uma transição de exibição que acompanha uma mudança de emoção;

[0028] Figura 10 é um fluxograma que mostra um procedimento de um processo de operação;

[0029] Figura 11 é um diagrama esquemático de um sistema de

Petição 870180048645, de 07/06/2018, pág. 97/151

7/37 comunicação de acordo com uma segunda modalidade;

[0030] Figura 12 é um diagrama de configuração de sistema de um servidor;

[0031] Figura 13 é um diagrama de configuração de sistema de um robô; e [0032] Figura 14 é um diagrama esquemático de um terminal tablet de acordo com uma terceira modalidade.

DESCRIÇÃO DETALHADA DE MODALIDADES [0033] Daqui em diante, a invenção será descrita através de modalidades da invenção, mas a invenção definida nas reivindicações não está limitada às seguintes modalidades. Além disso, todas as configurações descritas nas modalidades não são necessariamente indispensáveis como meios para resolver o problema.

[0034] A Figura 1 é um diagrama esquemático de um robô 100 de acordo com uma primeira modalidade. O robô 100 é um robô como um dispositivo de comunicação que executa um diálogo de voz com um usuário humano. O robô 100 é um dispositivo de personagem que incorpora um personagem e muda uma expressão de olhos de acordo com o diálogo.

[0035] O robô 100 imita um animal em aparência e tem uma porção de face 120. A porção de face 120 está provida com uma porção de olho 122 (um olho direito 122a e um olho esquerdo 122b) em uma posição que permite um usuário reconhecer a porção de olho 122 como os olhos. Uma estrutura da porção de olho 122 será posteriormente descrita em detalhes. Atrás de cada um do olho direito 122a e do olho esquerdo 122b, um painel de display 106, tal como um painel de cristal líquido ou um painel EL orgânico, por exemplo, está instalado.

[0036] Em uma posição de um nariz do robô 100, uma câmera 102 está disposta em um modo imperceptível. A câmera 102 inclui, por exemplo, um sensor CMOS, e funciona como uma parte de formação

Petição 870180048645, de 07/06/2018, pág. 98/151

8/37 de imagem que adquire uma imagem para reconhecimento de um ambiente externo. Em uma posição de uma boca do robô 100, um altofalante 109 está disposto em um estado oculto. O alto-falante 109 funciona como uma parte de saída de elocução que emite uma voz gerada pelo robô 100. O usuário sente como se o robô 100 estivesse falando devido à voz emitida da posição da boca. Além disso, um microfone 101 está disposto em um estado oculto em qualquer posição da porção de face 120. O microfone 101 tem uma função de coletar uma voz expressada do usuário ou similares.

[0037] O robô 100 é operado por energia elétrica suprida de uma bateria 111. A bateria 111 é, por exemplo, uma bateria de íon de lítio. Uma parte de monitoramento de bateria 112 é uma unidade de circuito que monitora uma capacidade restante da bateria 111, por exemplo, por um método de rastreamento de impedância.

[0038] A Figura 2 é um diagrama de configuração de sistema do robô 100. O robô 100 inclui, como componentes de sistema principais, o microfone 101, a câmera 102, o painel de display 106, o alto-falante 109, a parte de monitoramento de bateria 112, uma parte de controle 200, um DB de voz de resposta 310, e um DB de expressão de resposta 320. A parte de controle 200 está configurada, por exemplo, por uma CPU. A parte de controle 200 opera como uma parte de execução de função para executar cada função e principalmente opera como uma parte de reconhecimento de elocução 201, uma parte de reconhecimento de expressão 202, uma primeira parte de estimativa de emoção 203, uma segunda parte de estimativa de emoção 204, uma parte de determinação de emoção empática 205, uma parte de determinação de emoção de sujeito 206, uma parte de seleção de expressão 207, uma parte de controle de olho 208, uma parte de seleção de voz 209, e uma parte de controle de elocução 210.

[0039] Como uma função principal, o microfone 101 coleta a voz

Petição 870180048645, de 07/06/2018, pág. 99/151

9/37 expressada do usuário, o qual é o parceiro de conversação do robô 100. O microfone 101 converte a voz expressada do usuário coletada em um sinal de voz e fornece o sinal de voz para a parte de reconhecimento de elocução 201. Como uma função principal, a câmera 102 captura uma imagem de uma face do usuário que faceia o robô 100. A câmera 102 converte a imagem de face capturada do usuário em um sinal de imagem e fornece o sinal de imagem para a parte de reconhecimento de expressão 202.

[0040] O alto-falante 109 recebe um sinal de voz convertido pela parte de controle de elocução 210 e emite uma voz de resposta como um som. O painel de display 106 recebe um sinal de imagem convertido pela parte de controle de olho 208 e exibe um padrão que corresponde a uma expressão de resposta. A parte de monitoramento de bateria 112 detecta a capacidade restante da bateria 111 e fornece um sinal de detecção para a parte de determinação de emoção de sujeito 206. A parte de monitoramento de bateria 112 é um exemplo de uma parte de aquisição de estado que adquire um estado interno do robô 100.

[0041] O DB de voz de resposta 310 é um banco de dados de voz de resposta conectado na parte de seleção de voz 209 e está configurado, por exemplo, por um meio de gravação tal como uma unidade de disco rígido. O DB de voz de resposta 310 está organizado, por exemplo, como um corpus. Termos individuais são armazenados com dados de elocução reproduzíveis. O DB de expressão de resposta 320 é um banco de dados de expressão de resposta conectado na parte de seleção de expressão 207 e está configurado, por exemplo, por um meio de gravação tal como uma unidade de disco rígido. O DB de expressão de resposta 320 está organizado, por exemplo, como um modelo circumplexo de Russel. O DB de expressão de resposta 320 armazena dados de imagem concretos de expressões de olho, emoções indicadas pelas expressões de olho, e graus de emoções em associação um com

Petição 870180048645, de 07/06/2018, pág. 100/151

10/37 o outro. Detalhes serão posteriormente descritos.

[0042] A parte de reconhecimento de elocução 201 analisa o sinal de voz recebido do microfone 101 e reconhece a elocução do usuário. A parte de reconhecimento de elocução 201 tem uma função como uma parte de aquisição de elocução que adquire uma elocução do usuário na direção do robô 100 em cooperação com o microfone 101. Especificamente, a parte de reconhecimento de elocução 201 reconhece o conteúdo de elocução do usuário por uma técnica de reconhecimento de voz geral e analisa a prosódia da elocução. A prosódia indica as características físicas da elocução quando a elocução é capturada como ondas de som. A parte de reconhecimento de elocução 201 calcula, por exemplo, uma frequência central, uma banda de frequência, e um valor máximo e um valor médio de amplitude como as características físicas em uma massa de ondas de som emitidas pelo usuário. A parte de reconhecimento de elocução 201 fornece o conteúdo de elocução reconhecido para a parte de seleção de voz 209. Além disso, a parte de reconhecimento de elocução 201 fornece a prosódia analisada para a primeira parte de estimativa de emoção 203.

[0043] A primeira parte de estimativa de emoção 203 extrai uma mudança em nível de amplitude, uma entonação de final, e similares da prosódia recebida da parte de reconhecimento de elocução 201, e estima um tipo de emoção do usuário e um grau da emoção do usuário. O tipo e grau da emoção estimada serão posteriormente descritos em detalhes. O tipo e o grau de uma primeira emoção estimada da elocução do usuário são fornecidos para a parte de determinação de emoção empática 205.

[0044] A primeira parte de estimativa de emoção 203 pode corrigir o tipo e o grau da emoção do usuário em consideração de um atributo de uma palavra expressada. Um atributo de uma palavra indica qual emoção a palavra é usualmente utilizada para expressar. Por exemplo,

Petição 870180048645, de 07/06/2018, pág. 101/151

11/37 a palavra feliz tem um atributo de contente. Quando o usuário expressa feliz, a primeira parte de estimativa de emoção 203 traz o tipo da emoção estimada para o lado contente.

[0045] A parte de reconhecimento de expressão 202 analisa o sinal de imagem recebido da câmera 102 e reconhece uma expressão facial do usuário. A parte de reconhecimento de expressão 202 funciona como uma parte de aquisição de informações que, em cooperação com a câmera 102, adquire a expressão facial do usuário como informações diferentes da elocução do usuário. Especificamente, a parte de reconhecimento de expressão 202 extrai pontos de característica da imagem de face do usuário por uma técnica de reconhecimento de face geral, e calcula uma quantidade de características de expressão tal como as posições dos pontos de característica, inclinações dos segmentos de linha que conectam pontos de característica adjacentes, o número de pontos de característica, e similares. A parte de reconhecimento de expressão 202 fornece a quantidade de características de expressão calculada para a segunda parte de estimativa de emoção 204.

[0046] A segunda parte de estimativa de emoção 204 extrai, por exemplo, um tamanho de pupilas, um grau de descida de cantos de olho externos, um grau de subida de cantos de boca, presença ou ausência de perspiração, um grau de rugas, e similares da quantidade de características de expressão recebidas da parte de reconhecimento de expressão 202, e estima o tipo e o grau da emoção do usuário. O tipo e o grau da emoção estimada serão posteriormente descritos em detalhes. O tipo e o grau da segunda emoção estimada da expressão facial do usuário são fornecidos para a parte de determinação de emoção empática 205.

[0047] Quando o usuário não faceia a câmera 102 ou a imagem de face está escura, a parte de reconhecimento de expressão 202 não pode calcular a quantidade de características de expressão, e a

Petição 870180048645, de 07/06/2018, pág. 102/151

12/37 segunda parte de estimativa de emoção 204 não pode estimar o tipo e o grau da segunda emoção. Em tal caso, a segunda parte de estimativa de emoção 204 fornece um sinal que indica um fato que a segunda emoção não pode ser gerada para a parte de determinação de emoção empática 205.

[0048] A parte de determinação de emoção empática 205 combina o tipo e o grau da primeira emoção recebida da primeira parte de estimativa de emoção 203 e o tipo e o grau da segunda emoção recebida da segunda parte de estimativa de emoção 204, e determina um tipo e um grau de uma emoção empática a ser expressada pelo o robô 100 para o usuário. Um procedimento específico para determinar o tipo e o grau da emoção empática será posteriormente descrito em detalhes. O tipo e o grau da emoção empática são fornecidos para a parte de seleção de expressão 207. Além disso, ao receber da segunda parte de estimativa de emoção 204, o sinal que indica o fato que a segunda emoção não pode ser gerada, a parte de determinação de emoção empática 205 determina o tipo e o grau da primeira emoção como o tipo e o grau da emoção empática.

[0049] A parte de determinação de emoção de sujeito 206 converte um nível do sinal de detecção recebido da parte de monitoramento de bateria 112 em um tipo e um grau da emoção de sujeito do robô 100 associada com o nível do sinal de detecção e fornece o tipo e o grau da emoção de sujeito para a parte de seleção de expressão 207. A emoção de sujeito é uma certa emoção que está associada, de um modo pseudo, com um parâmetro que indica um estado do robô 100 (neste caso, a capacidade restante da bateria). Representando uma expressão determinada pelo tipo e o grau da emoção de sujeito, o robô 100 pode indiretamente mostrar o seu próprio estado para o mundo externo. Uma associação específica do parâmetro com as emoções e seleção da expressão será posteriormente descrita.

Petição 870180048645, de 07/06/2018, pág. 103/151

13/37 [0050] A parte de seleção de expressão 207 adquire, do DB de expressão de resposta 320, dados de imagem de uma expressão que corresponde ao tipo e o grau da emoção empática recebida da parte de determinação de emoção empática 205. Neste caso, a parte de determinação de emoção empática 205 e a parte de seleção de expressão 207 cooperam uma com a outra e funcionam como uma parte de geração de expressão que gera a expressão de resposta a ser expressada sobre a porção de face 120 com base no conteúdo de elocução do usuário e expressão facial. Alternativamente, dependendo das comdições, a parte de seleção de expressão 207 combina o tipo e o grau da emoção de sujeito recebida da parte de determinação de emoção de sujeito 206 com o tipo e o grau da emoção empática, e adquire, do DB de expressão de resposta 320, dados de imagem de uma expressão que corresponde a um resultado da combinação. Alternativamente, sob uma situação onde o usuário não está falando ou similares, a parte de seleção de expressão 207 adquire, do DB de expressão de resposta 320, dados de imagem de uma expressão que corresponde somente ao tipo e o grau da emoção de sujeito recebida da parte de determinação de emoção de sujeito 206. A parte de seleção de expressão 207 fornece os dados de imagem adquiridos do DB de expressão de resposta 320 para a parte de controle de olho 208. A parte de controle de olho 208 converte os dados de imagem recebidos da parte de seleção de expressão 207 em um sinal de imagem capaz de ser exibido sobre o painel de display 106 e fornece o sinal de imagem para o painel de display 106.

[0051] A parte de seleção de voz 209 seleciona uma sentença adequada para uma conversação em relação ao conteúdo de elocução do usuário reconhecido pela parte de reconhecimento de elocução 201, coleta os dados de elocução que correspondem à sentença selecionada do DB de voz de resposta 310, e emite os dados de elocução para a

Petição 870180048645, de 07/06/2018, pág. 104/151

14/37 parte de controle de elocução 210. A parte de controle de elocução 210 converte os dados de elocução recebidos em um sinal de voz e fornece o sinal de voz para o alto-falante 109. A parte de seleção de voz 209 e a parte de controle de elocução 210 cooperam uma com a outra e funcionam como uma parte de geração de voz que gera uma voz de resposta com base no conteúdo de elocução do usuário. A parte de seleção de voz 209 pode mudar a sentença a ser selecionada, levando em consideração a emoção estimada pela primeira parte de estimativa de emoção 203. Por exemplo, quando a primeira parte de estimativa de emoção 203 estima a emoção do usuário como triste, a parte de seleção de voz 209 pode mudar a sentença para uma sentença de conteúdo encorajador. Considerando a emoção que o usuário coloca na elocução neste modo, é possível esperar uma comunicação mais profunda. No entanto, é preferível não levar em conta a emoção estimada pela segunda parte de estimativa de emoção 204. Como será posteriormente descrito, a voz de resposta gerada pelo robô 100 é rica em variações em combinação com a expressão de resposta, quando a emoção estimada pela segunda parte de estimativa de emoção 204 não é considerada.

[0052] A Figura 3 é uma vista em perspectiva que mostra uma estrutura do olho direito 122a. O olho esquerdo 122b também tem a mesma estrutura que o olho direito 122a. O painel de display 106 de cada um do olho direito 122a e do olho esquerdo 122b é controlado pela parte de controle de olho 208.

[0053] O olho direito 122a está principalmente composto de uma cobertura translúcida 131, um feixe de fibras óticas 132, e o painel de display 106. A cobertura translúcida 131 está moldada com, por exemplo, policarbonato transparente, e desempenha um papel como um material exterior da porção de face 120. Quando um robô imita um animal ou um ser humano, os olhos que têm uma superfície curva são

Petição 870180048645, de 07/06/2018, pág. 105/151

15/37 naturais e facilmente aceitos pelo usuário. Portanto, no robô 100 de acordo com a presente modalidade, a cobertura translúcida 131 que corresponde à superfície dos olhos está formada em uma superfície curva protuberante para fora.

[0054] Em um lado interno do olho direito 122a, o painel de display 106 que exibe um padrão que representa uma expressão do olho direito está instalado. Uma superfície de exibição do painel de display 106 é uma superfície plana. Além disso, a superfície de exibição tem um tamanho que abrange uma circunferência periférica externa da cobertura translúcida 131. A Figura 3 mostra um estado no qual o painel de display 106 exibe uma imagem de olho direito de exibição 191a que é um padrão composto de uma parte preta do olho tensionadamente sobreposta sobre uma parte branca do olho que tem um tamanho que corresponde à circunferência periférica externa da cobertura translúcida 131. Cada padrão a ser exibido está armazenado como dados de imagem no DB de expressão de resposta 320, lido pela parte de seleção de expressão 207, convertido em um sinal de imagem pela parte de controle de olho 208, e exibido sobre o painel de display 106.

[0055] A superfície curva interna da cobertura translúcida 131 e uma superfície do painel de display 106 estão conectadas pelo feixe de fibras óticas 132. O feixe de fibras óticas 132 transmite a imagem de olho direito de exibição 191a exibida sobre o painel de display 106 para a cobertura translúcida 131. O feixe de fibras óticas 132 é um agregado de fibras óticas 132a que corresponde a respectivos pixels do painel de display 106 em uma relação de um para um. Na Figura 3, para o bem de explicação, as fibras óticas 132a estão mostradas como se estas estivessem flutuando da superfície do painel de display 106. No entanto, uma extremidade de cada uma das fibras óticas 132a está ligada na superfície do painel de display 106 por um adesivo do tipo de guia de luz. Uma superfície circunferencial externa do agregado das fibras

Petição 870180048645, de 07/06/2018, pág. 106/151

16/37 óticas 132a está coberta e fixada com um revestimento 132b. Neste modo, a cobertura translúcida 131, o feixe de fibras óticas 132 e o painel de display 106 estão conectados uns nos outros e integrados.

[0056] Um fluxo luminoso da imagem de olho direito de exibição 191a exibida sobre o painel de display 106 entra de uma das extremidades das fibras óticas 132a e sai da outra extremidade das fibras óticas 132a. Um agregado das outras extremidades das fibras óticas 132a é uma superfície de emissão de luz das fibras óticas 132a e forma uma tela virtual que estende ao longo da superfície curva interna da cobertura translúcida 131. Consequentemente, a imagem de olho direito de exibição 191a exibida sobre o painel de display 106 é projetada por sobre a tela virtual e é convertida em uma imagem de olho direito projetada 192a observada pelo usuário.

[0057] Como a imagem de olho direito de exibição 191a exibida como uma superfície plana é convertida na imagem de olho direito projetada 192a projetada como uma superfície curva, a parte de controle de olho 105 pode ajustar com antecedência uma forma da imagem de olho direito de exibição 191a para ser exibida de modo que a imagem de olho direito projetada 192a a ser observada tenha uma forma correta. Neste caso, por exemplo, mesmo para um padrão de uma única parte preta do olho, a parte de controle de olho 208 ajusta uma posição e a forma da imagem de olho direito de exibição 191a a ser exibida, dependendo da posição projetada da imagem de olho direito projetada 192a sobre a tela virtual.

[0058] A Figura 4 é um diagrama que mostra uma relação entre expressões faciais expressadas pelo robô 100 e um modelo circumplexo de Russel. Na Figura 4, as formas da porção de face 120 estão dispostas lado a lado. No entanto, o robô 100 de acordo com a presente modalidade está configurado para controlar uma impressão do usuário recebida da porção de face inteira 120 mudando uma imagem de olho

Petição 870180048645, de 07/06/2018, pág. 107/151

17/37 direito e uma imagem de olho esquerdo exibidas sobre o painel de display 106. Portanto, os dados de imagem armazenados no DB de expressão de resposta 320 em associação com os tipos e os graus de emoções abaixo descritos é um conjunto de dados de imagem que corresponde à imagem de olho direito e à imagem de olho esquerdo.

[0059] O modelo circumplexo de Russel, o qual foi proposto no campo de psicologia, é um modelo no qual todas as emoções estão anularmente dispostas em um plano que tem eixos geométricos de agradável-desagradável e surpreso-desativado. Existem várias opiniões quando a quais posições as emoções concretas podem ser dispostas. Na presente modalidade, como mostrado na Figura 4, vinte tipos de emoções incluindo alerta, excitado, exultante, feliz, agradável, contente, sereno relaxado calmo, desativado, cansado, aborrecido, deprimido triste desagradável, preocupado, estressado, nervoso, e tenso estão uniformemente dispostos no sentido horário do surpreso sobre uma circunferência. Portanto, um tipo de cada emoção é definido ao longo de uma direção radial ao redor de sem expressão como um centro, e uma distância do centro indica o grau de cada emoção. A Figura 4 mostra as expressões faciais que representam os estados quando as emoções são mais fortemente expressadas. Além disso, expressões faciais intermediárias que correspondem aos graus das emoções estão dispostas sobre as linhas radiais indicadas por linhas pontilhadas.

[0060] No modelo circumplexo de Russel ilustrado na Figura 4, as emoções adjacentes umas às outras são emoções similares. Portanto, as expressões das emoções adjacentes são também similares umas às outras. Os padrões de dados de imagem associados com os tipos e os graus das respectivas emoções são criados com antecedência com a relação acima descrita.

[0061] A seguir, um método que leva à determinação de uma

Petição 870180048645, de 07/06/2018, pág. 108/151

18/37 emoção empática será descrito. A Figura 5 é um diagrama explanatório referente a um método de determinação de emoção empática e mostra um sistema de coordenadas toroidais obtido removendo as aparências da porção de face 120 do modelo circumplexo de Russel da Figura 4. O centro do círculo que representa sem expressão é ajustado para 0, e um valor máximo de cada emoção é ajustado para 1. Isto quer dizer, o modelo circumplexo de Russel está representado por um círculo com um raio de um.

[0062] Um tipo e um grau da emoção (primeira emoção) estimada da elocução do usuário pela primeira parte de estimativa de emoção 203 estão representados por um vetor V1. No exemplo ilustrado, o vetor V1 tem um comprimento de aproximadamente 0,25 na direção agradável. Mais ainda, um tipo e um grau da emoção (segunda emoção) estimados da elocução do usuário pela segunda parte de estimativa de emoção 204 estão representados por um vetor V2. No exemplo ilustrado, o vetor V2 tem um comprimento de aproximadamente 0,5 na direção excitado. [0063] A parte de determinação de emoção empática 205 calcula um vetor V3 que representa uma emoção empática obtendo uma soma do vetor V1 e do vetor V2 sobre o modelo circumplexo de Russel. No exemplo ilustrado, o vetor V3 tem um comprimento de aproximadamente 0,67 na direção exultante. Portanto, a parte de determinação de emoção empática 205 determina o tipo da emoção empática = exultante e o grau da emoção empática = 0,67, os quais estão representados pelas coordenadas de um pentagrama na Figura 5.

[0064] A Figura 6 é um diagrama explanatório referente a um método de determinação de emoção empática de outro exemplo. A Figura 6 também mostra o mesmo sistema de coordenadas toroidais que aquele na Figura 5.

[0065] É assumido que a primeira parte de estimativa de emoção 203 estima o tipo da primeira emoção = preocupado e o grau da

Petição 870180048645, de 07/06/2018, pág. 109/151

19/37 primeira emoção = 1, como representado por um vetor Vi, e a segunda parte de estimativa de emoção 204 estima o tipo da segunda emoção = surpreso e o grau da segunda emoção = 1, como representado por um vetor V2. Neste caso, quando uma soma do vetor Vi e do vetor V2 é calculada, a direção da soma é nervoso, mas a magnitude da soma excede um. Assim, a parte de determinação de emoção empática 205 determina um vetor V3 como o tipo da emoção empática = nervoso e o grau da emoção empática = 1, os quais estão representados pelas coordenadas de um pentagrama na Figura 6.

[0066] No modo acima descrito, provendo uma regra de exceção na qual a magnitude do vetor V3 é ajustada para um quando esta excede um, mesmo se o vetor V1 e o vetor V2 tiverem qualquer orientação e qualquer magnitude, é possível determinar o tipo e o grau da emoção empática.

[0067] Na presente modalidade, cada uma da primeira parte de estimativa de emoção 203 e da segunda parte de estimativa de emoção 204 está configurada para estimar o tipo de emoção juntamente com o grau de emoção. No entanto, mesmo com uma configuração na qual o grau de emoção não é estimado, é possível determinar o tipo da emoção empática pelo método de acordo com a presente modalidade. Especificamente, se o tipo da primeira emoção for estimado ser preocupado e o tipo da segunda emoção for estimado ser surpreso, o cálculo de vetor pode ser executado sob a suposição que o grau de cada uma da primeira emoção e da segunda emoção é um valor fixo 1. Como um resultado, o nervoso que é o tipo de emoção que corresponde à direção do vetor calculado pode ser determinado como o tipo da emoção empática.

[0068] A Figura 7 é um diagrama explanatório referente a um método de determinação de emoção empática de um exemplo adicional. A Figura 7 também mostra o mesmo sistema de coordenadas toroidais

Petição 870180048645, de 07/06/2018, pág. 110/151

20/37 que aquele na Figura 5.

[0069] É assumido que a primeira parte de estimativa de emoção 203 estima o tipo da primeira emoção = feliz e o grau da primeira emoção = 0,50, como representado por um vetor V1, e a segunda parte de estimativa de emoção 204 estima o tipo da segunda emoção = relaxado e o grau da segunda emoção = 0,25, como representado por um vetor V2. Neste caso, quando uma soma do vetor V1 e do vetor V2 é calculada, um vetor V3 tem um comprimento de aproximadamente 0,62 na direção entre agradável e contente. Quando a direção do vetor V3 calculado está entre duas emoções como acima descrito, os dados de imagem que correspondem às coordenadas de ponta do vetor V3 não estão armazenados no DB de expressão de resposta 320. Assim, a parte de determinação de emoção empática 205 traça uma linha perpendicular abaixo para uma das linhas radiais das duas emoções qualquer que seja mais próxima, e determina um pé da linha perpendicular como coordenadas de emoção empática. No exemplo da Figura 7, as coordenadas de um pentagrama mostradas sobre a linha radial de agradável são as coordenadas de emoção empática. Isto quer dizer, a parte de determinação de emoção empática 205 determina o tipo da emoção empática = agradável e o grau da emoção empática = 0,61. Como acima descrito, a parte de determinação de emoção empática 205 pode unicamente determinar o tipo e o grau da emoção empática mesmo se a direção do vetor V3 não estender ao longo da linha radial de nenhuma emoção.

[0070] O método para determinar o tipo e o grau da emoção empática descrito com referência às Figuras 5 a 7 é um método capaz de ser aplicado a um caso onde a segunda parte de estimativa de emoção 204 estima o tipo e o grau da segunda emoção, isto é, um caso onde o vetor V2 pode ser calculado. Em um caso onde a segunda parte de estimativa de emoção 204 não consegue estimar a segunda emoção, o tipo e o

Petição 870180048645, de 07/06/2018, pág. 111/151

21/37 grau da emoção empática podem ser determinados ajustando V3 = Vi. [0071] Quando a emoção de sujeito determinada pela parte de determinação de emoção de sujeito 206 não é levada em conta, a parte de seleção de expressão 207 adquire, do DB de expressão de resposta 320, os dados de imagem de expressão de olho que correspondem às coordenadas da emoção empática determinada pela parte de determinação de emoção empática 205 no modelo circumplexo de Russel. Quando adquirindo os dados de imagem, a parte de seleção de expressão 207 fornece os dados de imagem para a parte de controle de olho 208, e a parte de controle de olho 208 converte os dados de imagem recebidos em um sinal de imagem e exibe o sinal de imagem sobre o painel de display 106. Assim, a expressão facial que corresponde ao tipo e grau da emoção empática determinada é criada sobre a porção de face 120. Alternativamente, quando a emoção de sujeito determinada pela parte de determinação de emoção de sujeito 206 é combinada com a emoção empática determinada pela parte de determinação de emoção empática 205, o cálculo de vetor é primeiro executado sobre o vetor de emoção empática e o vetor de emoção de sujeito.

[0072] A Figura 8 é um diagrama explanatório referente a um método para determinar uma emoção combinada expressada pela porção de face 120 quando combinando emoções de sujeito. A Figura 8 também mostra o mesmo sistema de coordenadas toroidais que aquele na Figura 5. É assumido que o vetor V3 calculado pela parte de determinação de emoção empática 205 tem um comprimento de aproximadamente 0,67 na direção de exultante como no exemplo da Figura 5.

[0073] Como acima descrito, a emoção de sujeito é uma certa emoção que está associada, em um pseudomedo, com um parâmetro que indica um estado do robô 100. Na presente modalidade, a

Petição 870180048645, de 07/06/2018, pág. 112/151

22/37 capacidade restante da bateria 111 está associada com cansado. Isto é, quando o robô 100 expressa somente a emoção de sujeito, o robô 100 expressa a expressão facial mais aborrecida conforme a capacidade restante da bateria 111 diminui. Especificamente, a emoção de sujeito está representada por um vetor V4 que estende ao longo de uma linha radial de cansado, e a capacidade restante é feita corresponder a um comprimento do vetor V4. Por exemplo, quando o sinal de detecção recebido da parte de monitoramento de bateria 112 indica a capacidade restante = 100%, o comprimento do vetor V4 é ajustado para 0. Quando o sinal de detecção indica a capacidade restante = 50%, o comprimento do vetor V4 é ajustado para 0,5. Quando o sinal de detecção indica a capacidade restante = 0%, o comprimento do vetor V4 é ajustado para 1. No exemplo da Figura 8, a parte de determinação de emoção de sujeito 206 determina o vetor V4 como o tipo da emoção de sujeito = cansado e o grau da emoção de sujeito = 0,5.

[0074] Similar à parte de determinação de emoção empática 205 acima descrita, a parte de seleção de expressão 207 calcula um vetor V5 que representa uma emoção combinada obtendo uma soma do vetor V3 e do vetor V4. No exemplo da Figura 8, o vetor V5 tem um comprimento de aproximadamente 0,40 na direção de contente. Portanto, a parte de seleção de expressão 207 determina o tipo da emoção combinada = contente e o grau da emoção combinada = 0,40, os quais estão representados pelas coordenadas de um pentagrama na Figura

8.

[0075] No cálculo da soma do vetor V3 e do vetor V4, quando o vetor V5 excede um, a parte de seleção de expressão 207 lida com a situação como descrito com referência à Figura 6. Além disso, quando o vetor V5 não está posicionado sobre uma linha radial que indica uma emoção específica, a parte de seleção de expressão 207 lida com a situação

Petição 870180048645, de 07/06/2018, pág. 113/151

23/37 como descrito com referência à Figura 7. Na presente modalidade, o parâmetro associado com a emoção de sujeito está descrito como sendo limitado à capacidade restante da bateria 111. No entanto, outros parâmetros podem estar associados com diferentes emoções. Por exemplo, quando o número de vezes de diálogo executado no passado com um usuário específico é gravado, o número de vezes de diálogo pode ser associado com exultante como um parâmetro. Por meio desta associação, quando o número de vezes de diálogo com o usuário aumenta, o robô 100 fortemente expressa a expressão facial de exultante como uma emoção de sujeito como se o robô 100 está encantado de ser capaz de falar novamente. Quando uma pluralidade de parâmetros que indicam estados do robô 100 está associada com diferentes emoções, a parte de determinação de emoção de sujeito 206 calcula uma soma de vetores de emoções e determina um tipo e um grau de uma emoção de sujeito, no mesmo modo que a parte de determinação de emoção empática 205 faz.

[0076] Quando determinando o tipo e o grau da emoção combinada calculando o vetor V5, a parte de seleção de expressão 207 adquire, do DB de expressão de resposta 320, dados de imagem de uma expressão de olho que corresponde às coordenadas determinadas no modelo circumplexo de Russel. Quando adquirindo os dados de imagem, a parte de seleção de expressão 207 fornece os dados de imagem para a parte de controle de olho 208. A parte de controle de olho 208 converte os dados de imagem recebidos em um sinal de imagem e exibe o sinal de imagem sobre o painel de display 106. Assim, a expressão facial que corresponde ao tipo e o grau da emoção combinada assim determinados é criada sobre a porção de face 120.

[0077] Quando condições pré-ajustadas são satisfeitas, a parte de seleção de expressão 207 pode adquirir, do DB de expressão de res

Petição 870180048645, de 07/06/2018, pág. 114/151

24/37 posta 320, os dados de imagem da expressão de olho que correspondem ao tipo e o grau da emoção de sujeito sem ser combinado com a emoção empática. Por exemplo, quando o robô 100 determina que não existe nenhum usuário próximo com o qual fazer um diálogo, o robô 100 pode expressar a expressão facial de cansado, de modo que é possível parecer para os circundantes que a capacidade restante da bateria 111 é pequena. No diálogo com o usuário, quando um usuário pergunta uma questão sobre o estado do robô 100, o robô 100 pode mais diretamente notificar o usuário do estado do robô 100.

[0078] A seguir um processo executado quando uma emoção muda sequencialmente conforme um diálogo com um usuário progride será descrito. A Figura 9 é um diagrama para explicar uma transição de exibição que acompanha uma mudança de emoção. A Figura 9 também mostra o mesmo sistema de coordenadas toroidais que aquele na Figura 5.

[0079] Em um período de tempo no qual uma conversação com um usuário continua, é assumido que como um resultado do cálculo de vetor acima descrito, a parte de seleção de expressão 207 obtém um vetor Vt1 como o tipo e o grau da emoção expressada no tempo t1. As coordenadas Ft1 indicadas pelo vetor Vt1 são o tipo da emoção = exultante e o grau da emoção = 0,67. Subsequentemente, é assumido que um vetor Vt2 é obtido como o tipo e o grau da emoção expressada no tempo t2. As coordenadas Ft2 indicadas pelo vetor Vt2 são o tipo da emoção = calmo e o grau da emoção = 1. Quando emoções expressadas em tempos consecutivos são significativamente diferentes como acima descrito, a expressão facial da porção de face 120 pode ser subitamente e grandemente mudada, e o usuário pode algumas vezes sentir-se desconfortável.

[0080] Assim, na presente modalidade, as coordenadas Ft1 e as coordenadas Ft2 estão suavemente conectadas por uma curva, e

Petição 870180048645, de 07/06/2018, pág. 115/151

25/37 coordenadas de interpolação são ajustadas em pontos onde a curva intersecta as linhas radiais das respectivas emoções. No exemplo da Figura 9, seis diferentes tipos de emoções (de exultante para calmo) existem das coordenadas Ft1 para as coordenadas Ft2, e uma mudança em grau de emoção é 1-0,67 = 0,33. Assim, as coordenadas de interpolação podem ser ajustadas de modo que o grau de emoção aumente por 0,33/6 = 0,055 cada vez quando uma transição de uma emoção para a sua emoção adjacente é feita. Neste modo, coordenadas Ftn, coordenadas Ft12, coordenadas Ft13, coordenadas Ft14 e coordenadas Ft15 são ajustadas nos pontos onde a curva intersecta as respectivas linhas radiais de feliz, agradável, contente, sereno e relaxado. Então, a parte de seleção de expressão 207 fornece dados de imagem que correspondem às coordenadas Ft1 para a parte de controle de olho 208. Posteriormente, a parte de seleção de expressão

207 sucessivamente fornece dados de imagem que correspondem às coordenadas Ftn, Ft12, Ft13, Ft14, e Ft15 para a parte de controle de olho

208 antes dos dados de imagem que correspondem às coordenadas Ft2 serem fornecidos para a parte de controle de olho 208. A parte de controle de olho 208 converte os dados de imagem que correspondem à coordenada Ft1 em um sinal de imagem no tempo t1 e exibe o sinal de imagem sobre o painel de display 106. Posteriormente, até o tempo t2, a parte de controle de olho 208 sucessivamente converte os dados de imagem que correspondem às coordenadas Ftn, Ft12, Ft13, Ft14 e Ft15 em sinais de imagem e exibe os sinais de imagem sobre o painel de display 106. Então, no tempo t2, os dados de imagem que correspondem às coordenadas Ft2 são convertidos em um sinal de imagem e exibidos sobre o painel de display 106. Neste modo, inserindo expressões faciais que interpolam entre a expressão facial expressada no t1 e a expressão facial expressada no tempo t2 que é contínuo com o tempo t1, o usuário pode conseguir uma impressão que a mudança da porção de face 120

Petição 870180048645, de 07/06/2018, pág. 116/151

26/37 é suave e contínua. O número de expressões faciais a serem interpoladas pode mudar de acordo com as condições, tal como um período de tempo entre o tempo t1 e o tempo t2, uma proximidade entre as coordenadas Ft1 e as coordenadas Ft2, e similares.

[0081] Por outro lado, quando as emoções expressadas em tempos consecutivos não mudam de todo, a expressão facial da porção de face 120 não muda. Neste caso também, o usuário pode sentir desconforto. Assim, a parte de determinação de emoção empática 205 pode mudar o vetor calculado V3 para um vetor V3' que é aproximado dentro de uma faixa predeterminada e pode emitir o vetor V3'. Por exemplo, com relação à emoção representada pelo vetor calculado V3, a faixa para cima para uma emoção adjacente sobre o modelo circumplexo de Russel é assumida ser a faixa predeterminada. Neste modo, se uma flutuação for dada para a saída da emoção empática, o usuário pode apreciar uma expressão mais variada.

[0082] A seguir, um procedimento de um processo de operação executado pela parte de controle 200 será descrito. A Figura 10 é um fluxograma que mostra o procedimento do processo de operação. O fluxo é iniciado quando um suprimento de energia do robô 100 é ligado. [0083] Na etapa S101, a parte de reconhecimento de elocução 201 adquire uma elocução do usuário falando com o robô 100 através do microfone 101. O fluxo prossegue para a etapa S102. A parte de seleção de voz 209 seleciona uma sentença adequada para uma conversação com relação ao conteúdo de elocução adquirido do usuário, coleta os dados de elocução que correspondem à sentença selecionada do DB de voz de resposta 310, e fornece os dados de elocução para a parte de controle de elocução 210. O fluxo prossegue para a etapa S103. A parte de controle de elocução 210 converte os dados de elocução recebidos em um sinal de voz e faz com que o sinal de voz seja expresso como uma do alto-falante 109. Na etapa S104, a primeira parte de

Petição 870180048645, de 07/06/2018, pág. 117/151

27/37 estimativa de emoção 203 estima um tipo e um grau de uma primeira emoção do usuário da elocução do usuário.

[0084] Na etapa S105, a parte de reconhecimento de expressão 202 adquire da câmera 102 a câmera imagem que captura uma expressão facial do usuário o qual fala com o robô 100. O fluxo prossegue para a etapa S106. A segunda parte de estimativa de emoção 204 estima um tipo e um grau de uma segunda emoção do usuário utilizando uma quantidade de características de expressão recebida da parte de reconhecimento de expressão 202.

[0085] Na etapa S107, a parte de determinação de emoção empática 205 determina o tipo e o grau da emoção empática calculando a soma do vetor V1 que representa o tipo e o grau da primeira emoção e o vetor V2 que representa o tipo e o grau da segunda emoção. Quando a segunda parte de estimativa de emoção 204 não consegue estimar o tipo e o grau da segunda emoção na etapa S106, a parte de determinação de emoção empática 205 determina o tipo e o grau da primeira emoção como o tipo e o grau da emoção empática.

[0086] Na etapa S108, a parte de determinação de emoção de sujeito 206 adquire um sinal de detecção que indica uma capacidade restante da bateria 111 da parte de monitoramento de bateria 112. Na etapa S109, a parte de determinação de emoção de sujeito 206 converte um nível do sinal de detecção em um tipo e um grau de uma emoção de sujeito associada do robô 100. A parte de seleção de expressão 207 calcula um tipo e um grau de uma emoção combinada dos tipos e graus recebidos da emoção empática e da emoção de sujeito, e adquire dados de imagem de uma expressão facial que corresponde ao resultado de cálculo do DB de expressão de resposta 320.

[0087] O fluxo prossegue para a etapa S111. A parte de seleção de expressão 207 determina se ou não a diferença entre a emoção combinada que corresponde aos dados de imagem previamente adquiridos

Petição 870180048645, de 07/06/2018, pág. 118/151

28/37 e a emoção combinada que corresponde aos dados de imagem correntemente adquiridos são iguais a ou maiores do que uma diferença predeterminada. A diferença predeterminada é, por exemplo, três emoções dispostas ao longo da circunferência do modelo circumplexo de Russel. Neste caso, se a emoção combinada corrente estiver espaçada por três ou mais emoções na direção circunferencial da emoção combinada anterior, o fluxo prossegue para SIM (etapa S112). Se a emoção combinada corrente estiver espaçada por duas ou menos emoções na direção circunferencial da emoção combinada anterior, o fluxo prossegue para NÃO (etapa S113).

[0088] No caso da etapa S112 precedente, a parte de seleção de expressão 207 ajusta emoções intermediárias interpolando entre a emoção combinada anterior e a emoção combinada corrente, e adquire dados de imagem que correspondem às emoções intermediárias do DB de expressão de resposta 320. Então, a parte de controle de olho 208 converte os dados de imagem em sinais de imagem e sequencialmente exibe os sinais de imagem sobre o painel de display 106. Após as imagens que correspondem às emoções intermediárias terem sido exibidas, o fluxo prossegue para a etapa S113.

[0089] Na etapa S113, a parte de seleção de expressão 207 fornece os dados de imagem adquiridos pelo processo da etapa S110 para a parte de controle de olho 208. A parte de controle de olho 208 converte os dados de imagem em um sinal de imagem e exibe o sinal de imagem sobre o painel de display 106. Então, o fluxo prossegue para a etapa S114. A parte de controle 200 determina se ou não o suprimento de energia do robô 100 está desligado. Se o suprimento de energia não estiver desligado, o fluxo retorna para a etapa S101 onde a comunicação com o usuário é repetida. Se o suprimento de energia estiver desligado, uma série de processos é terminada.

[0090] Os tempos da elocução de resposta na etapa S103 e a

Petição 870180048645, de 07/06/2018, pág. 119/151

29/37 exibição da expressão determinada na etapa S113 podem ser ajustados de modo a serem ótimos um com o outro. Além disso, o processo relativo à elocução do usuário, o processo relativo à expressão facial do usuário, e o processo relativo à bateria não precisam ser executados na ordem acima descrita, e podem ser executados em paralelo.

[0091] O robô 100 acima descrito é um dispositivo de comunicação como um personagem que executa um diálogo com um usuário. O robô 100 seleciona e gera uma expressão de resposta utilizando a primeira emoção estimada da elocução do usuário e a segunda emoção estimada das informações de imagem de face do usuário como informações não expressas pelo usuário. A expressão de resposta selecionada e gerada no caso de utilizar a segunda emoção pode diferir da expressão de resposta selecionada e gerada no caso de não utilizar a segunda emoção. Portanto, mesmo se as elocuções do usuário forem as mesmas, a expressão facial expressada pela porção de face 120 do robô 100 é rica em variações. Assim, pode ser esperado que o usuário aumentou a ligação com o robô 100 sem ficar cansado do diálogo.

[0092] Como as expressões da porção de face 120 são criadas em consideração de não somente a elocução do usuário, mas também informações outras que a elocução, mesmo se as elocuções do usuário forem as mesmas, as combinações da voz de resposta emitida pelo robô 100 e a expressão de resposta da porção de face 120 são variadas. Portanto, o usuário pode apreciar reações inesperadas do robô 100. Eventualmente, pode ser esperado aumentar o sentido de afinidade do usuário para o robô 100.

[0093] A seguir uma segunda modalidade será descrita. A Figura 11 é um diagrama esquemático de um sistema de comunicação de acordo com uma segunda modalidade. Na primeira modalidade, todos os elementos funcionais principais são providos em um corpo principal do robô 100 de modo que o robô 100 pode independentemente comunicar

Petição 870180048645, de 07/06/2018, pág. 120/151

30/37 com um usuário. No entanto, um robô 100' de acordo com a segunda modalidade adota uma configuração na qual os elementos funcionais relativos ao cálculo são deixados para um servidor 300.

[0094] Por exemplo, quando um usuário fala Olá, como está você? para o robô 100', o microfone do robô 100' captura uma voz do usuário. O robô 100' converte a voz capturada em um sinal de voz e transmite o sinal de voz para o servidor 300 por comunicação sem fio. Mais ainda, uma câmera incorporada no robô 100' captura uma imagem de uma face do usuário. O robô 100' converte um sinal de saída da câmera em um sinal de imagem e transmite o sinal de imagem para o servidor 300 por comunicação sem fio. Utilizando estas porções de informações, o servidor 300 seleciona dados de voz de uma voz de resposta (no exemplo ilustrado Eu estou bem! Estou feliz que você pode falar) e os dados de imagem de uma expressão de resposta (no exemplo ilustrado, a expressão de agradável), e transmite os dados selecionados para o robô 100'. O robô 100' emite do alto-falante a voz que corresponde aos dados de voz recebidos e exibe um padrão que corresponde aos dados de imagem recebidos.

[0095] Na presente modalidade, um sensor de pulso 500 que pode ser além disso adotado para adquirir informações biológicas do usuário será também descrito. O usuário usa o sensor de pulso 500 enrolandoo ao redor de um braço do usuário. O sensor de pulso 500 detecta, por exemplo, o pulso do usuário e estado de perspiração, e transmite o resultado de detecção ao servidor 300.

[0096] A Figura 12 é um diagrama de configuração de sistema do servidor 300. Os mesmos nomes são atribuídos aos elementos que basicamente têm as mesmas funções que os elementos descritos na primeira modalidade. Explicações das funções dos elementos estão omitidas a menos que de outro modo especificamente mencionado. Na presente modalidade, o servidor 300 funciona como o dispositivo de

Petição 870180048645, de 07/06/2018, pág. 121/151

31/37 comunicação inteiro que executa vários cálculos e similares.

[0097] O servidor 300 principalmente inclui uma parte de processamento aritmético 400, uma IF de comunicação 490, o DB de voz de resposta 310, e o DB de expressão de resposta 320. A parte de processamento aritmético 400 é, por exemplo, uma CPU, e opera como uma parte para executar as respectivas funções da parte de reconhecimento de elocução 201, da parte de reconhecimento de expressão 202, da primeira parte de estimativa de emoção 203, da segunda parte de estimativa de emoção 204, da parte de determinação de emoção empática 205, da parte de determinação de emoção de sujeito 206, e da parte de seleção de expressão 207. A parte de processamento aritmético 400 também opera como uma parte de reconhecimento de informações biológicas 212 como uma parte de execução de função.

[0098] A IF de comunicação 490 é uma interface de comunicação para trocar sinais de controle e dados com o robô 100', e é, por exemplo, uma unidade LAN sem fio. O DB de voz de resposta 310 tem a mesma configuração que o DB de voz de resposta 310 descrito na primeira modalidade, e está conectado na parte de seleção de voz 209. Mais ainda, o DB de expressão de resposta 320 tem a mesma configuração que o DB de expressão de resposta 320 descrito na primeira modalidade, e está conectado na parte de seleção de expressão 207.

[0099] A parte de reconhecimento de elocução 201 recebe um sinal de voz do robô 100' através da IF de comunicação 490. A parte de reconhecimento de elocução 201 funciona como uma parte de aquisição de elocução que, em cooperação com a IF de comunicação 490, adquire uma elocução de um usuário falando com o robô 100. Mais ainda, a parte de reconhecimento de expressão 202 recebe um sinal de imagem do robô 100' através da IF de comunicação 490. A parte de reconhecimento de expressão 202 funciona como uma parte de aquisição de informações que, em cooperação com a IF de comunicação 490,

Petição 870180048645, de 07/06/2018, pág. 122/151

32/37 adquire uma expressão facial de um usuário como informações diferentes da elocução do usuário.

[00100] A parte de reconhecimento de informações biológicas 212 adquire um sinal biológico que indica as informações biológicas do usuário do sensor de pulso 500 através da IF de comunicação 490. Então, de acordo com os objetivos de análise, tais como pulso, perspiração, e similares, a parte de reconhecimento de informações biológicas 212 extrai um sinal característico do sinal biológico adquirido e fornece o sinal característico para a segunda parte de estimativa de emoção 204. A parte de reconhecimento de informações biológicas 212 funciona como uma parte de aquisição de informações que, em cooperação com a IF de comunicação 490, adquire as informações biológicas do usuário como informações diferentes da elocução do usuário.

[00101] A segunda parte de estimativa de emoção 204 combina a emoção estimada da expressão facial do usuário e a emoção estimada das informações biológicas para determinar um tipo e um grau de uma segunda emoção. Especificamente, similar ao método descrito com referência às Figuras 5 a 7, a segunda parte de estimativa de emoção 204 determina o vetor V2 da segunda emoção representando as respectivas emoções como vetores e calculando a soma dos vetores.

[00102] A parte de seleção de expressão 207 transmite os dados de imagem adquiridos do DB de expressão de resposta 320 para o robô 100' através da IF de comunicação 490. Similarmente, a parte de seleção de voz 209 transmite os dados de elocução que correspondem à sentença selecionada para o robô 100' através da IF de comunicação 490.

[00103] A Figura 13 é um diagrama de configuração de sistema do robô 100'. Os mesmos nomes são atribuídos aos elementos os quais basicamente têm as mesmas funções que os elementos descritos na primeira modalidade. A descrição das funções dos elementos será

Petição 870180048645, de 07/06/2018, pág. 123/151

33/37 omitida a menos que de outro modo especificamente mencionado. [00104] O robô 100' principalmente inclui o microfone 101, a câmera 102, o painel de display 106, o alto-falante 109, a parte de monitoramento de bateria 112, uma IF de comunicação 190 e uma parte de controle 200'. A parte de controle 200' está formada de, por exemplo, uma CPU, e também opera como uma parte de execução de função para executar cada função. A parte de controle 200' principalmente opera como a parte de controle de olho 208 e a parte de controle de elocução 210.

[00105] A IF de comunicação 190 é uma interface de comunicação para trocar sinais de controle e dados com o servidor 300, e é, por exemplo, uma unidade LAN sem fio. A parte de controle 200' transmite um sinal de voz recebido do microfone 101 e um sinal de imagem recebido da câmera 102 para o servidor 300 através da IF de comunicação 190. Mais ainda, a parte de controle de olho 208 converte os dados de imagem recebidos da parte de seleção de expressão 207 através da IF de comunicação 190 em um sinal de imagem que pode ser exibido sobre o painel de display 106, e fornece o sinal de imagem para o painel de display 106. A parte de controle de elocução 210 converte os dados de elocução recebidos da parte de seleção de voz 209 através da IF de comunicação 190 em um sinal de voz e fornece o sinal de voz para o alto-falante 109.

[00106] Mesmo em tal configuração de sistema da segunda modalidade, como com a primeira modalidade, a comunicação com o usuário pode ser realizada. Ainda, integrando as funções relativas ao cálculo no servidor 300, é possível facilitar a configuração do robô 100', e uma comunicação suave pode ser realizada sem instalar um chip de controle de alto desempenho no robô 100'. Além disso, quando o servidor 300 é responsável por funções aritméticas, o servidor 300 pode também

Petição 870180048645, de 07/06/2018, pág. 124/151

34/37 sequencialmente responder a solicitações aritméticas de uma pluralidade de robôs 100'. Isto torna possível reduzir o custo de fabricação do sistema inteiro.

[00107] A seguir uma terceira modalidade será descrita. A Figura 14 é um diagrama esquemático de um terminal tablet 700 de acordo com a terceira modalidade. Na primeira modalidade e na segunda modalidade, o robô 100 ou 100' que incorpora um personagem é utilizado como um parceiro com o qual o usuário fala. No entanto, na terceira modalidade, um personagem de imagem 800 exibido sobre o terminal tablet 700 é utilizado como um parceiro com o qual falar. Se um personagem for realizado como um robô, o usuário pode achar que o robô é como um animal de estimação e pode ter mais de uma ligação. No entanto, é possível que o terminal tablet 700 mais facilmente expressa um personagem.

[00108] A configuração de sistema do terminal tablet 700 é quase a mesma que a configuração de sistema do robô 100 da primeira modalidade descrita com referência à Figura 2. Uma descrição de configurações similares será omitida, e diferentes configurações serão abaixo descritas.

[00109] O terminal tablet 700 inclui um painel de display 710, um microfone 711, um alto-falante 712, e uma câmera 713. O painel de display 710 é, por exemplo, um painel de cristal líquido, e exibe o personagem de imagem 800. Portanto, o terminal tablet 700 não inclui o painel de display 106 para exibir somente a imagem do olho na primeira modalidade.

[00110] O microfone 711 é um elemento que substitui o microfone 101 da primeira modalidade. O microfone 711 coleta uma voz expressada do usuário. O alto-falante 712 é um elemento que substitui o altofalante 109 da primeira modalidade. O alto-falante 712 recebe um sinal de voz convertido pela parte de controle de elocução 210, e emite uma

Petição 870180048645, de 07/06/2018, pág. 125/151

35/37 voz de resposta. A câmera 713 é um elemento que substitui a câmera 102 da primeira modalidade. A câmera 713 captura uma imagem de uma face do usuário que faceia o terminal tablet 700.

[00111] O terminal tablet 700 pode não somente mudar uma expressão dos olhos mas também expressar uma emoção com uma face inteira ou mesmo um corpo inteiro. Neste caso, o DB de expressão de resposta 320 pode estar configurado para armazenar os dados de imagem que correspondem à face inteira e ao corpo inteiro em associação com um tipo e o grau de cada emoção.

[00112] Neste modo, quando o terminal tablet 700 é feito funcionar como um dispositivo de comunicação, um hardware dedicado como um dispositivo de comunicação não é requerido. Portanto, o usuário pode mais facilmente apreciar o diálogo com o personagem. Além disso, quando o dispositivo de comunicação tem uma configuração que permite o usuário falar com o personagem de imagem 800 em conjunto com outra aplicação do terminal tablet 700, o dispositivo de comunicação pode ser aplicado para vários propósitos.

[00113] A seguir algumas modificações serão descritas. Na primeira modalidade, o robô 100 está provido com substancialmente todas as configurações. Na segunda modalidade, a parte de processamento aritmético 400 do servidor 300 é responsável pelo cálculo principal. No entanto, em um sistema no qual um robô e um servidor cooperam um com o outro, cada um do robô e do servidor pode ter uma parte de processamento aritmético e pode compartilhar as funções a serem executadas. Por exemplo, a parte de processamento aritmético no lado do robô pode ser responsável por uma operação aritmética menor, e a parte de processamento aritmético no lado do servidor pode ser responsável por uma operação aritmética pesada que requer análise. Especificamente, a parte de processamento aritmético no lado do robô pode ser responsável por um comportamento de cabecear ou uma

Petição 870180048645, de 07/06/2018, pág. 126/151

36/37 sentença de questão emitida do lado do robô, e a parte de processamento aritmético no lado do servidor pode ser responsável por uma autenticação pessoal do usuário, estimativa de emoção, acumulação de dados de diálogo, e similares. Em um caso de adotar tal configuração, o sistema no qual o robô e o servidor cooperam um com o outro é um dispositivo de comunicação.

[00114] [0050] Mais ainda, a invenção não está limitada a um sistema no qual o robô e o servidor cooperam um com o outro, mas pode ser aplicada a um sistema no qual o terminal tablet descrito na terceira modalidade ou um smartphone e um servidor cooperam um com o outro. Mesmo com tal configuração, a parte de processamento aritmético no lado do terminal tablet ou no lado do smartphone pode ser responsável por uma operação aritmética menor, e a parte de processamento aritmético no lado do servidor pode ser responsável por uma operação aritmética pesada que requer análise. Em um caso de adotar tal configuração, o sistema no qual o terminal tablet ou o smartphone e o servidor cooperam um com o outro é um dispositivo de comunicação.

[00115] Em cada uma das modalidades acima descritas, a câmera captura uma imagem de uma face de um usuário como um parceiro de um diálogo. No entanto, um ângulo de visão pode ser ajustado de modo a capturar uma imagem de um corpo inteiro do usuário. Por exemplo, quando um estado do corpo inteiro saltando ou agachando pode ser observado, é possível estimar a segunda emoção mais precisamente. As modalidades acima descritas descreveram, como uma fonte de informações para estimar a segunda emoção, uma face e informações biológicas do usuário que está falando. No entanto, a invenção não está limitada a isto. Vários tipos de informações outras que as informações de elocução do usuário podem ser outra fonte de informações para estimar a segunda emoção. Por exemplo, quando um microfone para coletar um som do ambiente circundante está provido, é possível coletar

Petição 870180048645, de 07/06/2018, pág. 127/151

37/37 uma voz inesperadamente expressada de uma pessoa outra que um usuário como parte do diálogo. A segunda parte de estimativa de emoção 204 pode estimar uma emoção de surpreso dependendo de um nível de falta de expectativa.

[00116] Como um sensor para adquirir as informações sobre o ambiente circundante, é possível adotar sensores outros que um microfone de coletamento de som. Por exemplo, quando um sensor de temperatura ou um sensor de umidade é utilizado como o sensor para adquirir as informações sobre o ambiente circundante, a segunda parte de estimativa de emoção 204 pode utilizar os sinais de saída destes sensores como informações para estimar um grau de desconforto do usuário.

[00117] Em cada uma das modalidades acima descritas, um modelo circumplexo de Russel é utilizado para calcular a emoção empática. Utilizando o modelo circumplexo de Russel, é possível calcular a emoção do usuário mais quantitativamente. No entanto, em emoções empáticas de computação, outras várias técnicas conhecidas podem ser adotadas para calcular a emoção empática.

Claims

1/4

REIVINDICAÇÕES

1. Dispositivo de comunicação que permite um personagem falar com um usuário, o dispositivo de comunicação caracterizado pelo fato de que compreende:

uma parte de aquisição de elocução (101, 201) configurada para adquirir uma elocução do usuário para o personagem;

uma parte de aquisição de informações (102, 202) configurada para adquirir informações diferentes da elocução;

uma parte de geração de voz (209, 210) configurada para gerar uma voz de resposta a ser emitida pelo personagem com base em um conteúdo da elocução adquirido pela parte de aquisição de elocução (101, 201); e uma parte de geração de expressão (205, 207) configurada para gerar uma expressão de resposta a ser expressada por uma porção de face do personagem com base no conteúdo da elocução adquirido pela parte de aquisição de elocução (101, 201), em que quando as informações são adquiridas da parte de aquisição de informações (102, 202), a parte de geração de expressão (205, 207) gera a expressão de resposta utilizando as informações juntamente com o conteúdo da elocução, a expressão de resposta gerada quando as informações são adquiridas sendo diferentes de uma expressão de resposta gerada quando as informações não são adquiridas.

2. Dispositivo de comunicação de acordo com a reivindicação 1, caracterizado pelo fato de que ainda compreende:

um banco de dados (320) configurado para armazenar uma pluralidade das expressões de resposta associados com uma pluralidade de emoções, respectivamente, em que a parte de geração de expressão (205, 207) seleciona, do banco de dados (320), a expressão de resposta associada com

Petição 870180048645, de 07/06/2018, pág. 129/151

2/4 uma terceira emoção que é determinada de acordo com uma combinação de uma primeira emoção e uma segunda emoção, a primeira emoção sendo estimada com base no conteúdo da elocução e a segunda emoção sendo estimada com base nas informações adquiridas pela parte de aquisição de informações (102, 202).

3. Dispositivo de comunicação de acordo com a reivindicação 2, caracterizado pelo fato de que:

no banco de dados (320), a pluralidade de emoções está associada com a pluralidade das expressões de resposta, respectivamente, com base em um modelo circumplexo de Russel; e a parte de geração de expressão (205, 207) determina a terceira emoção com base em uma soma de um primeiro vetor que corresponde à primeira emoção no modelo circumplexo de Russel e um segundo vetor que corresponde à segunda emoção no modelo circumplexo de Russel.

4. Dispositivo de comunicação de acordo com a reivindicação 2 ou 3, caracterizado pelo fato de que a parte de geração de expressão (205, 207) seleciona, do banco de dados (320), a expressão de resposta que corresponde a uma quarta emoção que aproxima da terceira emoção em uma faixa predeterminada.

5. Dispositivo de comunicação de acordo com qualquer uma das reivindicações 1 a 4, caracterizado pelo fato de que quando gerando duas expressões de resposta consecutivamente, a parte de geração de expressão (205, 207) gera pelo menos uma expressão de resposta de interpolação entre as duas expressões de resposta, a pelo menos uma expressão de resposta de interpolação interpolando as duas expressões de resposta.

6. Dispositivo de comunicação de acordo com qualquer uma das reivindicações 1 a 5, caracterizado pelo fato de que a parte de aquisição de informações (102, 202) inclui uma parte de formação de

Petição 870180048645, de 07/06/2018, pág. 130/151

3/4 imagem configurada para capturar uma imagem do usuário.

7. Dispositivo de comunicação de acordo com qualquer uma das reivindicações 1 a 6, caracterizado pelo fato de que a parte de aquisição de informações (102, 202) inclui um sensor biométrico (500) configurado para adquirir informações biológicas do usuário.

8. Dispositivo de comunicação de acordo com qualquer uma das reivindicações 1 a 7, caracterizado pelo fato de que a parte de aquisição de informações (102, 202) inclui um sensor ambiental configurado para adquirir informações ambientais de um ambiente circundante do dispositivo de comunicação.

9. Dispositivo de comunicação de acordo com qualquer uma das reivindicações 1 a 8, caracterizado pelo fato de que ainda compreende:

uma parte de aquisição de estado (112) configurada para adquirir um estado interno de um dispositivo de personagem que incorpora o personagem, em que a parte de geração de expressão (205, 207) gera a expressão de resposta com base no estado interno adquirido pela parte de aquisição de estado (112) além do conteúdo da elocução e das informações.

10. Robô de comunicação, caracterizado pelo fato de que compreende:

o dispositivo de comunicação como definido em qualquer uma das reivindicações 1 a 9; e a porção de face (120) configurada para expressar a expressão de resposta gerada pela parte de geração de expressão (205, 207).

11. Meio de armazenamento legível por computador, caracterizado pelo fato de que compreende:

uma parte de memória configurada para armazenar um

Petição 870180048645, de 07/06/2018, pág. 131/151

4/4 programa de controle de comunicação a ser executado por um computador de um dispositivo de comunicação que permite um personagem falar com um usuário, em que quando o programa de controle de comunicação é executado pelo computador, o computador executa as seguintes etapas de:

uma etapa de aquisição de elocução de adquirir uma elocução do usuário para o personagem;

uma etapa de aquisição de informações de adquirir informações diferentes da elocução;

uma etapa de geração de voz de gerar uma voz de resposta a ser emitida pelo personagem com base em um conteúdo da elocução adquirida na etapa de aquisição de elocução; e uma etapa de geração de expressão de gerar uma expressão de resposta a ser expressada por uma porção de face do personagem com base no conteúdo da elocução adquirida na etapa de aquisição de elocução, e em que na etapa de geração de expressão, quando as informações são adquiridas, a expressão de resposta é gerada utilizando as informações juntamente com o conteúdo da elocução, a expressão de resposta gerada quando as informações são adquiridas sendo diferentes de uma expressão de resposta gerada quando as informações não são adquiridas.