DE102021125686A1

DE102021125686A1 - Sprechevaluationssystem, Sprechevaluationsverfahren und Programm

Info

Publication number: DE102021125686A1
Application number: DE102021125686.0A
Authority: DE
Inventors: Hikaru Sugata
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2020-11-19
Filing date: 2021-10-04
Publication date: 2022-05-19
Anticipated expiration: 2041-10-05
Also published as: US20220157299A1; CN114550723B; JP2022081050A; US12100390B2; CN114550723A; JP7354992B2; DE102021125686B4

Abstract

Eine Sprecherfassungseinheit 22 erfasst ein Sprechen in einer Kommunikation basierend auf Ausgangswerten von Mikrofonen 11 einer Mehrzahl von tragbaren Endgeräten 3 und identifiziert ein tragbares Endgerät 3 entsprechend dem erfassten Sprechen. Eine Sprechzeitdauer-Erfassungseinheit 23 erfasst für jedes Sprechen einen Startzeitpunkt des Sprechens und einen Endzeitpunkt davon. Eine Evaluationswert-Berechnungseinheit 26 berechnet für jedes von der Sprecherfassungseinheit 22 erfasste Sprechen einen Evaluationswert für das Sprechen basierend auf einem Ausgangswert eines Beschleunigungssensors 12 eines tragbaren Endgeräts 3, welches sich von dem tragbaren Endgerät 3 entsprechend dem Sprechen unterscheidet, in einem Evaluationszeitraum von einem ersten Zeitpunkt, welcher bei dem oder später als der Startzeitpunkt des Sprechens und früher als der Endzeitpunkt des Sprechens liegt, bis zu einem zweiten Zeitpunkt, welcher später liegt als der Endzeitpunkt des Sprechens.

Description

Hintergrund
Die vorliegende Offenbarung betrifft ein Sprechevaluationssystem, ein Sprechevaluationsverfahren und ein Programm.
Es besteht die Anforderung, dass in einer Kommunikation zwischen einer Mehrzahl von Teilnehmern ein wichtiges Sprechen, welches für Zuhörer besonders überzeugend ist, aus individuellem Sprechen bzw. Vorträgen der Mehrzahl von Teilnehmern extrahiert werden kann.
Als eine solche Technologie gibt es eine in Patentliteratur 1 ( JP 2016-103081 A ) offenbarte Technologie, bei welcher in einer Konversationskommunikation, an der eine Mehrzahl von Benutzern teilnimmt, die Anzahl der Male eines Nickens von Zuhörern gezählt wird, indem ein tragbares Endgerät verwendet wird, das von einem bestimmten Sprecher getragen wird, während der bestimmte Sprecher spricht, und ein Zuhörerakzeptanzgrad für den bestimmten Sprecher auf der Grundlage eines Wertes berechnet wird, welcher erhalten wird, indem die gezählte Anzahl der Male des Nickens durch die Zuhörer durch die Dauer der Konversation des bestimmten Sprechers geteilt wird (Absätze 0080 und 0093). Ferner wird gemäß dieser Technologie berücksichtigt, dass die Konversation umso stärker von den Zuhörern akzeptiert wurde, je höher der Zuhörerakzeptanzgrad ist.
Kurzfassung
Bei der in Patentliteratur 1 offenbarten Technologie besteht Verbesserungsbedarf hinsichtlich der Erfassungsgenauigkeit von Sprechevaluationen bzw. -auswertungen.
Eine Aufgabe der vorliegenden Offenbarung besteht darin, eine Technologie zur genauen Bestimmung eines Evaluationswertes für jedes Sprechen in einer Kommunikation zwischen einer Mehrzahl von Teilnehmern bereitzustellen.
Ein erster beispielhafter Aspekt entspricht einem Sprechevaluations- bzw. auswertungssystem, welches derart konfiguriert ist, dass dieses einen Evaluationswert für jedes Sprechen in einer Kommunikation zwischen einer Mehrzahl von Teilnehmern erhält, mit: einer Mehrzahl von tragbaren Endgeräten, wobei jedes aus der Mehrzahl von tragbaren Endgeräten angepasst ist, um von einem entsprechenden aus der Mehrzahl von Teilnehmern getragen zu werden, und einen Sensor mit zumindest einer Schallsammeleinheit umfasst; einer Sprecherfassungseinheit, welche derart konfiguriert ist, dass diese ein Sprechen in der Kommunikation basierend auf Ausgangswerten der Schallsammeleinheiten der Mehrzahl von tragbaren Endgeräten erfasst und ein tragbares Endgerät entsprechend dem erfassten Sprechen identifiziert; einer Sprechzeitdauer-Erfassungseinheit, welche derart konfiguriert ist, dass diese für jedes von der Sprecherfassungseinheit erfasste Sprechen einen Startzeitpunkt des Sprechens und einen Endzeitpunkt davon erfasst; und einer Evaluationswert-Berechnungseinheit, welche derart konfiguriert ist, dass diese für jedes von der Sprecherfassungseinheit erfasste Sprechen einen Evaluationswert für das Sprechen basierend auf einem Ausgangswert des Sensors eines tragbaren Endgeräts, welches sich von dem tragbaren Endgerät entsprechend dem Sprechen unterscheidet, in einem Sprechevaluationszeitraum von einem ersten Zeitpunkt bis zu einem zweiten Zeitpunkt berechnet, wobei der erste Zeitpunkt bei dem oder später als der Startzeitpunkt des Sprechens und früher als der Endzeitpunkt des Sprechens liegt, und der zweite Zeitpunkt später liegt als der Endzeitpunkt des Sprechens. Gemäß der vorstehend beschriebenen Konfiguration wird die Reaktion eines Zuhörers auf ein Sprechen, welche zu einem gegenüber dem Sprechen verzögerten Zeitpunkt erfolgt, sowie die während des Sprechens auftretende Reaktion des Zuhörers bei der Berechnung eines Evaluationswertes für das Sprechen berücksichtigt. Daher ist es möglich, einen Evaluationswert für jedes Sprechen genau zu berechnen. Der zweite Zeitpunkt kann auf einen Zeitpunkt eingestellt sein, welcher eine vorbestimmte Zeit nach dem Endzeitpunkt des entsprechenden Sprechens liegt. Gemäß der vorstehend beschriebenen Konfiguration wird die für die Einstellung des zweiten Zeitpunkts erforderliche Berechnung vereinfacht, so dass der zweite Zeitpunkt mit geringen Kosten eingestellt werden kann.
Der zweite Zeitpunkt kann auf einen Zeitpunkt eingestellt sein, zu dem ein anderes Sprechen nach dem entsprechenden Sprechen beginnt. Gemäß der vorstehend beschriebenen Konfiguration kann ein Evaluationswert unter Ausschluss von Reaktionen auf das andere Sprechen berechnet werden, so dass es möglich ist, den Evaluationswert für das entsprechende Sprechen genau zu berechnen.
Der zweite Zeitpunkt kann auf einen Zeitpunkt eingestellt sein, der eine vorbestimmte Zeit nach dem Endzeitpunkt des entsprechenden Sprechens liegt. Wenn im Anschluss an das entsprechende Sprechen ein anderes Sprechen beginnt, bevor die vorbestimmte Zeit ab dem Endzeitpunkt des entsprechenden Sprechens verstreicht, kann der zweite Zeitpunkt auf einen Zeitpunkt eingestellt sein, zu dem das andere Sprechen im Anschluss an das entsprechende Sprechen beginnt. Gemäß der vorstehend beschriebenen Konfiguration kann der zweite Zeitpunkt mit niedrigen Kosten eingestellt werden, wenn im Anschluss an das entsprechende Sprechen kein Sprechen beginnt, bevor die vorbestimmte Zeit ab dem Endzeitpunkt des entsprechenden Sprechens verstreicht. Ferner kann, wenn im Anschluss an das entsprechende Sprechen ein anderes Sprechen beginnt, bevor die vorbestimmte Zeit ab dem Endzeitpunkt des entsprechenden Sprechens verstreicht, ein Evaluationswert berechnet werden, während Reaktionen auf das andere Sprechen ausgeschlossen werden, so dass es möglich ist, den Evaluationswert für das entsprechende Sprechen genau zu berechnen.
Der Sensor kann einen Beschleunigungssensor umfassen.
Wenn ein Ausgangswert des Beschleunigungssensors eine vertikale Schüttelbewegung eines Kopfes eines Teilnehmers anzeigt, welcher das entsprechende tragbare Endgerät trägt, kann die Evaluationswert-Berechnungseinheit einen Evaluationswert für das entsprechende Sprechen derart berechnen, dass der Evaluationswert erhöht wird.
Wenn ein Ausgangswert des Beschleunigungssensors eine horizontale Schüttelbewegung eines Kopfes eines Teilnehmers anzeigt, welcher das entsprechende tragbare Endgerät trägt, kann die Evaluationswert-Berechnungseinheit einen Evaluationswert für das entsprechende Sprechen derart berechnen, dass der Evaluationswert verringert wird.
Ein zweiter beispielhafter Aspekt entspricht einem Sprechevaluationsverfahren zum Erhalten eines Evaluationswertes für jedes Sprechen bei einer Kommunikation zwischen einer Mehrzahl von Teilnehmern, wobei jeder der Mehrzahl von Teilnehmern ein entsprechendes aus einer Mehrzahl von tragbaren Endgeräten trägt, wobei jedes der Mehrzahl von tragbaren Endgeräten einen Sensor umfasst, welcher zumindest eine Schallsammeleinheit umfasst, wobei das Sprechevaluationsverfahren umfasst: ein Erfassen eines Sprechens in der Kommunikation basierend auf Ausgangswerten der Schallsammeleinheiten der Mehrzahl von tragbaren Endgeräten, und ein Identifizieren eines tragbaren Endgeräts entsprechend dem erfassten Sprechen; ein Erfassen eines Startzeitpunkts des Sprechens und eines Endzeitpunkts davon für jedes erfasste Sprechen; und ein Berechnen eines Evaluationswerts für das Sprechen für jedes erfasste Sprechen basierend auf einem Ausgangswert des Sensors eines tragbaren Endgeräts, welches sich von dem tragbaren Endgerät entsprechend dem Sprechen unterscheidet, in einem Sprechevaluationszeitraum von einem ersten Zeitpunkt bis zu einem zweiten Zeitpunkt, wobei der erste Zeitpunkt bei dem oder später als der Startzeitpunkt des Sprechens und früher als der Endzeitpunkt des Sprechens liegt, und der zweite Zeitpunkt später liegt als der Endzeitpunkt des Sprechens. Gemäß dem vorstehend beschriebenen Verfahren wird die Reaktion eines Zuhörers auf ein Sprechen, welche zu einem gegenüber dem Sprechen verzögerten Zeitpunkt erfolgt, sowie die während des Sprechens auftretende Reaktion des Zuhörers bei der Berechnung eines Evaluationswertes für das Sprechen berücksichtigt. Somit ist es möglich, einen Evaluationswert für jedes Sprechen genau zu berechnen.
Ferner entspricht ein weiterer beispielhafter Aspekt einem Programm zum Veranlassen eines Computers, das vorstehend beschriebene Sprechevaluationsverfahren durchzuführen.
Gemäß der vorliegenden Offenbarung wird die Reaktion eines Zuhörers auf ein Sprechen, welche zu einem gegenüber dem Sprechen verzögerten Zeitpunkt erfolgt, sowie die während des Sprechens auftretende Reaktion des Zuhörers bei der Berechnung eines Evaluationswertes für das Sprechen berücksichtigt. Daher ist es möglich, einen Evaluationswert für jedes Sprechen genau zu berechnen.
Die Vorstehende und weitere Aufgaben, Merkmale und Vorteile der vorliegenden Offenbarung werden anhand der nachstehend angegebenen, detaillierten Beschreibung und der beigefügten Abbildungen, welche nur zur Veranschaulichung dienen und daher nicht als Beschränkung der vorliegenden Offenbarung zu betrachten sind, ersichtlicher.
Figurenliste

1 ist eine schematische Abbildung eines Sprechevaluationssystems;
2 ist ein Funktionsblockdiagramm eines tragbaren Endgeräts;
3 zeigt ein Beispiel für eine Struktur von Übertragungsdaten;
4 ist ein Funktionsblockdiagramm einer Evaluations- bzw. Auswertungsvorrichtung;
5 zeigt Übertragungsdaten, welche in einer Evaluationsvorrichtung gesammelt sind;
6 ist ein Diagramm, welches erfasstes Sprechen und Zustimmungsverhältnisse zeigt;
7 ist ein Diagramm, welches eine monoton ansteigende Funktion zeigt, die in einem Verstärkungsprozess verwendet wird;
8 ist ein Diagramm, welches erfasstes Sprechen und f(p)-Werte zeigt;
9 zeigt ein Beispiel für eine Struktur von Evaluationsdaten;
10 zeigt einen Steuerungsfluss eines Sprechevaluationssystems; und
11 ist ein Diagramm, welches eine Stufenfunktion zeigt, die in einem Verstärkungsprozess verwendet wird.

Beschreibung von Ausführungsformen
Die vorliegende Offenbarung wird im Folgenden anhand von Ausführungsformen gemäß der Offenbarung beschrieben. Diese sollen den Schutzumfang der vorliegenden Offenbarung gemäß den Ansprüchen jedoch nicht beschränken. Ferner sind nicht alle der in den Ausführungsformen beschriebenen Komponenten/Strukturen notwendigerweise als Mittel zur Lösung des Problems unverzichtbar. Zur Verdeutlichung der Erläuterungen sind die folgenden Beschreibungen und die Abbildungen teilweise weggelassen und gegebenenfalls vereinfacht. In den Abbildungen sind den gleichen Elementen die gleichen Bezugsziffern (oder Symbole) zugeordnet, und redundante Beschreibungen davon werden gegebenenfalls weggelassen.
1 zeigt eine schematische Abbildung eines Sprechevaluationssystems 1. Das Sprechevaluationssystem 1 entspricht einem System zum Bestimmen eines Evaluationswertes für jedes Sprechen bei einer Kommunikation zwischen einer Mehrzahl von Teilnehmern 2. Das Sprechevaluationssystem 1 umfasst eine Mehrzahl von tragbaren Endgeräten 3 und eine Evaluationsvorrichtung 4.
In dieser Ausführungsform beträgt die Anzahl an Teilnehmern 2, die an der gleichen Kommunikation teilnehmen, drei. Die Anzahl der Teilnehmer, die an der gleichen Kommunikation teilnehmen, ist jedoch nicht auf drei beschränkt, und kann zwei, oder vier oder mehr, beispielsweise zehn, betragen. Bei der Kommunikation handelt es sich in der Regel um eine Gesprächskommunikation, welche durch Sprechen der Teilnehmer davon geschaffen wird. Beispiele für diese Art von Kommunikation umfassen eine Debatte, eine Diskussion am runden Tisch und eine Workshop- (oder Seminar-) Sitzung. Die Kommunikation ist jedoch nicht auf solche beschränkt, bei denen sich alle Teilnehmer im selben realen Raum treffen. Das heißt, die Kommunikation kann auch solche umfassen, bei denen sich alle Teilnehmer in einem virtuellen Online-Raum treffen.
(Tragbares Endgerät 3)
Wie in 1 gezeigt, wird jedes aus der Mehrzahl von tragbaren Endgeräten 3 von einem entsprechenden aus der Mehrzahl von Teilnehmern 2 getragen (oder daran angebracht) und von diesem genutzt. Das heißt, ein Teilnehmer 2 trägt ein tragbares Endgerät 3. In dieser Ausführungsform ist jedes der tragbaren Endgeräte 3 ein Badge bzw. Abzeichen, das abnehmbar an einem Oberteil (das heißt einem Oberbekleidungsstück), das am Oberkörper eines entsprechenden der Teilnehmer 2 getragen wird, angebracht werden kann und das vorzugsweise an einer Stelle oberhalb der Magengrube des Teilnehmers 2 angebracht ist. Anstelle der Form eines Badges kann jedes der tragbaren Endgeräte 3 jedoch auch ein Headset, ein Kopfhörer, eine Brille, eine Halskette, ein Anhänger oder dergleichen sein.
2 zeigt ein Funktionsblockdiagramm jedes der tragbaren Endgeräte 3. Wie in 2 dargestellt, umfasst das tragbare Endgerät 3 eine Endgeräte-ID-Informationsspeichereinheit 10, ein Mikrofon 11 und einen Beschleunigungssensor 12. Das tragbare Endgerät 3 umfasst ferner eine CPU (zentrale Verarbeitungseinheit) 3a als eine zentrale Verarbeitungseinheit, einen lesbaren/beschreibbaren RAM (Direktzugriffsspeicher) 3b und einen Nurlese-ROM (Nurlesespeicher) 3c. Ferner lädt die CPU 3a ein in dem ROM 3c gespeichertes Steuerprogramm und führt dieses aus, und das Steuerprogramm bewirkt, dass Hardware, wie die CPU 3a, als eine Zeitzähleinheit 13, eine Übertragungsdaten-Erzeugungseinheit 14 und eine Datenübertragungs-/Empfangseinheit 15 dient. Jedes der tragbaren Endgeräte 3 kann über die Datenübertragungs-/Empfangseinheit 15 eine Zwei-Wege-Funkkommunikation mit der Evaluationsvorrichtung 4 durchführen.
Die Endgeräte-ID-Informationsspeichereinheit 10 speichert Endgeräte-ID-Informationen zur Identifizierung eines entsprechenden tragbaren Endgeräts 3 von anderen tragbaren Endgeräten 3. Ein typisches Beispiel für die Endgeräte-ID-Informationen entspricht einer MAC-Adresse, welche für jedes tragbare Endgerät 3 eindeutig ist. Die Endgeräte-ID-Informationen können jedoch einer Zahl, einer Buchstabenfolge oder einer Kombination daraus entsprechen, die von der Evaluationsvorrichtung 4 bei der Inbetriebnahme des tragbaren Endgeräts 3 eingestellt wird. In dieser Ausführungsform handelt es sich bei den Endgeräte-ID-Informationen um eine natürliche Zahl, welche von der Evaluationsvorrichtung 4 bei der Inbetriebnahme des tragbaren Endgeräts 3 eingestellt bzw. festgelegt wird.
Das Mikrofon 11 entspricht einem spezifischen Beispiel für die Schallsammeleinheit und wandelt einen Schall um das entsprechende tragbare Endgerät 3 in einen Spannungswert um und gibt den erhaltenen Spannungswert an die Übertragungsdaten-Erzeugungseinheit 14 aus.
Der Beschleunigungssensor 12 wandelt Dreiachsen-Beschleunigungen (das heißt, Beschleunigungskomponenten auf den drei Achsen) des entsprechenden tragbaren Endgeräts 3 in Spannungswerte um und gibt die erhaltenen Spannungswerte an die Übertragungsdaten-Erzeugungseinheit 14 aus. Wenn ein Teilnehmer 2, welcher das entsprechende tragbare Endgerät 3 trägt, seinen Kopf „vertikal“ schüttelt, wiederholt der Oberkörper dieses Teilnehmers 2 eine Beugung (das heißt eine Biegung) und eine Erstreckung (das heißt eine Streckung) um die Rollachse (eine Achse parallel zu der Achse, welche die linke und die rechte Schulter verbindet). Daher schwankt in diesem Fall aus den Ausgangswerten des Beschleunigungssensors 12 der Wert der vertikalen Komponente derart, dass dieser innerhalb eines vorbestimmten Bereichs wiederholend zu- und abnimmt. Wenn der Teilnehmer 2, welcher das entsprechende tragbare Endgerät 3 trägt, seinen Kopf andererseits „horizontal“ schüttelt, wiederholt der Oberkörper des Teilnehmers 2 ein Verdrehen um die Gierachse (eine Achse parallel zu der Richtung, in der sich die Wirbelsäule erstreckt). Daher schwankt in diesem Fall aus den Ausgangswerten des Beschleunigungssensors 12 der dem Wert der horizontalen Komponente entsprechende Ausgangswert derart, dass dieser innerhalb eines vorbestimmten Bereichs wiederholend zu- und abnimmt.
Das Mikrofon 11 und der Beschleunigungssensor 12 bilden einen Sensor 16 zur Erfassung eines Sprechens des Teilnehmers 2, welcher das entsprechende tragbare Endgerät 3 trägt. Der Beschleunigungssensor 12 kann jedoch weggelassen werden.
Die Zeitzähleinheit 13 hält Zeitdaten, inkrementiert die Zeitdaten, die durch ein vorbestimmtes Verfahren initialisiert werden, in einem vorbestimmten Zyklus und gibt die Zeitdaten an die Übertragungsdaten-Erzeugungseinheit 14 aus. Die Zeitdaten, welche von der Zeitzähleinheit 13 gehalten werden, werden typischerweise durch Zeitdaten initialisiert, die von der Evaluationsvorrichtung 4 empfangen werden. Alternativ können die von der Zeitzähleinheit 13 gehaltenen Zeitdaten initialisiert werden, indem das entsprechende tragbare Endgerät 3 über die Evaluationsvorrichtung 4 und das Internet auf das Network-Time-Protocol (NTP) zugreift und dadurch die neuesten Zeitdaten erhält.
Die Übertragungsdaten-Erzeugungseinheit 14 erzeugt in vorbestimmten Intervallen Übertragungsdaten 14a, welche in 3 gezeigt sind. Wie in 3 dargestellt, umfassen die Übertragungsdaten 14a Endgeräte-ID-Informationen, Zeitdaten, Sprachdaten und Beschleunigungsdaten. Das vorbestimmte Intervall beträgt typischerweise eine Sekunde. Bei den Sprachdaten handelt es sich um einen Ausgangswert des Mikrofons 11, welcher in einer Zeitdauer von der durch die Zeitdaten angegebenen Zeit bis eine Sekunde nach dieser Zeit ausgegeben wird. Gleichermaßen entsprechen die Beschleunigungsdaten einem Ausgangswert des Beschleunigungssensors 12, welcher in der Zeitdauer von der durch die Zeitdaten angegebenen Zeit bis eine Sekunde nach dieser Zeit ausgegeben wird.
Unter erneuter Bezugnahme auf 2 überträgt die Datenübertragungs-/Empfangseinheit 15 die Übertragungsdaten 14a an die Evaluationsvorrichtung 4. In dieser Ausführungsform überträgt die Datenübertragungs-/Empfangseinheit 15 die Übertragungsdaten 14a über eine Kurzstrecken-Funkkommunikation, wie Bluetooth (eingetragenes Warenzeichen), an die Evaluationsvorrichtung 4. Alternativ kann die Datenübertragungs-/Empfangseinheit 15 die Übertragungsdaten 14a über eine drahtgebundene Kommunikation an die Evaluationsvorrichtung 4 übertragen. Ferner kann die Datenübertragungs-/Empfangseinheit 15 die Übertragungsdaten 14a über ein Netzwerk, wie das Internet, an die Evaluationsvorrichtung 4 übertragen.
(Evaluationsvorrichtung 4)
4 zeigt ein Funktionsblockdiagramm der Evaluationsvorrichtung 4. Wie in 4 dargestellt, umfasst die Evaluationsvorrichtung 4 eine CPU (zentrale Verarbeitungseinheit) 4a als eine zentrale Verarbeitungseinheit, einen lesbaren/beschreibbaren RAM (Direktzugriffsspeicher) 4b und einen Nurlese-ROM (Nurlesespeicher) 4c. Ferner lädt die CPU 4a ein in dem ROM 4c gespeichertes Steuerprogramm und führt dieses aus, und das Steuerprogramm bewirkt, dass Hardware, wie die CPU 4a, als eine Datenübertragungs-/Empfangseinheit 20, eine Datenspeichereinheit 21, eine Sprecherfassungseinheit 22, eine Sprechzeitdauer-Erfassungseinheit 23, eine Zustimmungsverhältnis-Berechnungseinheit 24, eine Verstärkungsverarbeitungseinheit 25, eine Evaluationswert-Berechnungseinheit 26 und eine Evaluationswert-Ausgabeeinheit 27 dient.
Die Datenübertragungs-/Empfangseinheit 20 empfängt Übertragungsdaten 14a von jedem der tragbaren Endgeräte 3 und akkumuliert bzw. sammelt (das heißt speichert) die empfangenen Übertragungsdaten 14a in der Datenspeichereinheit 21. 5 zeigt eine Mehrzahl von Übertragungsdaten 14a, welche in der Datenspeichereinheit 21 gesammelt sind. Wie in 5 gezeigt, wird eine Mehrzahl von Übertragungsdaten 14a, welche jeweils von einem der tragbaren Endgeräte 3 empfangen werden, in der Datenspeichereinheit 21 in der Reihenfolge ihres Empfangs gesammelt.
Unter erneuter Bezugnahme auf 4 erfasst die Sprecherfassungseinheit 22 ein Sprechen bei der Kommunikation auf der Grundlage von Ausgangswerten der Mikrofone 11 der Mehrzahl von tragbaren Endgeräten 3, und identifiziert ein tragbares Endgerät 3, welches dem erfassten Sprechen entspricht.
Insbesondere analysiert die Sprecherfassungseinheit 22 Stimmen- bzw. Sprachdaten, welche in der Datenspeichereinheit 21 gesammelt sind. Wenn die Sprachdaten irgendeiner der Mehrzahl von Übertragungsdaten 14a zu einer bestimmten Zeit einen vorbestimmten Wert überschreiten, erfasst (das heißt bestimmt) die Sprecherfassungseinheit 22, dass es zu dieser bestimmten Zeit zu einem Sprechen bei der Kommunikation gekommen ist, und identifiziert ein tragbares Endgerät 3, welches dem erkannten Sprechen entspricht, unter Bezugnahme auf die Endgeräte-ID-Informationen dieser Übertragungsdaten 14a.
6 zeigt ein Beispiel für ein von der Sprecherfassungseinheit 22 erfasstes Sprechen a, b, c und d. Die horizontale Achse in 6 gibt die Zeit an. Die Sprecherfassungseinheit 22 erfasst das Sprechen a, b, c und d in dieser aufgelisteten Reihenfolge in einem Zustand, in dem diese einander nicht überlappen. Das Sprechen a und c erfolgt durch einen Teilnehmer 2, welcher ein tragbares Endgerät 3 mit einer Endgeräte-ID: 1 trägt. Gleichermaßen entspricht das Sprechen b einem Sprechen, das durch einen Teilnehmer 2 erfolgt, welcher ein tragbares Endgerät 3 mit einer Endgeräte-ID: 2 trägt, und das Sprechen d entspricht einem Sprechen, das durch einen Teilnehmer 2 erfolgt, welcher ein tragbares Endgerät 3 mit einer Endgeräte-ID: 3 trägt.
Zu beachten ist, dass das Verfahren, mit dem die Sprecherfassungseinheit 22 ein Sprechen erfasst und ein tragbares Endgerät 3 identifiziert, welches dem erfassten Sprechen entspricht, nicht auf das vorstehend beschriebene Verfahren beschränkt ist.
Wenn beispielsweise Sprachdaten von irgendwelchen aus einer Mehrzahl von Übertragungsdaten 14a zu einer gegebenen bzw. bestimmten Zeit um einen vorbestimmten Betrag oder mehr größer sind als die der anderen Übertragungsdaten 14a zu dieser Zeit, kann die Sprecherfassungseinheit 22 erfassen, dass es zu dieser Zeit zu einem Sprechen in der Kommunikation gekommen ist, und ein tragbares Endgerät 3 entsprechend dem erfassten Sprechen identifizieren, indem auf die Endgeräte-ID-Informationen dieser Übertragungsdaten 14a Bezug genommen wird.
Ferner kann die Sprecherfassungseinheit 22 in den Sprachdaten enthaltene stationäre Geräusche als Vorverarbeitung für die Erfassung eines Sprechens entfernen. Die stationären Geräusche sind beispielsweise Geräusche, welche durch das Betriebsgeräusch einer Klimaanlage oder durch Umgebungsgeräusche hervorgerufen werden. Ferner kann die Sprecherfassungseinheit 22 nicht-stationäre Geräusche, welche in den Sprachdaten enthalten sind, als Vorverarbeitung für die Erfassung eines Sprechens entfernen. Bei den nicht-stationären Geräuschen handelt es sich um Geräusche, die beispielsweise durch eine plötzliche laute Stimme einer Person hervorgerufen werden, die an der Kommunikation nicht teilnimmt, oder um Geräusche, welche durch das Öffnen/Schließen einer Tür hervorgerufen werden. Die vorstehend beschriebenen nicht-stationären Geräusche besitzen eine solche Charakteristik, dass diese in den Sprachdaten der Mehrzahl von Übertragungsdaten 14a zu einer bestimmten Zeit in nahezu gleichem Ausmaß auftreten.
Unter erneuter Bezugnahme auf 4 erfasst die Sprechzeitdauer-Erfassungseinheit 23 für jedes von der Sprecherfassungseinheit 22 erfasste Sprechen ein Start-Timing bzw. einen Startzeitpunkt des Sprechens und einen Endzeitpunkt davon. In dem in 6 gezeigten Beispiel entspricht der Startzeitpunkt des Sprechens a einem Zeitpunkt t1 und der Endzeitpunkt davon entspricht einem Zeitpunkt t2. Der Startzeitpunkt des Sprechens b entspricht einem Zeitpunkt t4 und der Endzeitpunkt davon entspricht einem Zeitpunkt t5. Der Startzeitpunkt des Sprechens c entspricht einem Zeitpunkt t6 und der Endzeitpunkt davon entspricht einem Zeitpunkt t7. Der Startzeitpunkt des Sprechens d entspricht einem Zeitpunkt t8 und der Endzeitpunkt davon entspricht einem Zeitpunkt t9. Zu beachten ist, dass der Begriff „Zeitpunkt“ in dieser Spezifikation ein Konzept besitzt, dass ein Zeitpunkt auf der Zeitachse spezifiziert ist, und es kann sich um eine Zeit handeln, die aus Stunden, Minuten und Sekunden besteht, oder um eine einfache natürliche Zahl, welche mit der Zeit inkrementiert wird. Daher kann in dieser Spezifikation der „Zeitpunkt“ einfach als „Zeit“ betrachtet werden.
Unter erneuter Bezugnahme auf 4 berechnet die Zustimmungsverhältnis-Berechnungseinheit 24 für jeden vorbestimmten Abschnitt einer Zeit (im Folgenden auch als ein vorbestimmter Zeitabschnitt bezeichnet) ein Zustimmungsverhältnis. Zu beachten ist, dass das Zustimmungsverhältnis einem Verhältnis entspricht, welches durch Dividieren der Anzahl an Zuhörern, die genickt haben, durch die Anzahl aller Zuhörer erhalten wird, und einen Wert zwischen null und eins besitzt. Der vorbestimmte Zeitabschnitt beträgt beispielsweise fünf Sekunden. Wenn dieser Zeitabschnitt zu lang ist, können zu unterschiedlichen Zeitpunkten durchgeführte Nickbewegungen als zum gleichen Zeitpunkt durchgeführte Nickbewegungen betrachtet werden, so dass Zustimmungsbewegungen für ein Sprechen überschätzt werden können. Wenn dieser Zeitabschnitt zu kurz ist, können Nickbewegungen, welche im Wesentlichen zum gleichen Zeitpunkt durchgeführt werden, als Nickbewegungen betrachtet werden, welche zu unterschiedlichen Zeitpunkten durchgeführt werden, so dass Zustimmungsbewegungen für ein Sprechen unterschätzt werden können.
Die Zustimmungsverhältnis-Berechnungseinheit 24 berechnet zunächst ein Zustimmungsverhältnis während des Sprechens a unter Bezugnahme auf die in 5 dargestellten gesammelten Übertragungsdaten 14a. Das heißt, die Zustimmungsverhältnis-Berechnungseinheit 24 analysiert Beschleunigungsdaten von Übertragungsdaten 14a entsprechend der Endgeräte-ID: 2 während eines Zeitraums vom Zeitpunkt t1 bis fünf Sekunden nach dem Zeitpunkt t1, und bestimmt, ob der Teilnehmer 2, welcher das tragbare Endgerät 3 entsprechend der Endgeräte-ID: 2 trägt, eine Nickbewegung durchgeführt hat. Im Folgenden wird ein spezifisches Beispiel für die Bestimmung des Vorhandenseins/Fehlens einer Nickbewegung auf der Grundlage von Beschleunigungsdaten beschrieben.
Das heißt, die Zustimmungsverhältnis-Berechnungseinheit 24 extrahiert Vertikalkomponentenwerte von Beschleunigungsdaten während des Zeitraums vom Zeitpunkt t1 bis fünf Sekunden nach dem Zeitpunkt t1, berechnet einen Mittelwert und eine Standardabweichung der extrahierten Vertikalkomponentenwerte. Wenn die Standardabweichung kleiner als ein vorbestimmter Wert ist und es einen singulären Vertikalkomponentenwert(e) gibt, der einzeln aufgetreten ist und um einen vorbestimmten Betrag oder mehr von dem Mittelwert abweicht, bestimmt die Zustimmungsverhältnis-Berechnungseinheit 24 dann, dass der Teilnehmer 2, welcher das tragbare Endgerät 3 entsprechend der Endgeräte-ID: 2 trägt, während des Zeitraums vom Zeitpunkt t1 bis fünf Sekunden nach dem Zeitpunkt t1 eine Nickbewegung durchgeführt hat. Gleiches gilt für die Endgeräte-ID: 3. Die Zustimmungsverhältnis-Berechnungseinheit 24 wiederholt die vorstehend beschriebene Berechnung eines Zustimmungsverhältnisses in ähnlicher Art und Weise, nachdem fünf Sekunden ab dem Zeitpunkt t1 verstrichen sind, und beendet die Berechnung zu einem Zeitpunkt t4, zu dem ein anderes Sprechen als das Sprechen a erfolgte.
Durch Einstellen der Vorbedingung dahingehend, dass die Standardabweichung der Vertikalkomponentenwerte von Beschleunigungsdaten kleiner als der vorbestimmte Wert sein soll, wenn die Zustimmungsverhältnis-Berechnungseinheit 24 das Vorhandensein/Nichtvorhandensein einer Nickbewegung bestimmt, ist es möglich, Geräusche zu entfernen, welche durch eine große bzw. starke Bewegung des Teilnehmers 2 hervorgerufen werden, die sich von der Nickbewegung davon unterscheidet, wie beispielsweise Geräusche, welche durch eine Gehbewegung des Teilnehmers 2 hervorgerufen werden, und solche, welche hervorgerufen werden, wenn der Teilnehmer 2 seine Haltung ändert.
In dem in 6 gezeigten Beispiel steigt das Zustimmungsverhältnis in dem Zeitraum von dem Zeitpunkt t1 bis zu dem Zeitpunkt t2 von einem Wert nahe null einmal stark an, fällt einmal ab und steigt dann wieder an. Das Zustimmungsverhältnis bleibt um den Zeitpunkt t2 herum konstant und kehrt dann vor dem Zeitpunkt t4 auf den Wert nahe null zurück.
Zu beachten ist, dass in dem in 6 gezeigten Beispiel das Zustimmungsverhältnis theoretisch einen der Werte 0, 0,5 und 1,0 annehmen würde, da es nur zwei Zuhörer gibt. Um das Verständnis zu erleichtern, wird das Zustimmungsverhältnis jedoch allmählich bzw. schrittweise geändert, als ob es etwa 30 Zuhörer gäbe.
Nachfolgend berechnet die Zustimmungsverhältnis-Berechnungseinheit 24 ein Zustimmungsverhältnis während des Sprechens b. Das heißt, die Zustimmungsverhältnis-Berechnungseinheit 24 analysiert Beschleunigungsdaten von Übertragungsdaten 14a entsprechend der Endgeräte-ID: 1 während eines Zeitraums von dem Zeitpunkt t4 bis fünf Sekunden nach dem Zeitpunkt t4, und bestimmt, ob der Teilnehmer 2, welcher das tragbare Endgerät 3 entsprechend der Endgeräte-ID: 1 trägt, eine Nickbewegung durchgeführt hat. Gleiches gilt für die Endgeräte-ID: 3. Die Zustimmungsverhältnis-Berechnungseinheit 24 wiederholt die vorstehend beschriebene Berechnung eines Zustimmungsverhältnisses in ähnlicher Weise, nachdem fünf Sekunden ab dem Zeitpunkt t4 verstrichen sind, und beendet die Berechnung zu einem Zeitpunkt t6, zu dem ein anderes Sprechen als das Sprechen b erfolgte.
In dem in 6 gezeigten Beispiel bleibt das Zustimmungsverhältnis in einem Zeitraum von dem Zeitpunkt t4 bis zu dem Zeitpunkt t5 bei oder unter 0,5 und ist um den Zeitpunkt t5 herum nahezu null.
Die Zustimmungsverhältnis-Berechnungseinheit 24 berechnet Zustimmungsverhältnisse zu und nach dem Zeitpunkt t6 in ähnlicher Weise.
Zu beachten ist, dass es als ein Beispiel für andere Verfahren, mit denen die Zustimmungsverhältnis-Berechnungseinheit 24 das Vorhandensein/Nichtvorhandensein einer Nickbewegung bestimmt, ein Verfahren gibt, bei dem: Vertikalkomponentenwerte aus Übertragungsdaten 14a für jeden vorbestimmten Zeitabschnitt extrahiert werden; die extrahierten Vertikalkomponentenwerte in ein bereits trainiertes neuronales Faltungsnetzwerk (CNN: Convolution-Neural-Network) eingegeben werden; und wenn der Ausgangswert des neuronalen Faltungsnetzwerks höher als ein vorbestimmter Wert ist, bestimmt wird, dass ein Teilnehmer 2, welcher das entsprechende tragbare Endgerät 3 trägt, in diesem Zeitabschnitt eine Nickbewegung durchgeführt hat. Ferner gibt es als weiteres Beispiel für andere Verfahren, mit denen die Zustimmungsverhältnis-Berechnungseinheit 24 das Vorhandensein/Nichtvorhandensein einer Nickbewegung bestimmt, ein Verfahren, bei dem: Vertikalkomponentenwerte aus Übertragungsdaten 14a für jeden vorbestimmten Zeitabschnitt extrahiert werden; verschiedene Merkmalswerte (wie eine Differenz zwischen einem Maximalwert und einem Minimalwert, ein Varianzwert und eine Häufigkeitsverteilung) der extrahierten Vertikalkomponentenwerte berechnet werden; die berechneten Merkmalswerte in eine bereits trainierte Support-Vektor-Maschine (SVM: Support-Vector-Machine) eingegeben werden; und deren Ausgangswerte verwendet werden.
Unter erneuter Bezugnahme auf 4 führt die Verstärkungsverarbeitungseinheit 25 einen Verstärkungsprozess für das von der Zustimmungsverhältnis-Berechnungseinheit 24 berechnete Zustimmungsverhältnis durch, um das Hoch/Tief des Zustimmungsverhältnisses zu verstärken. Beispielsweise kann der nachstehend gezeigte Ausdruck (1), welcher einer monoton ansteigenden Funktion entspricht, für den Verstärkungsprozess verwendet werden. Zu beachten ist, dass p für ein Zustimmungsverhältnis steht und k für einen Anpassungsparameter steht.
[Ausdruck 1] $ƒ (p) = \frac{e^{k p} - 1}{e^{k} - 1}$
7 zeigt ein Diagramm des vorstehend dargestellten Ausdrucks (1), welcher in dem von der Verstärkungsverarbeitungseinheit 25 durchgeführten Verstärkungsprozess verwendet wird, wobei die horizontale Achse das Zustimmungsverhältnis angibt und die vertikale Achse den f(p)-Wert angibt. Je größer der Anpassungsparameter k ist, desto schärfer und konvexer wird die durch den f(p)-Wert gezeichnete Kurve nach rechts unten in der Grafik. Gemäß dem Verstärkungsprozess durch den vorstehend gezeigten Ausdruck (1) besitzt der f(p)-Wert einen großen Wert, wenn die meisten Zuhörer unisono bzw. übereinstimmend nicken, und wenn die Zuhörer sporadisch zu unterschiedlichen Zeitpunkten nicken, besitzt der f(p)-Wert einen kleinen Wert. Durch den vorstehend beschriebenen Verstärkungsprozess ist es möglich, ein wichtiges Sprechen, bei dem die meisten Zuhörer übereinstimmend nicken, von einem anderen relativ unwichtigen Sprechen abzuheben.
8 zeigt f(p)-Werte nach dem Verstärkungsprozess. Gemäß 8 wird der f(p)-Wert, wenn die meisten der Zuhörer nicht übereinstimmend nicken, auch in einem Zeitabschnitt, in dem eine bestimmte Anzahl an Zuhörern genickt haben, um die Hälfte oder auf einen Wert nahe null in diesem Zeitabschnitt komprimiert (d.h. reduziert).
Die Evaluationswert-Berechnungseinheit 26 stellt für jedes von der Sprecherfassungseinheit 22 erfasste Sprechen einen Evaluations- bzw. Auswertungszeitraum als einen dem Sprechen entsprechenden Sprechevaluationszeitraum ein und berechnet einen Evaluationswert für das Sprechen.
(Sprechen a)
Insbesondere stellt die Evaluationswert-Berechnungseinheit 26 einen Startzeitpunkt (einen ersten Zeitpunkt) eines Evaluationszeitraums entsprechend dem Sprechen a auf einen Zeitpunkt ein, der bei oder später als der Zeitpunkt t1, welcher dem Startzeitpunkt des Sprechens a entspricht, und früher als der Zeitpunkt t2, welcher dem Endzeitpunkt des Sprechens a entspricht, liegt. In dieser Ausführungsform stellt die Evaluationswert-Berechnungseinheit 26 den Startzeitpunkt des Evaluationszeitraums entsprechend dem Sprechen a auf den Zeitpunkt t1 ein, welcher dem Startzeitpunkt des Sprechens a entspricht. Zu beachten ist, dass eine Nickbewegung, die unmittelbar nach dem Beginn eines Sprechens durchgeführt wird, nicht notwendigerweise einer Nickbewegung für dieses Sprechen entspricht, sondern einer Nickbewegung für ein anderes Sprechen entsprechen kann, das unmittelbar vor diesem Sprechen erfolgte. Um Nickbewegungen für das Sprechen a erfolgreich von Nickbewegungen für das Sprechen unmittelbar vor dem Sprechen a zu trennen, kann die Evaluationswert-Berechnungseinheit 26 daher den Startzeitpunkt des Evaluationszeitraums entsprechend dem Sprechen a auf einen Zeitpunkt einstellen, welcher um eine vorbestimmte Zeit nach dem Zeitpunkt t1, welcher dem Startzeitpunkt des Sprechens a entspricht, liegt.
Ferner stellt die Evaluationswert-Berechnungseinheit 26 einen Endzeitpunkt (einen zweiten Zeitpunkt) des Evaluationszeitraums für das Sprechen a auf den Zeitpunkt t3 ein, welcher einem Zeitpunkt entspricht, der um eine vorbestimmte Zeit nach dem Zeitpunkt t2 liegt, welcher dem Endzeitpunkt des Sprechens a entspricht. Zu beachten ist, dass die vorbestimmte Zeit vorzugsweise in einem Bereich von beispielsweise 5 bis 15 Sekunden liegt und in dieser Ausführungsform auf 15 Sekunden eingestellt ist.
Dann berechnet die Evaluationswert-Berechnungseinheit 26 einen Evaluationswert für das Sprechen a durch Aufsummieren von f(p)-Werten während des Evaluationszeitraums entsprechend dem Sprechen a.
(Sprechen b)
Die Evaluationswert-Berechnungseinheit 26 stellt den Startzeitpunkt des Evaluationszeitraums entsprechend dem Sprechen b auf den Zeitpunkt t4 ein.
Gemäß 8 beginnt das Sprechen c indessen, bevor die vorstehend beschriebene vorbestimmte Zeit ab dem Zeitpunkt t5 verstreicht, welcher dem Endzeitpunkt des Sprechens b entspricht. Falls der Endzeitpunkt des Evaluationszeitraums entsprechend dem Sprechen b auf einen Zeitpunkt eingestellt ist, der wie im Falle des Endzeitpunkts des Evaluationszeitraums entsprechend dem Sprechen a um die vorbestimmte Zeit nach dem Zeitpunkt t5 liegt, besteht daher eine Möglichkeit, dass Nickbewegungen für das Sprechen c als solche für das Sprechen b betrachtet werden. Somit stellt die Evaluationswert-Berechnungseinheit 26 in diesem Fall den Endzeitpunkt des Evaluationszeitraums entsprechend dem Sprechen b auf den Zeitpunkt t6 ein, zu dem das Sprechen c beginnt.
Obwohl in dem in 8 gezeigten Beispiel die f(p)-Werte während des Sprechens b extrem niedrig sind, werden große oder ziemlich große f(p)-Werte beobachtet, sobald das Sprechen c beginnt. Es ist wahrscheinlich, dass die großen f(p)-Werte unmittelbar nach dem Zeitpunkt t6 nicht durch das Sprechen b, sondern durch das Sprechen c hervorgerufen werden. Indem der Endzeitpunkt des dem Sprechen b entsprechenden Evaluationszeitraums wie vorstehend beschrieben auf den Zeitpunkt t6 eingestellt wird, zu dem das Sprechen c beginnt, wird die Überbewertung des Sprechens b vermieden.
Dann berechnet die Evaluationswert-Berechnungseinheit 26 einen Evaluationswert für das Sprechen b durch Aufsummieren von f(p)-Werten während des dem Sprechen b entsprechenden Evaluationszeitraums.
(Sprechen c)
Die Evaluationswert-Berechnungseinheit 26 stellt den Startzeitpunkt und den Endzeitpunkt des Evaluationszeitraums entsprechend dem Sprechen c in ähnlicher Art und Weise wie diese für das Sprechen b ein und berechnet einen Evaluationswert für das Sprechen c durch Aufsummieren von f(p)-Werten während des Evaluationszeitraums entsprechend dem Sprechen c.
(Sprechen d)
Die Evaluationswert-Berechnungseinheit 26 stellt den Startzeitpunkt und den Endzeitpunkt des Evaluationszeitraums entsprechend dem Sprechen d in ähnlicher Art und Weise wie diese für das Sprechen a ein und berechnet einen Evaluationswert für das Sprechen d durch Aufsummieren von f(p)-Werten während des Evaluationszeitraums entsprechend dem Sprechen d.
Dann speichert die Evaluationswert-Berechnungseinheit 26, wie in 9 gezeigt, das von der Sprecherfassungseinheit 22 erfasste Sprechen als Evaluationsdaten in der Datenspeichereinheit 21, während dieses mit den Startzeiten von diesem Sprechen, Sprachdaten davon und den Evaluationswerten für dieses Sprechen verknüpft wird. Der Evaluationswert für ein Sprechen kann als nützlicher Indikator für die Wichtigkeit dieses Sprechens verwendet werden.
Anschließend gibt die Evaluationswert-Ausgabeeinheit 27 Evaluationsdaten nach einem gewünschten Verfahren aus.
Unter Bezugnahme auf die ausgegebenen Evaluationsdaten kann die Mehrzahl von Teilnehmern 2 einfach und schnell Sprachdaten eines hoch bewerteten Sprechens erhalten, das in der Kommunikation als wichtig erachtet wird. Daher kann ein Teilnehmer 2, welcher beabsichtigt, das Protokoll der Kommunikation zu erstellen, in kürzerer Zeit über den Inhalt der Kommunikation nachdenken (z. B. sorgfältig nachdenken), indem bevorzugt die Sprachdaten des hoch bewerteten Sprechens angehört werden, und kann daher in kürzerer Zeit ein genaues Protokoll erstellen.
Die von dem Sprechevaluationssystem 1 durchgeführten Vorgänge werden im Folgenden unter Bezugnahme auf 10 beschrieben.
S100:
Zunächst bestimmt die Evaluationsvorrichtung 4, ob eine Kommunikation zwischen einer Mehrzahl von Teilnehmern 2 begonnen hat. Wenn die Evaluationsvorrichtung 4 bestimmt, dass die Kommunikation nicht begonnen hat (S100: Nein), wiederholt die Evaluationsvorrichtung 4 den Schritt S100. Wenn die Evaluationsvorrichtung 4 hingegen bestimmt, dass die Kommunikation begonnen hat (S100: Ja), fährt die Evaluationsvorrichtung 4 mit dem Prozess zu einem Schritt S110 fort. Die Evaluationsvorrichtung 4 kann beispielsweise bestimmen, dass die Kommunikation begonnen hat, wenn eine Kommunikation zwischen der Evaluationsvorrichtung 4 und einer Mehrzahl von tragbaren Endgeräten 3 hergestellt ist.
S110:
Als nächstes empfängt die Datenübertragungs-/Empfangseinheit 20 Übertragungsdaten 14a von der Mehrzahl von tragbaren Endgeräten 3 und sammelt diese in der Datenspeichereinheit 21.
S120:
Als nächstes bestimmt die Evaluationsvorrichtung 4, ob die Kommunikation zwischen der Mehrzahl von Teilnehmern 2 beendet ist. Wenn die Evaluationsvorrichtung 4 bestimmt, dass die Kommunikation nicht beendet ist (S120: Nein), führt die Evaluationsvorrichtung 4 den Prozess zu Schritt S110 zurück. Wenn die Evaluationsvorrichtung 4 hingegen bestimmt, dass die Kommunikation beendet ist (S120: Ja), fährt die Evaluationsvorrichtung 4 mit dem Prozess zu einem Schritt S130 fort. Die Evaluationsvorrichtung 4 kann beispielsweise bestimmen, dass die Kommunikation beendet ist, wenn die Kommunikation zwischen der Evaluationsvorrichtung 4 und allen tragbaren Endgeräten 3, welche mit der Evaluationsvorrichtung 4 in Verbindung standen, unterbrochen ist.
S130:
Nachfolgend erfasst die Sprecherfassungseinheit 22 ein Sprechen in der Kommunikation unter Bezugnahme auf die in der Datenspeichereinheit 21 gesammelten Übertragungsdaten 14a, und identifiziert ein dem erfassten Sprechen entsprechendes tragbares Endgerät 3.
S140:
Als nächstes erfasst die Sprechzeitdauer-Erfassungseinheit 23 für jedes von der Sprecherfassungseinheit 22 erfasstes Sprechen einen Startzeitpunkt des Sprechens und einen Endzeitpunkt davon.
S150:
Als nächstes berechnet die Zustimmungsverhältnis-Berechnungseinheit 24 ein Zustimmungsverhältnis für jeden vorbestimmten Zeitabschnitt.
S160:
Nachfolgend führt die Verstärkungsverarbeitungseinheit 25 einen Verstärkungsprozess für das von der Zustimmungsverhältnis-Berechnungseinheit 24 berechnete Zustimmungsverhältnis durch, um das Hoch/Tief des Zustimmungsverhältnisses zu verstärken.
S170:
Als nächstes stellt die Evaluationswert-Berechnungseinheit 26 für jedes von der Sprecherfassungseinheit 22 erfasste Sprechen einen dem Sprechen entsprechenden Evaluationszeitraum ein und berechnet einen Evaluationswert für das Sprechen.
S180:
Anschließend gibt die Evaluationswert-Ausgabeeinheit 27 Evaluationsdaten nach einem gewünschten Verfahren aus.
Eine bevorzugte Ausführungsform gemäß der vorliegenden Offenbarung wurde vorstehend beschrieben, und die vorstehend beschriebene Ausführungsform besitzt die nachstehend beschriebenen Merkmale.
Das heißt, bei der Kommunikation zwischen einer Mehrzahl von Teilnehmern 2 umfasst das Sprechevaluationssystem 1, welches einen Evaluationswert für jedes Sprechen erhält, eine Mehrzahl von tragbaren Endgeräten 3, eine Sprecherfassungseinheit 22, eine Sprechzeitdauer-Erfassungseinheit 23 und eine Evaluationswert-Berechnungseinheit 26.
Jedes aus der Mehrzahl von tragbaren Endgeräten 3 wird von einem jeweiligen der Mehrzahl von Teilnehmern 2 getragen und umfasst einen Sensor 16, welcher zumindest ein Mikrofon 11 (eine Schallsammeleinheit) umfasst. Die Sprecherfassungseinheit 22 erfasst ein Sprechen in der Kommunikation auf der Grundlage von Ausgangswerten der Mikrofone 11 der Mehrzahl von tragbaren Endgeräten 3 und identifiziert ein dem erfassten Sprechen entsprechendes tragbares Endgerät 3. Die Sprechzeitdauer-Erfassungseinheit 23 erfasst für jedes von der Sprecherfassungseinheit 22 erfasste Sprechen einen Startzeitpunkt des Sprechens und einen Endzeitpunkt davon. Die Evaluationswert-Berechnungseinheit 26 berechnet für jedes von der Sprecherfassungseinheit 22 erfasste Sprechen einen Evaluationswert für das Sprechen auf der Grundlage eines Ausgangswerts des Beschleunigungssensors 12 eines anderen tragbaren Endgeräts 3 als des tragbaren Endgeräts 3 entsprechend dem Sprechen in einem Evaluationszeitraum (einem Sprechevaluationszeitraum) von einem ersten Zeitpunkt, welcher bei oder später als bzw. nach dem Startzeitpunkt der Sprechens und früher als bzw. vor dem Endzeitpunkt des Sprechens liegt, bis zu einem zweiten Zeitpunkt, welcher nach dem Endzeitpunkt des Sprechens liegt. Gemäß der vorstehend beschriebenen Konfiguration wird die Reaktion eines Zuhörers auf ein Sprechen, welche zu einem gegenüber dem Sprechen verzögerten Zeitpunkt erfolgt, sowie die während des Sprechens auftretende Reaktion des Zuhörers bei der Berechnung eines Evaluationswertes für das Sprechen berücksichtigt. Daher ist es möglich, einen Evaluationswert für jedes Sprechen genau zu berechnen.
Ferner ist der zweite Zeitpunkt auf einen Zeitpunkt eingestellt, der um eine vorbestimmte Zeit nach dem Endzeitpunkt des entsprechenden Sprechens liegt. Siehe beispielsweise den Zeitpunkt t3 oder den Zeitpunkt t10 in 8. Gemäß der vorstehend beschriebenen Konfiguration wird die zur Einstellung des zweiten Zeitpunkts erforderliche Berechnung vereinfacht, so dass der zweite Zeitpunkt mit geringen Kosten eingestellt werden kann.
Ferner ist der zweite Zeitpunkt vorzugsweise auf einen Zeitpunkt eingestellt, zu dem ein anderes Sprechen beginnt, welches auf das entsprechende Sprechen folgt. Siehe beispielsweise den Zeitpunkt t6 und den Zeitpunkt t8 in 8. Gemäß der vorstehend beschriebenen Konfiguration kann ein Evaluationswert unter Ausschluss von Reaktionen auf das andere Sprechen berechnet werden, so dass es möglich ist, den Evaluationswert für das entsprechende Sprechen genau zu berechnen.
Ferner ist der zweite Zeitpunkt auf einen Zeitpunkt eingestellt, der um eine vorbestimmte Zeit nach dem Endzeitpunkt des entsprechenden Sprechens liegt (siehe den Zeitpunkt t3 und den Zeitpunkt t10). Wenn ein anderes Sprechen (das Sprechen c oder das Sprechen d) im Anschluss an das entsprechende Sprechen beginnt, bevor die vorbestimmte Zeit ab dem Endzeitpunkt des entsprechenden Sprechens verstreicht, wird der zweite Zeitpunkt auf einen Zeitpunkt eingestellt, zu dem das andere Sprechen im Anschluss an das entsprechende Sprechen beginnt. Siehe beispielsweise den Zeitpunkt t6 und den Zeitpunkt t8 in 8. Gemäß der vorstehend beschriebenen Konfiguration kann der zweite Zeitpunkt mit geringen Kosten eingestellt werden, wenn im Anschluss an das entsprechende Sprechen kein Sprechen beginnt, bevor die vorbestimmte Zeit ab dem Endzeitpunkt des entsprechenden Sprechens verstreicht. Ferner kann, wenn im Anschluss an das entsprechende Sprechen ein anderes Sprechen beginnt, bevor die vorbestimmte Zeit ab dem Endzeitpunkt des entsprechenden Sprechens verstreicht, ein Evaluationswert berechnet werden, während Reaktionen auf das andere Sprechen ausgeschlossen werden, so dass es möglich ist, einen Evaluationswert für das entsprechende Sprechen genau zu berechnen.
Wenn der Ausgangswert des Beschleunigungssensors 12 eine vertikale Schüttelbewegung eines Kopfes eines Teilnehmers anzeigt, welcher das entsprechende tragbare Endgerät 3 trägt, berechnet die Evaluationswert-Berechnungseinheit 26 einen Evaluationswert für das entsprechende Sprechen derart, dass der Evaluationswert erhöht wird.
Das heißt, da die vertikale Schüttelbewegung des Kopfes als eine Handlung betrachtet werden kann, die eine Zustimmung anzeigt, kann das entsprechende Sprechen als relativ hoch bewertet betrachtet werden.
Die vorstehend beschriebene Ausführungsform kann wie nachstehend beschrieben modifiziert werden.
In der vorstehenden Ausführungsform extrahiert die Zustimmungsverhältnis-Berechnungseinheit 24 Vertikalkomponentenwerte von Beschleunigungsdaten und erfasst Nickbewegungen der Teilnehmer 2 auf der Grundlage der extrahierten Vertikalkomponentenwerte. Alternativ oder zusätzlich kann die Zustimmungsverhältnis-Berechnungseinheit 24 Horizontalkomponentenwerte der Beschleunigungsdaten extrahieren und auf der Grundlage der extrahierten Horizontalkomponentenwerte Schüttelbewegungen der Köpfe der Teilnehmer 2, das heißt Ablehnungsbewegungen, erfassen. Die horizontale Schüttelbewegung des Kopfes entspricht einer Bewegung, die zu der Nickbewegung, das heißt, der vertikalen Schüttelbewegung des Kopfes, widersprüchlich ist und eine negative und ablehnende Einstellung gegenüber dem Sprechen anzeigt. In diesem Fall kann die Zustimmungsverhältnis-Berechnungseinheit 24 ein Zustimmungsverhältnis berechnen, so dass sich Nickbewegungen und Ablehnungsbewegungen gegenseitig aufheben. Wenn beispielsweise die Anzahl der an einer Kommunikation teilnehmenden Teilnehmer 2 zehn beträgt und in einem bestimmten Zeitabschnitt acht von diesen Nickbewegungen durchführen und die verbleibenden zwei Ablehnungsbewegungen durchführen, kann die Zustimmungsverhältnis-Berechnungseinheit 24 daher ein Zustimmungsverhältnis in diesem gegebenen Zeitabschnitt von 0,6 ((8-2)/10 = 0,6) berechnen. Kurz gesagt kann die Evaluationswert-Berechnungseinheit 26 einen Evaluationswert derart berechnen, dass, wenn der Ausgangswert des Beschleunigungssensors 12 eine horizontale Schüttelbewegung des Kopfes eines Teilnehmers anzeigt, welcher das entsprechende tragbare Endgerät 3 trägt, der Evaluationswert für das entsprechende Sprechen verringert wird.
In der vorstehend beschriebenen Ausführungsform umfasst jedes der tragbaren Endgeräte 3 einen Beschleunigungssensor 12, und die Zustimmungsverhältnis-Berechnungseinheit 24 berechnet ein Zustimmungsverhältnis auf der Grundlage des Ausgangswerts des Beschleunigungssensors 12 von jedem der tragbaren Endgeräte 3. Der Beschleunigungssensor 12 kann jedoch auch weggelassen werden. In diesem Fall berechnet die Zustimmungsverhältnis-Berechnungseinheit 24 ein Zustimmungsverhältnis auf der Grundlage des Ausgangswerts des Mikrofons 11 von jedem der tragbaren Endgeräte 3. Wenn beispielsweise das Mikrofon 11 von jedem der tragbaren Endgeräte 3 ein Sprechen aufnimmt, das auf eine Zustimmung hindeutet, wie „Ich verstehe“, „In der Tat“ oder „Das ist richtig“, kann die Zustimmungsverhältnis-Berechnungseinheit 24 ein Zustimmungsverhältnis berechnen, während das Sprechen als ein Ausdruck einer Zustimmung äquivalent zu der Nickbewegung betrachtet wird.
Ferner kann die Evaluationsvorrichtung 4 in einem Cloud-System ausgebildet sein, und jedes der tragbaren Endgeräte 3 kann mit der Evaluationsvorrichtung 4 über das Internet kommunizieren. Ferner kann die von der Evaluationsvorrichtung 4 durchgeführte Informationsverarbeitung von einer Mehrzahl von Vorrichtungen in verteilter Weise verarbeitet werden.
Ferner verwendet die Verstärkungsverarbeitungseinheit 25 in der vorstehend beschriebenen Ausführungsform beispielsweise eine monoton ansteigende Funktion, wie in 7 gezeigt, wenn diese einen Verstärkungsprozess für das von der Zustimmungsverhältnis-Berechnungseinheit 24 berechnete Zustimmungsverhältnis durchführt, um das Hoch/Tief des Zustimmungsverhältnisses zu verstärken. Wie in 11 gezeigt, kann die Verstärkungsverarbeitungseinheit 25 stattdessen jedoch eine Stufenfunktion verwenden, welche durch den nachstehend gezeigten Ausdruck (2) ausgedrückt ist, wenn diese einen Verstärkungsprozess für das von der Zustimmungsverhältnis-Berechnungseinheit 24 berechnete Zustimmungsverhältnis durchführt, um das Hoch/Tief des Zustimmungsverhältnisses zu verstärken.
[Ausdruck 2] $ƒ (p) = {\begin{matrix} 0 & f a l l s p < 0,5 \\ 1 & i n a n d e r e n F \ddot{a} l l e n \end{matrix}$
In dem vorstehend beschriebenen Beispiel kann das Programm auf einem Computer gespeichert und bereitgestellt werden, wobei irgendeine Art von nicht-transitorischen, computerlesbaren Medien verwendet wird. Nicht-transitorische, computerlesbare Medien umfassen irgendeine Art von materiellen Speichermedien. Beispiele für nicht-transitorische, computerlesbare Medien umfassen magnetische Speichermedien (wie Disketten, Magnetbänder, Festplattenlaufwerke usw.), optische magnetische Speichermedien (z. B. magneto-optische Platten), CD-ROM (Compact-Disc-Read-Only-Memory), CD-R (Compact-Disc-Recordable), CD-R/W (Compact-Disc-Rewritable) und Halbleiterspeicher (wie Mask-ROM, PROM (programmierbarer ROM), EPROM (löschbarer PROM), Flash-ROM, RAM (Direktzugriffsspeicher) usw.). Das Programm kann einem Computer unter Verwendung irgendeiner Art von transitorischen, computerlesbaren Medien bereitgestellt werden. Beispiele für transitorische, computerlesbare Medien umfassen elektrische Signale, optische Signale und elektromagnetische Wellen. Transitorische, computerlesbare Medien können das Programm einem Computer über eine drahtgebundene Kommunikationsleitung (beispielsweise elektrische Drähte und optische Fasern) oder eine drahtlose Kommunikationsleitung bereitstellen.
Die Evaluationsvorrichtung 4 kann einige der Funktionen von jeder der tragbaren Vorrichtungen 3 durchführen, und/oder zumindest eines der tragbaren Endgeräte 3 kann einige der Funktionen der Evaluationsvorrichtung 4 durchführen.
Aus der so beschriebenen Offenbarung wird ersichtlich, dass die Ausführungsformen der Offenbarung in vielerlei Hinsicht variiert werden können. Solche Variationen sind nicht als Abweichung vom Grundgedanken und Rahmen der Offenbarung zu betrachten, und alle derartigen Modifikationen, die für einen Fachmann naheliegend sind, sollen in dem Schutzumfang der nachfolgenden Ansprüche liegen.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

JP 2016103081 A [0003]

Claims

Sprechevaluationssystem, welches derart konfiguriert ist, dass dieses einen Evaluationswert für jedes Sprechen in einer Kommunikation zwischen einer Mehrzahl von Teilnehmern erhält, aufweisend: eine Mehrzahl von tragbaren Endgeräten (3), wobei jedes aus der Mehrzahl von tragbaren Endgeräten angepasst ist, um von einem entsprechenden aus der Mehrzahl von Teilnehmern getragen zu werden, und einen Sensor mit zumindest einer Schallsammeleinheit umfasst; eine Sprecherfassungseinheit (22), welche derart konfiguriert ist, dass diese ein Sprechen in der Kommunikation basierend auf Ausgangswerten der Schallsammeleinheiten der Mehrzahl von tragbaren Endgeräten erfasst und ein tragbares Endgerät entsprechend dem erfassten Sprechen identifiziert; eine Sprechzeitdauer-Erfassungseinheit (23), welche derart konfiguriert ist, dass diese für jedes von der Sprecherfassungseinheit erfasste Sprechen einen Startzeitpunkt des Sprechens und einen Endzeitpunkt davon erfasst; und eine Evaluationswert-Berechnungseinheit (26), welche derart konfiguriert ist, dass diese für jedes von der Sprecherfassungseinheit erfasste Sprechen einen Evaluationswert für das Sprechen basierend auf einem Ausgangswert des Sensors eines tragbaren Endgeräts, welches sich von dem tragbaren Endgerät entsprechend dem Sprechen unterscheidet, in einem Sprechevaluationszeitraum von einem ersten Zeitpunkt bis zu einem zweiten Zeitpunkt berechnet, wobei der erste Zeitpunkt bei dem oder später als der Startzeitpunkt des Sprechens und früher als der Endzeitpunkt des Sprechens liegt, und der zweite Zeitpunkt später liegt als der Endzeitpunkt des Sprechens.
Sprechevaluationssystem nach Anspruch 1, wobei der zweite Zeitpunkt auf einen Zeitpunkt eingestellt ist, welcher um eine vorbestimmte Zeit nach dem Endzeitpunkt des entsprechenden Sprechens liegt.
Sprechevaluationssystem nach Anspruch 1, wobei der zweite Zeitpunkt auf einen Zeitpunkt eingestellt ist, zu dem ein weiteres Sprechen auf das entsprechende Sprechen folgend beginnt.
Sprechevaluationssystem nach Anspruch 1, wobei der zweite Zeitpunkt auf einen Zeitpunkt eingestellt ist, der um eine vorbestimmte Zeit nach dem Endzeitpunkt des entsprechenden Sprechens liegt, und wenn auf das entsprechende Sprechen folgend ein weiteres Sprechen beginnt, bevor die vorbestimmte Zeit ab dem Endzeitpunkt des entsprechenden Sprechens verstreicht, der zweite Zeitpunkt auf einen Zeitpunkt eingestellt ist, zu dem das weitere Sprechen auf das entsprechende Sprechen folgend beginnt.
Sprechevaluationssystem nach einem der Ansprüche 1 bis 4, wobei der Sensor einen Beschleunigungssensor aufweist.
Sprechevaluationssystem nach Anspruch 5, wobei die Evaluationswert-Berechnungseinheit, wenn ein Ausgangswert des Beschleunigungssensors eine vertikale Schüttelbewegung eines Kopfes eines das entsprechende tragbare Endgerät tragenden Teilnehmers anzeigt, den Evaluationswert für das entsprechende Sprechen derart berechnet, dass der Evaluationswert erhöht ist.
Sprechevaluationssystem nach Anspruch 5, wobei die Evaluationswert-Berechnungseinheit, wenn ein Ausgangswert des Beschleunigungssensors eine horizontale Schüttelbewegung eines Kopfes eines das entsprechende tragbare Endgerät tragenden Teilnehmers anzeigt, den Evaluationswert für das entsprechende Sprechen derart berechnet, dass der Evaluationswert verringert ist.
Sprechevaluationsverfahren zum Erhalten eines Evaluationswerts für jedes Sprechen in einer Kommunikation zwischen einer Mehrzahl von Teilnehmern, wobei jeder aus der Mehrzahl von Teilnehmern ein entsprechendes aus einer Mehrzahl von tragbaren Endgeräten trägt, wobei jedes aus der Mehrzahl von tragbaren Endgeräten einen Sensor mit zumindest einer Schallsammeleinheit umfasst, wobei das Sprechevaluationsverfahren aufweist: Erfassen eines Sprechens in der Kommunikation basierend auf Ausgangswerten der Schallsammeleinheiten der Mehrzahl von tragbaren Endgeräten, und Identifizieren eines tragbaren Endgeräts entsprechend dem erfassten Sprechen; Erfassen eines Startzeitpunkts des Sprechens und eines Endzeitpunkts davon für jedes erfasste Sprechen; und Berechnen eines Evaluationswerts für das Sprechen für jedes erfasste Sprechen basierend auf einem Ausgangswert des Sensors eines tragbaren Endgeräts, welches sich von dem tragbaren Endgerät entsprechend dem Sprechen unterscheidet, in einem Sprechevaluationszeitraum von einem ersten Zeitpunkt bis zu einem zweiten Zeitpunkt, wobei der erste Zeitpunkt bei dem oder später als der Startzeitpunkt des Sprechens und früher als der Endzeitpunkt des Sprechens liegt, und der zweite Zeitpunkt später liegt als der Endzeitpunkt des Sprechens.
Programm zum Veranlassen, dass ein Computer das Sprechevaluationsverfahren nach Anspruch 8 durchführt.